Large Language Models for the European Union (LLMs4EU)

Large Language Models for the European Union

Tipo di progetto: European  |  Data inizio: 01/03/2025  |  Data di fine: 29/02/2028

Il progetto LLMs4EU project, coordinato dall’Alliance for Language Technologies (ALT-EDIC), mira a preservare la diversità linguistica e culturale europea nell’era digitale attraverso la cooperazione tra attori economici e accademici. Infatti, alcune lingue europee rischiano di essere escluse dallo sviluppo dell’IA generativa a causa della mancanza di risorse per addestrare i modelli linguistici.

Il progetto riunisce i principali attori europei nel campo dell’IA generativa per garantire che le aziende europee, in particolare le PMI, abbiano accesso agli strumenti e alle risorse necessari per diventare competitive nel campo delle tecnologie linguistiche e, in particolare, dei modelli linguistici di grandi dimensioni (LLM). L’obiettivo è rendere disponibili in open data gli LLM e tutti gli strumenti necessari per il loro utilizzo in tutte le lingue dell’UE, sfruttando i programmi e le competenze europee esistenti. Gli strumenti che saranno messi a disposizione delle aziende europee copriranno tutte le fasi, dall’addestramento degli LLM alla garanzia della loro conformità alla legislazione europea (AI Act, GDPR, ecc.).

Il consorzio creato attorno ad ALT-EDIC comprende organizzazioni che operano in più di 20 Paesi, il che garantisce una buona copertura geografica e linguistica. Il progetto svilupperà diversi casi d’uso rilevanti per dimostrare la capacità degli attori europei di collaborare alla creazione di strumenti adeguati per diversi settori economici, e la copertura di tutte le lingue dell’UE sarà garantita attraverso la creazione e l’acquisizione dei set di dati necessari da parte del progetto.

Il ruolo di CNR-ILC nell’ambito di LLMs4EU comprende contributi al caso d’uso scientifico, in particolare nella documentazione dei dati e dei modelli e nella valutazione. Ciò include il lavoro sulla raccolta dei dati e sulle infrastrutture, la definizione dei requisiti per gli strumenti di tecnologia linguistica, lo sviluppo di tecniche efficienti di messa a punto e adattamento dei modelli e la definizione di solide metodologie di valutazione dei modelli LLM, in particolare per la valutazione umana. In relazione al coinvolgimento del CNR-ILC nell’iniziativa ALT-EDIC, Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli” (CNR-ILC) è anche coinvolto nel garantire pratiche trasparenti e tracciabili in materia di dati durante tutto il ciclo di vita dei modelli LLM, compresa la governance dei dati e gli standard dei metadati.

Acronimo:
LLMs4EU

Programma di Finanziamento:
Digital Europe Programme (DIGITAL)

Ente Finanziatore:
European Union

Stato:
Ongoing

Ruolo CNR-ILC:
Beneficiary

Coordinatore progetto:
Alliance pour les technologies des langues (ATL-EDIC)

Staff:
Simonetta Montemagni
Anas Fahad Khan
Riccardo Del Gratta
Valeria Quochi
Felice Dell’Orletta
Giulia Venturi
Dominique Pierina Brunato
Alessandro Enea
Paola Baroni
Noemi Terreni
Sara Goggi

Sito/i web:
https://www.alt-edic.eu/projects/llms4eu/
https://ec.europa.eu/info/funding-tenders/opportunities/portal/screen/opportunities/projects-details/43152860/101198470