GDLIplus

Una nuova risorsa per la storia dell’italiano: il corpus degli esempi citati nel «Grande dizionario della lingua italiana» (GDLI)

Tipo di progetto: Regional  |  Data inizio: 01/10/2025  |  Data di fine: 30/09/2027

Pubblicato in 21 volumi tra il 1961 e il 2002, il «Grande dizionario della lingua italiana» (GDLI) è il più importante dizionario storico italiano. Come tutti i vocabolari storici, il GDLI fonda la descrizione lessicografica delle parole sul ricchissimo corredo di citazioni esemplificative, che coprono l’intera storia dell’italiano.

Grazie al lavoro di informatizzazione del GDLI che Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli” (CNR-ILC) ha già svolto con l’Accademia della Crusca, possiamo stimare che il corpus degli esempi citati (Corpus GDLIplus) comprenda oltre due milioni e mezzo di passi, tratti da oltre 14.000 fonti (e oltre 6.000 autori), per un totale di circa 50 milioni di occorrenze.

L’italiano è rimasto a lungo una lingua “scritta”: la storia dell’italiano è, di fatto, almeno fino ai Promessi Sposi, la storia dell’italiano letterario. Si capisce bene, dunque, come il Corpus GDLIplus possa essere considerato a pieno titolo una risorsa formidabile per la storia della lingua italiana, utile agli studiosi così come a insegnanti e studenti, fino al cittadino navigatore di Internet. Il progetto GDLIplus si propone di realizzare questa risorsa.

A questo fine, sono necessari due ordini di attività.

  1. Il corpus deve essere “annotato”: ad ogni parola devono, cioè, essere associate informazioni linguistiche (lemma e categoria morfo-sintattica). Nonostante i recenti progressi, i metodi e le tecniche di trattamento automatico del linguaggio non sono immediatamente applicabili ai testi storici, ma necessitano di specializzazioni a vari livelli.
  2. L’origine lessicografica dei testi contenuti nel corpus pone problemi specifici di gestione. La questione più macroscopica riguarda il caso in cui un medesimo passo testuale è citato più volte sotto voci diverse. L’implementazione del Corpus GDLIplus impone la messa a punto di una strategia di gestione degli esempi ripetuti, e prima ancora la costituzione di un metodo per la loro individuazione automatica.

Acronimo:
GDLIplus

Programma di Finanziamento:
Bando cofinanziato dal Programma regionale FSE+ 2021-2027; l'intervento rientra nel progetto regionale "Città universitarie e sistema regionale della ricerca" (Pr 13) ed è inserito nell’ambito del progetto della Regione Toscana per l’autonomia dei giovani “Giovanisì” (Pr 20)

Ente Finanziatore:
Regione Toscana | Accademia della Crusca

Stato:
Ongoing

Ruolo CNR-ILC:
Coordinator

Coordinatore progetto:
Elisa Guadagnini (CNR-ILC)

Staff:
Marco Biffi, Responsabile scientifico per l’Accademia della Crusca
Eva Sassolini (CNR-ILC)
Simonetta Montemagni (CNR-ILC)
Manuel Favaro (CNR-ILC)
Noemi Terreni (CNR-ILC)