Studio dello spostamento semantico nell’evoluzione storica della lingua italiana condotto attraverso modelli di linguaggio neuronali

Seminario interno

Il seminario illustrerà lo studio, condotto per un progetto di tesi sperimentale, volto alla creazione di un metodo computazionale in grado di affrontare il cambiamento di significato in diacronia, basato su modelli linguistici BERT (Bidirectional Encoder Representations from Transformers), con particolare enfasi sul trattamento di varietà storiche della lingua italiana. L’obiettivo dello studio riguarda l’ipotesi che il clustering, applicato agli embedding contestuali prodotti dai modelli BERT, sia lo strumento più idoneo per uno studio di questo tipo. La recente letteratura di riferimento, infatti, lo indica come possibile proxy, ma non lo ha dimostrato definitivamente. L’approccio sperimentale adottato è volto a comprendere quali sono le più recenti tecniche di indagine informatica, quali sono i modelli di riferimento in letteratura per questo compito, quali sono gli strumenti più efficaci, come e con quali risultati vengono implementati. La presentazione ripercorre le fasi di lavoro che hanno portato alla costruzione del metodo e tutte le sperimentazioni condotte, cercando di rispondere a domande quali: come si configura l’operazione di clustering rispetto alla rappresentazione dei sensi di una parola? Ovvero, la distanza tra i cluster indica necessariamente che le parole che appartengono ad uno sono semanticamente “distanti” da quelle che appartengono ad un altro? Spostando il focus dallo strumento di indagine all’oggetto della stessa, si è poi voluto analizzare cosa realmente aggregano questi strumenti e, in particolare, cercare di capire quanto il contesto contribuisca all’interpretazione del significato delle parole contenute in una frase.

Relatore/i: Eva Sassolini

È dipendente dell’Istituto di Linguistica Computazionale “A. Zampolli” del Consiglio Nazionale delle Ricerche dal 2008. Ha competenze informatiche pluriennali nello sviluppo e nell’adattamento di analisi testuali, nell’indicizzazione e nel trattamento automatico del testo e nella realizzazione di strumenti per l’acquisizione e la gestione di corpora testuali. Ha esperienza nell’annotazione morfosintattica del testo e nel trattamento automatico di testi strutturati e, per entrambe le tipologie, ha sviluppato strumenti per l’interrogazione e l’analisi. Ha maturato una consolidata esperienza nei metodi e nelle procedure per la conservazione a lungo termine di archivi digitali di valore storico e culturale nonché nella gestione dei testi annotati e nella loro conversione in standard internazionali di rappresentazione. Nel corso degli anni ha ricoperto ruoli di responsabilità scientifica nell’ambito delle collaborazioni storiche dell’istituto, come quelle con l’Accademia della Crusca di Firenze, l’Opera di Santa Maria del Fiore di Firenze e il Dipartimento di Scienze Giuridiche dell’Università degli Studi di Roma “La Sapienza”. Ha ricoperto il ruolo di responsabile tecnico-informatico nell’ambito delle collaborazioni dell’istituto con l’Universidad Nacional de Educacion a Distancia (UNED) di Madrid, il Museo Galileo di Firenze, il Dipartimento Strategie Tecnologiche Rai (STRAT) di Roma ed il Centro Ricerche Rai (CRIT) di Torino. Con lo stesso tipo di responsabilità ha collaborato in progetti nazionali ed internazionali, a partire dai progetti n. 6, 7 e 8 finanziati nell’ambito del programma di investimenti per la ricerca legati alla Legge n. 488 del 1999.

Opuscolo