LINEE DI RICERCA

La Linguistica Computazionale (LC) è un settore di ricerca intrinsecamente interdisciplinare basato sulla sinergia tra competenze e professionalità diverse, principalmente condivise tra Linguistica, Linguistica Computazionale e Informatica. Ciò trova conferma nella classificazione proposta dallo European Research Council (ERC), all’interno della quale la LC ha una duplice collocazione, sia nell’area delle Scienze Umane (settore “SH4 The Human Mind and its Complexity”) sia in quella informatica (settore “PE6 Computer Science and Informatics”).

Nell’ambito delle Scienze umani e sociali, la LC è oggi chiamata a svolgere un ruolo di “interfaccia” tra le scienze della lingua e del testo, ad esempio tra linguistica teorica e linguistica tipologica, tra storia della lingua e filologia, tra psicolinguistica e neurolinguistica.

Allo stesso tempo, la LC è in grado di interfacciare le scienze della lingua nel loro complesso e l’Intelligenza Artificiale (IA), contribuendo a ridefinire obiettivi e metodi di entrambe le aree.

Macro-aree

Le attività di ricerca del Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli” vertono sulle seguenti macro-aree:

Informatica umanistica

Sviluppo di modelli, metodi e tecniche per la conservazione, la fruizione intelligente, lo studio linguistico (diacronico, sincronico, comparativo) e lo studio filologico (ecdotico e interpretativo) di testi di interesse per le scienze umane e sociali, con particolare attenzione a testi storici e letterari.

Le acquisizioni e conoscenze delle scienze informatiche sono coniugate con gli approcci metodologici e i modelli teorici dell’analisi e della filologia del testo, contribuendo così alla trasformazione delle modalità di conservazione, fruizione, studio e pubblicazione dei documenti letterari, archivistici e bibliotecari.

Trattamento automatico della Lingua e Gestione della Conoscenza

Sviluppo di metodi, modelli e tecniche basati su algoritmi simbolici, probabilistici e reti neurali per compiti di trattamento automatico della lingua nelle sue diverse varietà d’uso e con particolare attenzione alla lingua italiana, e per l’estrazione e la rappresentazione della conoscenza codificata all’interno di testi.

Le soluzioni tecnologiche proposte rispondono alle necessità di ricerca e gestione “intelligente” dell’informazione contenuta all’interno di grandi basi documentali in continua evoluzione e possono essere utilizzate in numerose applicazioni per rispondere ai bisogni della società.

Risorse Linguistiche, Standard e Infrastrutture

Sviluppo e gestione di risorse linguistiche (lessici computazionali, repertori terminologici e ontologici, corpora), con particolare attenzione alla rappresentazione dei dati secondo standard internazionali che ne garantiscono la condivisione, l’interoperabilità e la conservazione a lungo termine in linea con i principi della Scienza Aperta.

Le soluzioni tecnologiche messe a punto in questo ambito sono rivolte allo sviluppo di un’infrastruttura di ricerca distribuita e cooperativa per stabilire nuove funzionalità di accesso, interoperabilità e condivisione di risorse e strumenti linguistici.

Modelli (bio-)computazionali dell’uso linguistico

Analisi dei fattori che governano i processi di comprensione, produzione, apprendimento e variazione di una lingua, e le interazioni dinamiche tra di essi. In particolare, i modelli teorici dell’uso linguistico e la loro verifica empirica sono sviluppati tramite: metodi probabilistici per lo studio di corpora, lessici e basi di dati; simulazioni computazionali; studio di evidenza linguistica di natura sperimentale, clinica e acquisizionale.

Le metodologie di rappresentazione formale e modellazione simbolica sono coniugate con i metodi, i dati e gli strumenti d’indagine di settori disciplinari più orientati all’analisi dell’uso linguistico in contesti finalizzati e controllati, quali la psico- e la neuro-linguistica, la sociolinguistica e la glottodidattica.

Principali temi di ricerca

  • analisi testuale
  • annotazione linguistica automatica multi-livello del testo
  • corpora testuali e multimodali, mono e multi-lingua
  • Digital Humanities
  • estrazione di conoscenza da basi documentali di dominio
  • filologia digitale
  • Information extraction and retrieval
  • infrastrutture di ricerca
  • lessici computazionali, mono e multi-lingua
  • lessicografia digitale
  • lingue minoritarie
  • machine learning e deep learning
  • modelli computazionali dell’uso linguistico
  • repertori terminologici e ontologie
  • semantic web
  • semplificazione linguistica
  • sentiment analysis e opinion mining
  • definizione di standard di rappresentazione per risorse linguistiche
  • text mining
  • traduzione assistita
  • trattamento automatico della lingua
  • valutazione delle competenze linguistiche