LINGUISTICA COMPUTAZIONALE

Obiettivo della Linguistica Computazionale (LC) è sviluppare modelli del funzionamento del linguaggio umano che possano essere tradotti in programmi eseguibili dal computer e che consentano a quest’ultimo di capire e comunicare in qualsiasi lingua conosciuta, scritta o parlata, usata quotidianamente o tramandata attraverso manoscritti, iscrizioni e altre testimonianze indirette.

In generale, si parla di Trattamento Automatico della Lingua o TAL (in inglese Natural Language Processing o NLP) per fare riferimento all’insieme di dati, algoritmi e tecnologie finalizzati a questo obiettivo.

Principali applicazioni

Il potenziale applicativo degli strumenti del TAL ha consentito di sviluppare piattaforme software che lavorano con il linguaggio umano per usarlo in funzione di un compito linguistico specifico, come la traduzione automatica e la comprensione di un testo o del parlato.

Negli ultimi anni, queste tecnologie e strumenti applicativi hanno fatto grandi progressi in termini di accuratezza e facilità d’uso e sono stati integrati in sistemi molto diffusi e commercializzati, di grande impatto sociale ed economico, ad esempio:

  • assistenti virtuali;
  • motori di ricerca;
  • sistemi di traduzione automatica.

È evidente il legame tra questo ambito della Linguistica Computazionale (LC) e gli sviluppi tecnologici recenti legati alla diffusione dell’Intelligenza Artificiale (IA), soprattutto per quanto riguarda l’ottimizzazione dell’interazione comunicativa tra l’utente umano e un servizio automatico o un dispositivo.

Lo studio dei testi si è tradizionalmente avvalso degli strumenti di trattamento automatico del testo e della lingua. Fin dagli esordi della LC come disciplina scientifica autonoma, nella prima metà degli anni ‘50 del secolo scorso, la produzione automatica delle concordanze (insieme dei contesti locali in cui ricorrono le parole di un testo o di una collezione di testi) ha rappresentato uno strumento di importanza fondamentale per la critica testuale. Analogamente, gli spogli automatici di frequenza hanno consentito di analizzare la distribuzione delle parole in grandi corpora testuali, svelando:

  • le tracce quantitative di uno stile;
  • il contenuto prevalente di un documento attraverso la sua impronta lessicale;
  • la caratteristica distribuzione di frequenza dei tratti linguistici di uno specifico genere letterario.

Nel corso degli ultimi anni, col progredire di queste tecnologie, gli strumenti di base si sono evoluti al punto da essere utilizzati per compiti che richiedono intelligenza linguistica e sensibilità ecdotica, come ad esempio:

  • l’integrazione e l’interpretazione del testo corrotto di un manoscritto;
  • il riconoscimento automatico della grafia.

Questo settore della LC è profondamente legato a obiettivi come l’analisi testuale e filologica o, più in generale, al settore interdisciplinare noto come Informatica Umanistica o IU (in inglese Digital Humanities o DH).

La modellazione computazionale della comprensione o della produzione linguistica è stata spesso vista come un mezzo per esplorare questioni teoriche fondamentali, sia in linguistica sia in psicolinguistica. Da questa prospettiva, le domande che il linguista computazionale si pone sono le stesse del linguista o dello psicolinguista:

  • come funziona il linguaggio?
  • come viene appreso?
  • come cambia attraverso il tempo, le situazioni comunicative o i domini?

L’assunto da cui si parte è che costruendo un modello computazionale di un processo linguistico si possa pervenire a una migliore comprensione del fenomeno. Gran parte della linguistica e della psicolinguistica di frontiera fa oggi ampio uso delle tecniche e dei modelli della LC in questa accezione. Questo approccio può portare, ad esempio, a:

  • decifrare una lingua antica ancora sconosciuta;
  • studiare il modo in cui due lingue sono cambiate nel tempo a partire dallo stesso ceppo;
  • capire come funziona il lessico mentale nel nostro cervello e cosa può alterarne il funzionamento.

Principali settori applicativi

Oltre che per l’avanzamento delle ricerche in ambito Scienze Umane e Sociali (SSH), la collaborazione tra linguisti computazionali e specialisti di altre discipline consente di sviluppare metodi e tecnologie innovative che possono trovare applicazione in molti settori strategici, tra cui:

  • Patrimonio culturale;
  • Turismo sostenibile;
  • Istruzione e formazione;
  • Amministrazione Digitale;
  • Giustizia Digitale;
  • Sanità digitale;
  • Imprese e innovazione;
  • Terzo settore e inclusione.

La Linguistica Computazionale tra Intelligenza Artificiale e Scienze Umane e Sociali: risultati scientifici e tecnologici, sfide aperte e ricadute applicative.

Cap. 10 della relazione del Cnr-Dipartimento Scienze Umane e Sociali, Patrimonio Culturale Le scienze umane, sociali e del patrimonio culturale nell’era delle grandi transizioni”.