Disegno di standard e costruzione di risorse linguistiche computazionali
La mancanza di risorse linguistiche (RL) adeguate viene riconosciuta come uno dei principali ostacoli al successo delle attività di ricerca e sviluppo nella Linguistica Computazionale (LC).
Diverse agenzie governative statunitensi (NSF, ARPA, NSA etc.) e la CEE hanno indicato RL e standard come i temi di massima priorità.
La loro produzione richiede uno sforzo cooperativo di competenze, finanziamenti, soggetti.
Per questi motivi, abbiamo promosso attività internazionali (progetti CEE e CEE-NSF) e nazionali (MiUR) attraverso le quali i progetti di questa linea possono contare, oltre che su finanziamenti esterni, sulla cooperazione di molti soggetti pubblici e privati in Italia e allestero (Europa, America, Giappone ed altri paesi asiatici).
Negli ultimi anni s'è posto laccento in particolare su aspetti centrali allinterno del 6° e del 7° Programma Quadro (PQ), cioè il multilinguismo, le tecnologie della conoscenza, il contenuto (active digital content) e la multimodalità.
Gli obiettivi principali sono sintetizzati qui di seguito.
Definizione di standard per: lessici monolingui e multilingui, ontologie, risorse testuali e multimodali, formalismi di rappresentazione, metadata; anche per promuovere la cosiddetta "content interoperability".
Creazione delle Risorse Linguistiche che costituiscono l'infrastruttura necessaria per il TAL:
a) dati monolingui e multilingui (corpora, treebank, lessici computazionali, ontologie, thesauri o reti semantiche, terminologie e multi-word expressions, grammatiche etc.);
b) una piattaforma di tecnologie linguistiche e strumenti robusti, portabili, estensibili, adattabili ed integrabili per la creazione, la gestione, la codifica, la rappresentazione, l'annotazione, l'accesso, la navigazione e l'analisi multi-livello (morfo-sintattica, chunking, sintattica, semantica, concettuale e pragmatica).
Progettazione e sviluppo di nuovi metodi di acquisizione e customizzazione di conoscenza linguistica ed extra-linguistica (nomi propri e loro classificazione, terminologia specialistica, concetti, repertori di corrispondenze multilingui, esempi testuali o di immagini etc.) da corpora e dal Web anche attraverso tecniche di bootstrapping - per ottenere RL innovative e dinamiche che si auto-arricchiscano e si adattino, orientate verso il trattamento del "contenuto" multilingue.
Mantenimento e creazione di risorse e strumenti multimediali specifici per la didattica delle lingue, facilmente accessibili anche a soggetti con bisogni speciali.
Disegno di un nuovo paradigma per le RL, basato su Infrastrutture Linguistiche integrate, aperte e distribuite, che permettano la collaborazione effettiva e controllata di molti utenti, per creare cooperativamente RL comprensibili dalla macchina ed adeguate a fare della visione del Semantic Web una realtà usabile.
Disegno di protocolli per la validazione e valutazione di RL e strumenti di base, per assicurarne la qualità; partecipazione e preparazione di campagne di valutazione internazionali.(ELRA Validazione e SENSEVAL).
Utilizzo ed adattamento di risorse e strumenti di base in applicazioni monolingui e multilingui (sommarizzazione, filtering, estrazione, classificazione, recupero di informazioni, text-mining, question-answering, traduzione, editoria etc.) (POESIA).
Disegno di strategie per la distribuzione e di roadmap per le RL attraverso la partecipazione al Board di ELRA, a ELSNET IV e ad EUROMAP.
Coordinamento di attività nazionali in europa attraverso ENABLER.
Corpus e Lessico di Frequenza dell'Italiano Scritto Contemporaneo (CoLFIS).
Modelli e metodi per il trattamento delle lingue naturali e prototipi applicativi monolingui e multilingui
Questa tematica ha per obiettivo la creazione di un ciclo virtuoso di analisi teorica, progettazione, sperimentazione, prototipazione e metodologia per le principali aree di ricerca ed applicazione del Trattamento Automatico della Lingua (TAL).
Il ciclo beneficia dellinterazione di due importanti prospettive teoriche.
Da un lato, attraverso lo sviluppo di modelli computazionali simbolici, deterministici o stocastici, il linguaggio è trattato come un insieme relativamente stabile e costante di principi di elaborazione e conoscenze strutturate, da utilizzare per una grande varietà di scopi ed applicazioni.
Dallaltro lato, lo sviluppo di modelli computazionali ha come obiettivo lo studio del linguaggio come sistema complesso, soggetto a una dinamica spazio-temporale allinterno della quale principi di strutturazione ed interazione locali si ripercuotono in modo incrementale sullorganizzazione globale dei dati e sulle strategie di apprendimento ed uso del linguaggio.
Riassumiamo qui di seguito le attività principali riconducibili a questa tematica.
Modelli e metodi per lapprendimento e l'acquisizione automatica di conoscenze linguistiche (machine learning); modelli dinamici del linguaggio; induzione di modelli computazionali del linguaggio scritto e parlato.
Architetture e sistemi integrati per l'analisi e/o la generazione della lingua (componenti per parser, grammatiche formali, generatori, transfer tra lingue etc.).
Implementazione di strumenti didattici multimediali, aperti, flessibili e marcatamente interattivi per lintegrazione di allievi disabili nella scuola comune.
Studio e sviluppo di modelli e prototipi per utilizzi applicativi delle tecnologie linguistiche: information extraction and filtering, document and information retrieval, interfacce linguistiche per scritto e parlato, comunicazione multimodale, generazione multilingue di documenti, sommarizzazione, traduzione (semi)automatica, correttori automatici, didattica e disabilità etc..
Metodologie e tecnologie della lingua per ricerche ed applicazioni nel settore del Cross Language Information Retrieval (CLIR).
Ingegnerizzazione di prototipi ed applicativi per realizzare un insieme di risorse e strumenti linguistici integrati da offrire alla comunità nazionale ed internazionale per attività di ricerca, di sviluppo industriale e di commercio.
Modelli e strumenti computazionali per la ricerca umanistica, con particolare riguardo alle discipline linguistiche e alla lessicografia È di estrema importanza coniugare gli aspetti tecnologici derivanti dalle ricerche nel settore linguistico-computazionale con il vasto dominio della ricerca letteraria e linguistico-lessicografica.
Il ruolo pionieristico che lILC ha ricoperto in questo settore fin dai primissimi anni 70 si è evoluto conseguentemente allo sviluppo della tecnologia dellhardware e del software, intervenendo con proposte e modelli che sono stati seguiti in sede non solo nazionale, ma anche dai maggiori operatori internazionali in questo settore degli studi.
A quest'area tematica fanno riferimento le attività elencate qui di seguito.
Disegno e sviluppo di metodi e strumenti di accesso e gestione per basi di dati linguistici e testuali, sia per utilizzazioni in ambito umanistico, sia per applicazioni nellambito dellindustria delle lingue.
Applicazioni di metodi e tecnologie della lingua nello studio di autori, lingue speciali, varietà linguistiche, socio-linguistiche e dialettali.
Creazione di metodi e strumenti di accesso e gestione per basi di dati integrate nel settore delle biblioteche digitali, nellambito dei beni culturali (in primis il settore dei periodici), per fornire nuovi strumenti per la catalogazione, per la salvaguardia del bene librario, per il loro accesso e per la loro navigazione.
Filologia
Computazionale
Questo settore mira a studiare metodi e a realizzare sistemi innovativi per la filologia dei testi manoscritti e a stampa, utilizzabili sia off-line che nell'ambito di architetture Web-based.
Lo scopo principale delle sue attivitā consiste nel proporre un rinnovamento tecnologico adeguato alla digitalizzazione delle fonti primarie, in particolare a quelle che possiedono un elevato valore storico-culturale e storico-linguistico.
La base principale della sperimentazione č costituita da testi antichi; per questo motivo, adeguati strumenti computazionali sono realizzati per lo studio di opere redatte in latino, in greco e in vari idiomi romanzi medievali.
Creazione di un insieme di modelli, metodi, strumenti software e dati sperimentali tramite lintegrazione di tecnologie della lingua, del trattamento del testo e delle delle immagini, della multimedialità e dell'intelligenza artificiale, per offrire ai filologi un più agevole ed efficace strumento di analisi.
Sviluppo di un sistema di Filologia Computazionale (in versione stand-alone e Web-based) per la gestione degli apparati critici, in ambito sia papirologico che filologico-medievale, e sua integrazione con analizzatori morfologici del latino e del greco classico.
Creazione di un modulo OCR (riconoscimento ottico di caratteri) per i testi a stampa antichi.
Analisi di archivi di immagini di ostraka redatti in caratteri demotici.
Continuazione dellattività relativa alliniziativa BIBLOS: la biblioteca virtuale degli organi umanistici del CNR.