Unità staccata di Genova
c/o Area della Ricerca - Via De Marini 6 - 16149 Genova
Telefono: [+39] 010 6475205 - [+39] 010 6475224
Fax: [+39] 010 6475207
Sito Web http://www.ge.ilc.cnr.it
email: lucia.marconi@ilc.cnr.it
Presentazione
dell'ILC-CNR
L'Istituto di Linguistica Computazionale "Antonio Zampolli" del CNR (ILC-CNR) - operante nel settore
della Linguistica Computazionale sin dal 1967, anno in cui fu formata
una Divisione di Linguistica Computazionale presso il Centro Nazionale
Universitario di Calcolo Elettronico (CNUCE) - è stato fondato
come istituto indipendente del CNR nel 1978.
L'ILC-CNR
è stato uno dei maggiori promotori della nozione di risorse linguistiche
come componente centrale della "infrastruttura linguistica"
(consapevole anche delle sue implicazioni culturali, economiche e politiche), ha
coordinato le più importanti iniziative relative alle risorse linguistiche
ed alla standardizzazione ed è stato spesso
promotore di nuovi "paradigmi" nel settore.
L'ILC-CNR
ha progettato e costruito parecchi tipi di corpora e lessici e le
relative ontologie, ha sviluppato una catena completa di strumenti per
un robusto trattamento della lingua italiana, per l'acquisizione di informazioni
dai corpora e per la disambiguazione del senso delle parole e ha sviluppato
tecnologie per parecchi domini di applicazione (risposte a domande, reperimento
di informazioni, raccolta di testi, estrazione di terminologia monolingue
e multilingue, acquisizione e strutturazione di ontologie, summarizzazione,
filtro di documenti Web, conservazione dell'eredità culturale mediante
il trattamento dell'immagine digitale e mediante tecniche per le biblioteche
digitali ecc.).
L'ILC-CNR
ha participato a 52 progetti finanziati dalla Commissione Europea, coordinandone
15, e ha participato a 4 progetti nazionali in qualità di coordinatore.
L'ILC-CNR
ha coordinato numerose iniziative e progetti strategici internazionali,
europei e nazionali, quali:
ENABLER, una rete comunitaria di progetti nazionali sulle tecnologie
linguistiche mirante ad "attivare" la realizzazione
di un quadro di cooperazione;
le iniziative sulla standardizzazione EAGLES (finanziata dalla Commissione
Europea) ed ISLE (co-finanziata dalla Commissione Europea e dalla National
Science Foundation);
progetti comunitari sulle tecnologie linguistiche (POESIA,
MUSI ecc.);
il Comitato WRITE (Written Resources Infrastructure, Technology and
Evaluation);
LREC (Language Resources and Evaluation Conference).
L'ILC-CNR
è rappresentato in molti comitati, consigli ed associazioni internazionali
and nazionali (ELRA, ELSNET, ICCL, WRITE, ISO, SIGLEX, SENSEVAL ecc.)
e ha molte collaborazioni: internazionali (89 in 29 paesi), nazionali
(30), con l'industria (23 in 11 paesi), i ministeri, le regioni, le pubbliche
amministrazioni ecc..
L'ILC-CNR
opera mediante uno staff permanente (34 unità di personale), uno
staff temporaneo (circa 25 unità di personale tra giovani ricercatori,
assegnisti, borsisti, dottorandi ecc.) ed un sostanziale autofinanziamento.
Le
attività dell'ILC-CNR sono articolate in 7 linee di ricerca principali.
Disegno di standard e costruzione di risorse linguistiche computazionali
Sempre più prodotti (per e-Commerce, e-Government, Web, office, data mining, digital libraries ecc.) includono componenti basati su tecnologie e risorse linguistiche la cui produzione richiede uno sforzo cooperativo di competenze, finanziamenti e soggetti. Obiettivo
Creare l’infrastruttura linguistico-computazionale di risorse e strumenti indispensabile per automatizzare le operazioni linguistiche necessarie per produrre, rappresentare, recuperare, elaborare, acquisire, tradurre, interpretare e condividere la conoscenza.
L’ILC-CNR promuove a livello internazionale un nuovo paradigma di Open Linguistic Infrastructure, per realizzare la visione del Semantic Web, con accesso multilingue e multiculturale, dando rilievo all’inserimento dell’italiano in una rete multilingue.
L’ILC-CNR ha una chiara leadership internazionale e nazionale nel settore delle risorse linguistiche, che si esplica anche con attività strategiche che conducono alla formulazione di nuovi obiettivi scientifici e di progetti internazionali e nazionali di ricerca, costituzione di network, organizzazione di survey e convegni e collaborazione con i più importanti gruppi (pubblici e privati) in tutti i continenti. Ricadute
Tecnologiche (si rende possibile lo sviluppo di sistemi e prodotti, nonché la loro valutazione), culturali, economiche (c'è un mercato in espansione), occupazionali e d'immagine (ad esempio, le Olimpiadi Digitali di Pechino).
Modelli e metodi per il trattamento automatico delle lingue naturali e prototipi applicativi monolingui e multilingui
Leggere e capire un titolo di giornale, usare una frase per dare un ordine o un'informazione o per esprimere un desiderio sono attività che richiedono la conoscenza delle "regole" di un linguaggio.
Queste regole formano l'insieme di "istruzioni per l'uso" del comportamento linguistico.
Nonostante l'estrema naturalezza con cui un bambino impara una lingua, a tutt'oggi non esiste un modello generale del comportamento linguistico e nemmeno un computer che possa simulare questo comportamento. Obiettivo
Creare un ciclo di analisi teorica, progettazione, sperimentazione, prototipazione e metodologia per la realizzazione di prototipi avanzati e di strumenti adeguati alle esigenze di applicazioni innovative che si basano sul trattamento automatico delle lingue naturali.
I temi affrontati sono: i) progettazione e sviluppo di modelli e metodi per l’analisi e la generazione di frasi nel linguaggio naturale; ii) progettazione e sviluppo di nuovi metodi di acquisizione di conoscenza linguistica ed extra-linguistica da testi; iii) sperimentazione di varie tecniche per l’estrazione di informazione (“text mining”, "text categorization” ecc.), disegno di un sistema di Question-Answering per la ricerca di informazioni nel Web e progettazione di interfacce intelligenti uomo-macchina monolingui, multilingui, multimodali e multimediali; iv) implementazione di un sistema multilingue nel Web, di un'istruzione interattiva intelligente e di tecniche multimediali per la didattica e la disabilità. Ricadute
Tecnologiche, economiche, sociali e culturali (trasformati in programmi commerciali, alcuni di questi pacchetti si trovano già nel computer di casa o dell'ufficio; se integrati in un modello più generale, potranno svelarci i segreti del nostro comportamento di "animali parlanti").
Metodi e strumenti computazionali per la ricerca umanistica, con particolare riguardo alle discipline linguistiche e letterarie ed alla lessicografia
L’ILC-CNR ha avuto un ruolo fondamentale nella nascita del settore del trattamento automatico del testo, rappresentando un modello per imprese ed istituzioni di ricerca in Italia, in Europa e nel mondo.
Lo sviluppo della tecnologia informatica e di Internet ha permesso di incrementare il panorama applicativo e l’interazione tra settori disciplinari diversi ed il bacino di utenza potenziale.
In questo contesto diventa importante la formazione di giovani ricercatori in un mutato panorama nel quale le tecnologie rappresentano un indispensabile strumento per l’intero settore delle scienze umane. Obiettivo
Sviluppare metodologie, strumenti e risorse da mettere a disposizione tanto dell'intera comunità scientifica (per ricerche più efficaci e più profonde) quanto del mondo industriale.
La Linguistica Computazionale svolge ormai un ruolo fondamentale nei settori dell'e-Publishing, dell'e-Learning, dell'e-Governement e dell'industria delle lingue.
Lo studio del testo ha un'enorme importanza negli ambienti multilingui per la salvaguardia della specificità e della ricchezza culturale di ogni singola lingua in un contesto globalizzato. Ricadute
Tecnologiche (principalmente per l'Informatica Umanistica), commerciali (ad esempio, prodotti di case editrici) e culturali (fruizione di beni culturali).
Beni librari e Filologia Computazionale
Questa linea di ricerca opera nel settore dello studio, dello sviluppo e della realizzazione di sistemi per il trattamento dei beni librari in formato digitale (testi ed immagini) a scopo di analisi filologica e linguistica.
Essa rappresenta un modello per istituzioni di ricerca ed universitarie simili in altri paesi europei ed extraeuropei con i quali si sono stretti rapporti di collaborazione.
A questa macrolinea fanno riferimento le seguenti attività: i) sviluppo di un sistema di Filologia Computazionale (in versione stand alone e Web-based) per la gestione degli apparati critici in ambito sia papirologico che filologico-medievale ed integrazione con analizzatori linguistici (sistemi morfologici delle lingue classiche); ii) creazione di un modulo OCR (riconoscimento caratteri) per i testi a stampa antichi con caratteristiche tali da poter contribuire all’integrazione delle parole frammentarie; iii) analisi di archivi di immagini di ostraka redatti in caratteri demotici con l’utilizzo di sistemi di Intelligenza Artificiale (reti neurali); iv) continuazione dell’attività relativa all’iniziativa BIBLOS (la biblioteca virtuale degli organi umanistici del CNR). Obiettivo
Studiare metodologie innovative per la fruizione e valorizzazione dei beni librari italiani, fra le quali lo studio filologico e linguistico dei documenti antichi. Ricadute
Tecnologiche (sviluppo di nuovi prodotti per le biblioteche e gli archivi) e culturali (diffusione facilitata dei beni librari e dei dati da essi veicolati).
Linguistic Miner: un osservatorio virtuale dell’italiano contemporaneo
Il flusso quotidiano di testi italiani generati su Internet rappresenta una fonte inesauribile di informazione linguistica primaria, la cui stessa mole, tuttavia, rende poco efficaci metodologie di analisi e classificazione tradizionali. Obiettivo
Campionare dinamicamente i dati reperibili su Internet, strutturarli in maniera omogenea e comparabile, arricchirli di glosse di tipo linguistico e contenutistico ed analizzarli con le più moderne tecniche di analisi automatica sia quantitativa che qualitativa.
Fare ciò potrebbe rispondere a tre bisogni complementari: i) monitorare l’italiano contemporaneo per verificarne in tempo reale lo stato di salute; ii) sfruttare al meglio il potenziale informativo dei testi digitali, mettendoli in relazione con altri testi comparabili redatti in altre lingue; iii) migliorare la nostra comprensione del funzionamento del linguaggio, al servizio di tecnologie linguistiche sempre più affidabili.
Ad esempio, potrebbe essere possibile generare repertori sempre aggiornati di terminologia italiana, evidenziandone i punti di contatto con altre lingue, o localizzare l’uso emergente di nuove costruzioni, connotandole dal punto di vista del loro dominio o da quello dello strumento di comunicazione utilizzato.
Architettura di tecnologie linguistiche per la promozione dell’italiano nella società della conoscenza
Il Trattamento Automatico del Linguaggio, già settore di ricerca altamente specializzato, è diventato fornitore di tecnologie di fondamentale importanza per la società dell’informazione.
La lingua è non solo un veicolo ed una chiave di accesso all’informazione, ma anche la base del patrimonio culturale di una nazione. Obiettivo
Creare i presupposti – in termini di nuove competenze necessarie a sviluppare un’attività - per la progettazione, la promozione e la messa in opera di un'architettura linguistica di base - a livello di strumenti, tecnologie e componenti per applicazioni e prodotti - che sia in grado di trattare la lingua scritta, la lingua parlata e documenti multimodali: una piattaforma di tecnologie linguistiche che permetta a ciascuno di partecipare alla società dell’informazione (considerata in tutti i suoi aspetti, da quelli commerciali a quelli culturali) in modo naturale ed usando la propria lingua.
Tale piattaforma è necessaria per un'effettiva integrazione delle diverse attività nel settore del Trattamento Automatico del Linguaggio in Italia (dentro e fuori dal CNR) e per mantenere l’italiano fra le lingue tecnologicamente avanzate, a supporto di applicazioni per la gestione di contenuti digitali.
Trattamento Automatico del Linguaggio ed accesso naturale alla conoscenza
Questa linea di ricerca si propone di fare da ponte tra le fasi di disegno e sviluppo di modelli, metodi e risorse linguistiche per il Trattamento Automatico del Linguaggio e le esigenze tecnologiche ed applicative collegate alle tematiche dell’estrazione e della distribuzione della conoscenza e delle interfacce pervasive uomo-macchina. Obiettivo
Promuovere: i) lo sviluppo di modelli adattativi ed auto-organizzativi del linguaggio considerato come sistema comunicativo aperto; ii) lo sviluppo di applicazioni informatiche per la ricerca, l'acquisizione ed una gestione intelligente della conoscenza per i più svariati ambiti e servizi (e-Government, e-Health, e-Learning, difesa e sicurezza ecc.); iii) un livello sofisticato di interoperabilità tra tecnologie informatiche in ambienti integrati, anche basati sul Web, che richieda una rappresentazione esplicita di contenuti digitali; iv) lo sviluppo di interfacce-utente di nuova generazione, basate sul linguaggio naturale, che promuovano un’interazione sempre più immediata e flessibile tra utente umano e sistemi interattivi e servizi ad alto contenuto informativo.
I
compiti principali dell'ILC-CNR sono:
promuovere la ricerca di base per lavanzamento delle conoscenze
nel settore del Trattamento Automatico del Linguaggio, su temi nei quali lanalisi dello stato dellarte
suggerisce la necessità e la possibilità di innovazioni significative,
favorendo la simbiosi tra le diverse competenze disciplinari coinvolte;
studiare metodi e strumenti innovativi e sviluppare tecnologie e risorse
linguistiche di base che possano essere utilizzati ed integrati in servizi
di vario tipo ed in sistemi applicativi per promuovere lo sviluppo dellindustria
italiana del settore, in particolare riducendo i costi di start-up
delle attività di sviluppo;
studiare e sviluppare metodi e modelli per la multimodalità,
attraverso lintegrazione delle tecnologie della lingua ed il trattamento
dellimmagine e del parlato;
studiare e realizzare prototipi e sistemi innovativi per lutilizzo
di tecnologie della lingua a supporto di ricerche ed applicazioni nel
campo delle discipline umanistiche, dellaccesso al patrimonio
culturale e della promozione dellitaliano;
stimolare un costante collegamento con le industrie ed effettuare
il trasferimento di tecnologie verso lindustria;
studiare ed adottare modalità di monitoraggio delle attività
progettuali e di valutazione e validazione dei risultati con metodologie
allo stato dellarte e con sistemi di riferimento internazionali,
anche competitivi;
promuovere e partecipare alle attività ed ai programmi della
Comunità Europea e, in genere, di organismi internazionali che
implichino lutilizzo di tecnologie della lingua;
assicurare la rappresentanza del nostro paese nelle maggiori sedi
scientifiche e professionali internazionali;
assicurare un'adeguata formazione interdisciplinare nella ricerca
e nello sviluppo tecnologico ai giovani ricercatori, attraverso dottorati
(anche europei), borse ed assegni (un grosso ostacolo, per uno sviluppo
del Trattamento Automatico del Linguaggio adeguato alla necessità strategiche del paese, è
stato ripetutamente individuato dalle industrie italiane nella difficoltà
di reperire personale con formazione e competenze disciplinari specifiche
per il Trattamento Automatico del Linguaggio);
organizzare convegni, workshop, incontri internazionali e nazionali
su temi strategici nel settore della Linguistica Computazionale per
favorire la diffusione delle conoscenze scientifiche e la creazione
di sinergie fra le varie comunità attive nel settore.
Il
contesto generale ed il ruolo dell'ILC-CNR
La programmazione strategica delle attività dell'ILC-CNR tiene conto
del fatto che le maggiori agenzie internazionali e nazionali hanno riconosciuto
il Trattamento Automatico del Linguaggio come una disciplina autonoma che sviluppa conoscenze, metodi, tecnologie
e strumenti altamente specifici che la differenziano nettamente dalle
altre discipline dei cui contributi si avvale, e le hanno dedicato programmi
separati ed autonomi di ricerca all'interno delle proprie attività
istituzionali.
Lutilizzo
del Trattamento Automatico del Linguaggio ha un carattere che questi programmi definiscono come pervasivo
o orizzontale: il linguaggio è il mezzo privilegiato
per le interazioni attraverso cui si svolge la maggior parte delle attività
sociali, economiche e culturali, e le sue applicazioni hanno un impatto
fondamentale in molti campi, con ricadute sostanziali in termini economici
ed occupazionali.
Il
Trattamento Automatico del Linguaggio è un settore multidisciplinare trasversale sia rispetto al
settore Infoscienza (o IST Information Society Technologies
del 6° Programma Quadro) sia rispetto alle scienze umane, con una
propria, riconosciuta, identità.
L'ILC-CNR
ha una consolidata posizione di Centro di Eccellenza, a livello nazionale
ed internazionale, anche grazie alla costante attenzione a mantenere questa
sua identità e ad integrare fra loro i diversi aspetti della Linguistica
Computazionale e del Trattamento Automatico del Linguaggio.
La
riconosciuta leadership dell'ILC-CNR è testimoniata
dalla sua capacità di:
attrarre cospicui finanziamenti esterni - internazionali e nazionali -
in canali di natura estremamente competitiva;
influenzare le grandi visioni strategiche implementate da enti nazionali
ed internazionali;
essere presente in ruoli direttivi nei maggiori organismi internazionali
del settore;
partecipare a numerosi progetti internazionali e nazionali.
LILC-CNR
intende continuare a svolgere un ruolo determinante per promuovere la
consapevolezza della necessità di sostenere il Trattamento Automatico del Linguaggio e per definire
e stimolare un insieme di azioni coordinate che rispondano ai bisogni
prioritari del nostro paese nel settore: dalla promozione di strategie
e programmi di interesse nazionale finanziati dal MIUR o da altri ministeri
alla proposta di curricula autonomi di formazione universitaria (master,
dottorati ecc.), dal collegamento tra comunità internazionale e
comunità nazionale alla proposta ed al coordinamento di iniziative
e progetti comunitari ed internazionali ed alla incentivazione del collegamento
e del trasferimento tecnologico verso lindustria.