Disegno
di standard e costruzione di risorse linguistiche computazionali
La mancanza di risorse linguistiche (RL) adeguate viene
riconosciuta come uno dei principali ostacoli al successo
delle attività di ricerca e sviluppo nella LC.
Diverse agenzie governative statunitensi (NSF, ARPA, NSA,
ecc.) e la CEE hanno indicato RL e standard come i temi
di massima priorità. La loro produzione richiede
uno sforzo cooperativo di competenze, finanziamenti, soggetti.
Per questi motivi, abbiamo promosso attività internazionali
(progetti CEE e CEE-NSF) e nazionali (MIUR) attraverso
le quali i progetti di questa linea possono contare, oltre
che su finanziamenti esterni, sulla cooperazione di molti
soggetti pubblici e privati in Italia e allestero
(Europa, America, Giappone, paesi asiatici).
Nel triennio 2003-2005 si porrà laccento
in particolare su aspetti centrali allinterno del
6° PQ, cioè il multilinguismo, le tecnologie
della conoscenza, il contenuto (active
digital content), e la multimodalità. Gli
obiettivi principali sono:
Definizione
di standard per: lessici mono e multilingui, ontologie,
risorse testuali e multimodali, formalismi di rappresentazione,
metadata; anche per promuovere la cosiddetta "content
interoperability"
Creazione
delle Risorse Linguistiche che costituiscono la infrastruttura
necessaria per il TAL:
a) dati mono e multi-lingui (corpora, treebank, lessici
computazionali, ontologie, thesauri o reti semantiche,
terminologie e multi-word expressions, grammatiche,
ecc.)
b) una piattaforma di tecnologie linguistiche e strumenti
robusti, portabili, estensibili, adattabili, integrabili
per la creazione, gestione, codifica, rappresentazione,
annotazione, accesso, navigazione, analisi multi-livello
(morfo-sintattica, chunking, sintattica, semantica, concettuale,
pragmatica).
Progettazione
e sviluppo di nuovi metodi di acquisizione e customizzazione
di conoscenza linguistica e extra-linguistica
(nomi propri e loro classificazione, terminologia specialistica,
concetti, repertori di corrispondenze multilingui, esempi
testuali o di immagini, ecc.) da corpora e dal web
anche attraverso tecniche di bootstrapping
, per ottenere RL innovative e dinamiche che
si auto-arricchiscono e adattano, orientate verso il trattamento
del contenuto multilingue.
Mantenimento
e creazione di risorse e strumenti multimediali specifici
per la didattica delle lingue, facilmente accessibili
anche a soggetti con bisogni speciali.
Disegno
di un nuovo paradigma per le RL, basato su Infrastrutture
Linguistiche integrate, aperte e distribuite, che permettano
la collaborazione effettiva e controllata di molti utenti,
per creare cooperativamente RL comprensibili dalla macchina
e adeguate a fare della visione del Semantic Web una realtà
usabile.
Disegno
di protocolli per la validazione e valutazione di RL e
strumenti di base, per assicurarne la qualità;
partecipazione e preparazione di campagne di valutazione
internazionali.(ELRA
Validazione e SENSEVAL)
Utilizzo
e adattamento di risorse e strumenti di base in applicazioni
mono e multi-lingui (sommarizzazione, filtering,
estrazione, classificazione, recupero di informazioni,
text-mining, question-answering,
traduzione, editoria, ecc.) (POESIA).
Disegno
di strategie per la distribuzione, e di roadmap
per le RL, attraverso la partecipazione al Board
di ELRA, a ELSNET
IV, ed EUROMAP.
Coordinamento di attività nazionali in europa, attraverso ENABLER
Corpus e Lessico di Frequenza dell'Italiano Scritto Contemporaneo (CoLFIS)
Modelli
e metodi per il trattamento delle lingue naturali e prototipi
applicativi mono e multilingui
Questa tematica ha per obiettivo la creazione di un ciclo
virtuoso di analisi teorica, progettazione, sperimentazione,
prototipazione e metodologia per le principali aree di
ricerca e applicazione del TAL. Il ciclo beneficia dellinterazione
di due importanti prospettive teoriche. Attraverso lo
sviluppo di modelli computazionali simbolici, deterministici
o stocastici, il linguaggio è trattato come un
insieme relativamente stabile e costante di principi di
elaborazione e conoscenze strutturate, da utilizzare per
una grande varietà di scopi e applicazioni. Daltro
lato, lo sviluppo di modelli computazionali ha come obiettivo
lo studio del linguaggio come sistema complesso, soggetto
a una dinamica spazio-temporale allinterno della
quale principi di strutturazione e interazione locali
si ripercuotono in modo incrementale sullorganizzazione
globale dei dati e sulle strategie di apprendimento ed
uso del linguaggio.
Riassumiamo qui di seguito le attività principali
riconducibili a questa tematica:
Modelli
e metodi per lapprendimento e la acquisizione automatica
di conoscenze linguistiche (machine learning),
modelli dinamici del linguaggio; induzione di modelli
computazionali del linguaggio scritto e parlato.
Architetture
e sistemi integrati per analisi/generazione della lingua
(componenti per parser, grammatiche formali, generatori,
transfer tra lingue, ecc.).
Implementazione
di strumenti didattici multimediali, aperti, flessibili
e marcatamente interattivi, per lintegrazione di
allievi disabili nella scuola comune.
Studio
e sviluppo di modelli e prototipi per utilizzi applicativi
delle tecnologie linguistiche: information extraction
and filtering, document and information retrieval,
interfacce linguistiche per scritto e parlato, comunicazione
multimodale, generazione multilingue di documenti, sommarizzazione,
traduzione (semi) automatica, correttori automatici, didattica
e disabilità, ecc.
Metodologie
e tecnologie della lingua per ricerche e applicazioni
nel settore CLIR (Cross Language Information Retrieval).
Ingegnerizzazione
di prototipi ed applicativi per realizzare un insieme
di risorse e strumenti linguistici integrati da offrire
alla comunità nazionale ed internazionale per attività
di ricerca, di sviluppo industriale e per attività
di commercio.
Modelli
e strumenti computazionali per la ricerca umanistica,
con particolare riguardo alle discipline linguistiche,
filologiche e alla lessicografia
È di estrema importanza coniugare gli aspetti tecnologici
derivanti dalle ricerche nel settore Linguistico Computazionale
con il vasto dominio della ricerca letteraria, filologica,
e linguistico-lessicografica. Il ruolo pionieristico che
lILC ha ricoperto in questo settore fin dai primissimi
anni 70 si è evoluto conseguentemente allo
sviluppo della tecnologia dellhardware e del software,
intervenendo con proposte e con modelli che sono stati
seguiti in sede non solo nazionale, ma anche dai maggiori
operatori internazionali in questo settore degli studi.
A questa area tematica fanno riferimento le seguenti attività:
Disegno
e sviluppo di metodi e strumenti di accesso e gestione
per basi di dati linguistici e testuali, sia per utilizzazioni
in ambito umanistico, sia per applicazioni nellambito
dellindustria delle lingue.
Applicazioni
di metodi e tecnologie della lingua nello studio di autori,
lingue speciali, varietà linguistiche, socio-linguistiche
e dialettali.
Creazione
di un insieme di modelli, metodi, strumenti software e
dati sperimentali tramite lintegrazione di tecnologie
della lingua, del trattamento del testo, delle immagini,
della multimedialità e dell'intelligenza artificiale
, per offrire a ricercatori umanisti, in particolare filologi,
un più agevole ed efficace strumento di analisi.
Creazione
di metodi e strumenti di accesso e gestione per basi di
dati integrate nel settore delle biblioteche digitali,
nellambito dei beni culturali (in primis il settore
dei periodici), per fornire nuovi strumenti per la catalogazione,
per la salvaguardia del bene librario e per il loro accesso
e navigazione.
Sviluppo
di un sistema di Filologia Computazionale (in versione
stand alone e Web based) per la gestione degli apparati
critici, sia in ambito papirologico che filologico-medievale,
ed integrazione con analizzatori morfologici del latino
e del greco classico.
Creazione
di un modulo OCR (riconoscimento caratteri) per i testi
a stampa antichi.
Analisi
di archivi di immagini di ostraka redatti in caratteri
demotici.
Continuazione
dellattività relativa alliniziativa
BIBLOS: biblioteca virtuale degli organi umanistici del
CNR.