ITALWORDNET

ItalWordNet (IWN) è un database semantico-lessicale sviluppato nell'ambito di due progetti di ricerca distinti: EuroWordNet (EWN) e Sistema Integrato per il Trattamento Automatico del Linguaggio (SI-TAL), un progetto nazionale dedicato alla creazione di ampie risorse linguistiche e di strumenti software per l'elaborazione dell'italiano scritto e parlato.
Tra le risorse sviluppate in SI-TAL, IWN è stato costruito come database semantico di riferimento, estendendo il wordnet italiano sviluppato nel progetto EWN.
Nell'ambito di EWN, è stato progettato un modello linguistico che offre una ricca serie di relazioni semantiche [Alonge et al. 1998] ed è stato codificato il primo nucleo di dati (verbi e sostantivi) [Roventini et al. 1998].
Il wordnet è strutturato nello stesso modo del Princeton WordNet, vale a dire attorno alla nozione di synset o gruppo di sensi sinonimi tra loro (secondo un concetto di sinonimia molto ampio: i sensi devono essere intercambiabili in almeno un contesto).
Oltre alle relazioni linguistiche interne, sono state codificate anche le relazioni di equivalenza tra i synset italiani e i concetti ad essi più strettamente correlati in un Inter-Lingual Index (ILI), un modulo separato indipendente dalla lingua contenente tutti i synset di WN1.5 ma non le loro interrelazioni.
Durante il progetto SI-TAL, questo wordnet è stato migliorato ed esteso sia con l'aggiunta di sostantivi e verbi non ancora codificati in EWN, sia mediante la codifica di aggettivi, avverbi e nomi propri, identificando anche alcune relazioni aggiuntive, principalmente per codificare dati sugli aggettivi (si veda: [Alonge et al. 2000], [Roventini et al 2000], [Marinelli e Roventini 2002] e [Roventini et al. 2003].
Nella sua versione generica, il database IWN è ora costituito da:
- un wordnet contenente circa 47.000 lemmi, 50.000 synset e 130.000 relazioni semantiche (tra le relazioni codificate le più importanti sono le seguenti: iperonimia/iponimia, antonimia, meronimia, relazioni di causa, relazioni di ruolo etc.);
- un Inter-Lingual Index (ILI), che è una versione non strutturata di WN1.5:
- questo modulo, usato in EWN per collegare wordnet di diverse lingue, è stato mantenuto anche in IWN per rendere la risorsa utilizzabile in applicazioni multilingue;
- la Top Ontology (TO), una gerarchia di concetti indipendenti dalla lingua, che riflette fondamentali distinzioni semantiche, costruita nell'ambito di EWN e parzialmente modificata in IWN per spiegare gli aggettivi (non trattati in EWN):
- la TO è costituita da aspetti indipendenti dalla lingua, che possono (o non possono) essere lessicalizzati in vari modi, o secondo diversi modelli, in diverse lingue [Rodriguez et al. 1998]; attraverso l'ILI, tutti i concetti del wordnet sono direttamente o indirettamente collegati alla TO.
Dal 2003 è in fase di realizzazione un wordnet terminologico relativo al dominio della navigazione e del trasporto marittimo e collegato al wordnet generico IWN [Marinelli et al. 2004].
Il database IWN viene continuamente aggiornato e migliorato presso l'ILC. In particolare, sono stati fatti studi sui nomi propri e le loro estensioni d’uso (metaforico e metonimico) osservabili sul corpus di riferimento dell’Italiano [Marinelli et al. 2005].
Per ulteriori informazioni, non esitate a contattare Monica Monachini o Roberto Bartolini.