ITALWORDNET

Rete Semantico-Lessicale per la Lingua Italiana

Tipo di progetto: National  |  Data inizio: 14/11/2014  |  Data di fine: 14/11/2014

ItalWordNet (IWN) è un database semantico-lessicale sviluppato nell’ambito di due progetti di ricerca distinti: EuroWordNet (EWN) e Sistema Integrato per il Trattamento Automatico del Linguaggio (SI-TAL), un progetto nazionale dedicato alla creazione di ampie risorse linguistiche e di strumenti software per l’elaborazione dell’italiano scritto e parlato.

Tra le risorse sviluppate in SI-TAL, IWN è stato costruito come database semantico di riferimento, estendendo il wordnet italiano sviluppato nel progetto EWN.

Nell’ambito di EWN, è stato progettato un modello linguistico che offre una ricca serie di relazioni semantiche [Alonge et al. 1998] ed è stato codificato il primo nucleo di dati (verbi e sostantivi) [Roventini et al. 1998].

Il wordnet è strutturato nello stesso modo del Princeton WordNet, vale a dire attorno alla nozione di synset o gruppo di sensi sinonimi tra loro (secondo un concetto di sinonimia molto ampio: i sensi devono essere intercambiabili in almeno un contesto).

Oltre alle relazioni linguistiche interne, sono state codificate anche le relazioni di equivalenza tra i synset italiani e i concetti ad essi più strettamente correlati in un Inter-Lingual Index (ILI), un modulo separato indipendente dalla lingua contenente tutti i synset di WN1.5 ma non le loro interrelazioni.

Durante il progetto SI-TAL, questo wordnet è stato migliorato ed esteso sia con l’aggiunta di sostantivi e verbi non ancora codificati in EWN, sia mediante la codifica di aggettivi, avverbi e nomi propri, identificando anche alcune relazioni aggiuntive, principalmente per codificare dati sugli aggettivi (si veda: [Alonge et al. 2000], [Roventini et al 2000], [Marinelli e Roventini 2002] e [Roventini et al. 2003].

Nella sua versione generica, il database IWN è ora costituito da:

  • un wordnet contenente circa 47.000 lemmi, 50.000 synset e 130.000 relazioni semantiche (tra le relazioni codificate le più importanti sono le seguenti: iperonimia/iponimia, antonimia, meronimia, relazioni di causa, relazioni di ruolo etc.);
  • un Inter-Lingual Index (ILI), che è una versione non strutturata di WN1.5:
  • questo modulo, usato in EWN per collegare wordnet di diverse lingue, è stato mantenuto anche in IWN per rendere la risorsa utilizzabile in applicazioni multilingue;
  • la Top Ontology (TO), una gerarchia di concetti indipendenti dalla lingua, che riflette fondamentali distinzioni semantiche, costruita nell’ambito di EWN e parzialmente modificata in IWN per spiegare gli aggettivi (non trattati in EWN):
  • la TO è costituita da aspetti indipendenti dalla lingua, che possono (o non possono) essere lessicalizzati in vari modi, o secondo diversi modelli, in diverse lingue [Rodriguez et al. 1998]; attraverso l’ILI, tutti i concetti del wordnet sono direttamente o indirettamente collegati alla TO.

Dal 2003 è in fase di realizzazione un wordnet terminologico relativo al dominio della navigazione e del trasporto marittimo e collegato al wordnet generico IWN [Marinelli et al. 2004].

Il database IWN viene continuamente aggiornato e migliorato presso l’ILC. In particolare, sono stati fatti studi sui nomi propri e le loro estensioni d’uso (metaforico e metonimico) osservabili sul corpus di riferimento dell’Italiano [Marinelli et al. 2005].

Per ulteriori informazioni, non esitate a contattare Monica Monachini o Roberto Bartolini.

 

Acronimo:
ITALWORDNET

Stato:
Ended