RISORSE

Corpora annotati

ISST-TANL Corpus

È un corpus annotato manualmente, codificato nel formato standard CoNLL e comprendente la marcatura PoS e l’annotazione di dipendenza sintattica. Sviluppato congiuntamente da CNR-ILC e Università di Pisa, esemplifica l’uso generale della lingua ed è costituito da articoli estratti da giornali e periodici, selezionati per coprire un’alta molteplicità di argomenti. Questo corpus è stato utilizzato per la formazione e la sperimentazione nell’attività condivisa “Adattamento di Dominio per Analisi di Dipendenze” di EVALITA 2011.

Corpora Non Annotati

CLIC

Lessici

PAROLE-SIMPLE-CLIPS

È un lessico di uso generale a quattro livelli che è stato elaborato in tre diversi progetti. Il nucleo dei lessici morfologici e sintattici è stato costruito nell’ambito del progetto europeo “Azione Preparatoria per l’Organizzazione delle Risorse Linguistiche per l’Ingegneria della Lingua” (LE-PAROLE). Il modello linguistico e il nucleo del lessico semantico sono stati elaborati all’interno del progetto europeo “Informazioni Semantiche per Lessici Plurilingui Multifunzionali” (LE-SIMPLE). Il livello fonologico della descrizione e l’estensione della copertura lessicale sono stati prodotti nel contesto del progetto italiano “Corpora e Lessici dell’Italiano Parlato e Scritto” (CLIPS). Comprende un totale di 387.267 unità fonetiche, 53.044 unità morfologiche (53.044 lemmi), 37.406 unità sintattiche (28.111 lemmi) e 28.346 unità semantiche (19.216 lemmi). È stato codificato a livello semantico, in piena conformità con gli standard internazionali specificati nel modello PAROLE-SIMPLE e basati su EAGLES. Le codifiche sintattica e semantica sono state operate in collaborazione con Thamus (Consorzio per l’Ingegneria Documentaria Multilingue), che è responsabile di 25.000 entrate aggiuntive.

SIMPLE LOD

È la serializzazione RDF di tutti i sostantivi estratti dal lessico PAROLE-SIMPLE-CLIPS. Le entrate lessicali sono serializzate in Lemon, mentre le relazioni semantiche sono modellate secondo la OWL di SIMPLE.

ItalWordNet LOD

datahub; ilc

FrameNet

GeoDomainWordNet

datahub; ilc per l’inglese; ilc per l’italiano
I concetti dell’ontologia GeoNames, con le loro etichettature e glosse inglesi, in italiano sono stati trasformati in una risorsa simil-WordNet, e sono stati debitamente collegati ai WordNet generici di entrambe le lingue. Questa risorsa è pubblicata in RDF conformemente al W3C e allo schema Lemon.

AncientGreekWordNet LOD

Sono i dati aperti collegati relativi alla sezione “AncientGreekWordNet” di CoPhiWordNet.

Sentiment Lexicon LOD

Il Lessico Italiano dei Sentimenti (in formato LMF) è stato sviluppato in modo semi-automatico da ItalWordNet partendo da una lista di 1.000 parole-chiave controllate manualmente. Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.

Terminologie di Dominio

IMAG-Act

È un’ontologia interlinguistica dell’azione. Usando i corpora del parlato, sono stati identificati e rappresentati visivamente con scene prototipiche 1.010 concetti di azione ad alta frequenza. L’ontologia permette la definizione di corrispondenze interlinguistiche fra verbi e azioni in inglese, italiano, cinese e spagnolo. Grazie alla rappresentazione visiva dei concetti di azione identificati, IMAG-Act può essere potenzialmente estesa a qualsiasi lingua.

FiscalDB

SindacDB

Mariterm

Biolessico

Ontologie


Altre risorse

Il repository ILC4CLARIN ospita una collezione, in costante aggiornamento, di risorse linguistiche sviluppate dal Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli”. Tali risorse sono depositate e messe a disposizione in conformità con i principi FAIR (Findable, Accessible, Interoperable, Reusable).