RISORSE

Corpora annotati

Corpora Non Annotati

CLIC

Lessici

PAROLE-SIMPLE-CLIPS

È un lessico di uso generale a quattro livelli che è stato elaborato in tre diversi progetti. Il nucleo dei lessici morfologici e sintattici è stato costruito nell’ambito del progetto europeo “Azione Preparatoria per l’Organizzazione delle Risorse Linguistiche per l’Ingegneria della Lingua” (LE-PAROLE). Il modello linguistico e il nucleo del lessico semantico sono stati elaborati all’interno del progetto europeo “Informazioni Semantiche per Lessici Plurilingui Multifunzionali” (LE-SIMPLE). Il livello fonologico della descrizione e l’estensione della copertura lessicale sono stati prodotti nel contesto del progetto italiano “Corpora e Lessici dell’Italiano Parlato e Scritto” (CLIPS). Comprende un totale di 387.267 unità fonetiche, 53.044 unità morfologiche (53.044 lemmi), 37.406 unità sintattiche (28.111 lemmi) e 28.346 unità semantiche (19.216 lemmi). È stato codificato a livello semantico, in piena conformità con gli standard internazionali specificati nel modello PAROLE-SIMPLE e basati su EAGLES. Le codifiche sintattica e semantica sono state operate in collaborazione con Thamus (Consorzio per l’Ingegneria Documentaria Multilingue), che è responsabile di 25.000 entrate aggiuntive.

SIMPLE LOD

È la serializzazione RDF di tutti i sostantivi estratti dal lessico PAROLE-SIMPLE-CLIPS. Le entrate lessicali sono serializzate in Lemon, mentre le relazioni semantiche sono modellate secondo la OWL di SIMPLE.

ItalWordNet LOD

datahub; ilc

Italian Word Embeddings

Two sets of word embeddings trained starting from two different corpora: itWaC and Twitter.
Learn more: Italian Word Embeddings.

FrameNet

GeoDomainWordNet

datahub; ilc per l’inglese; ilc per l’italiano
I concetti dell’ontologia GeoNames, con le loro etichettature e glosse inglesi, in italiano sono stati trasformati in una risorsa simil-WordNet, e sono stati debitamente collegati ai WordNet generici di entrambe le lingue. Questa risorsa è pubblicata in RDF conformemente al W3C e allo schema Lemon.

AncientGreekWordNet LOD

Sono i dati aperti collegati relativi alla sezione “AncientGreekWordNet” di CoPhiWordNet.

Sentiment Lexicon LOD

Il Lessico Italiano dei Sentimenti (in formato LMF) è stato sviluppato in modo semi-automatico da ItalWordNet partendo da una lista di 1.000 parole-chiave controllate manualmente. Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.

Twitter for Sentiment Analysis

The corpus “Twitter for Sentiment Analysis” is a collection of tweets containing text and images collected from July to December 2016. Each tweet has been labeled according to the sentiment polarity of the text. The tweets having the most confident textual sentiment predictions have been selected to build a Twitter for Sentiment Analysis (T4SA) dataset.
Learn more: Twitter for Sentiment Analysis

Terminologie di Dominio

IMAG-Act

È un’ontologia interlinguistica dell’azione. Usando i corpora del parlato, sono stati identificati e rappresentati visivamente con scene prototipiche 1.010 concetti di azione ad alta frequenza. L’ontologia permette la definizione di corrispondenze interlinguistiche fra verbi e azioni in inglese, italiano, cinese e spagnolo. Grazie alla rappresentazione visiva dei concetti di azione identificati, IMAG-Act può essere potenzialmente estesa a qualsiasi lingua.

FiscalDB

SindacDB

Mariterm

Biolessico

Ontologie


Altre risorse

Il repository ILC4CLARIN ospita una collezione, in costante aggiornamento, di risorse linguistiche sviluppate dal Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli”. Tali risorse sono depositate e messe a disposizione in conformità con i principi FAIR (Findable, Accessible, Interoperable, Reusable).