Risorse

Corpora

 - Corpora Annotati

ISST-TANL Corpus
È un corpus annotato manualmente, codificato nel formato standard CoNLL e comprendente la marcatura PoS e l'annotazione di dipendenza sintattica. Sviluppato congiuntamente dall'ILC-CNR e dall'Università di Pisa, esemplifica l'uso generale della lingua ed è costituito da articoli estratti da giornali e periodici, selezionati per coprire un'alta molteplicità di argomenti. Questo corpus è stato utilizzato per la formazione e la sperimentazione nell'attività condivisa "Adattamento di Dominio per Analisi di Dipendenze" di EVALITA 2011.

 - Corpora Non Annotati

CLIC

Lessici

PAROLE-SIMPLE-CLIPS
È un lessico di uso generale a quattro livelli che è stato elaborato in tre diversi progetti. Il nucleo dei lessici morfologici e sintattici è stato costruito nell'ambito del progetto europeo "Azione Preparatoria per l’Organizzazione delle Risorse Linguistiche per l’Ingegneria della Lingua" (LE-PAROLE). Il modello linguistico e il nucleo del lessico semantico sono stati elaborati all'interno del progetto europeo "Informazioni Semantiche per Lessici Plurilingui Multifunzionali" (LE-SIMPLE). Il livello fonologico della descrizione e l'estensione della copertura lessicale sono stati prodotti nel contesto del progetto italiano "Corpora e Lessici dell'Italiano Parlato e Scritto" (CLIPS). Comprende un totale di 387.267 unità fonetiche, 53.044 unità morfologiche (53.044 lemmi), 37.406 unità sintattiche (28.111 lemmi) e 28.346 unità semantiche (19.216 lemmi). È stato codificato a livello semantico, in piena conformità con gli standard internazionali specificati nel modello PAROLE-SIMPLE e basati su EAGLES. Le codifiche sintattica e semantica sono state operate in collaborazione con Thamus (Consorzio per l’Ingegneria Documentaria Multilingue), che è responsabile di 25.000 entrate aggiuntive.

SIMPLE LOD
È la serializzazione RDF di tutti i sostantivi estratti dal lessico PAROLE-SIMPLE-CLIPS. Le entrate lessicali sono serializzate in Lemon, mentre le relazioni semantiche sono modellate secondo la OWL di SIMPLE.

ItalWordNet LOD
 - datahub: http://datahub.io/dataset/iwn
 - ilc: http://www.languagelibrary.eu/owl/italWordNet15/schema/synset

FrameNet

GeoDomainWordNet
 - datahub: http://datahub.io/dataset/geodomainwn
 - ilc per l'inglese: http://www.languagelibrary.eu/owl/geodomainWN/eng/geonames-synset
 - ilc per l'italiano: http://www.languagelibrary.eu/owl/geodomainWN/ita/geonames-synset
I concetti dell'ontologia GeoNames, con le loro etichettature e glosse inglesi, in italiano sono stati trasformati in una risorsa simil-WordNet, e sono stati debitamente collegati ai WordNet generici di entrambe le lingue. Questa risorsa è pubblicata in RDF conformemente al W3C e allo schema Lemon.

AncientGreekWordNet LOD
Sono i dati aperti collegati relativi alla sezione "AncientGreekWordNet" di CoPhiWordNet.

Sentiment Lexicon LOD
https://github.com/opener-project/public-sentiment-lexicons/tree/master/propagation_lexicons/it (in formato LMF)
Il Lessico Italiano dei Sentimenti è stato sviluppato in modo semi-automatico da ItalWordNet partendo da una lista di 1.000 parole-chiave controllate manualmente. Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.

Terminologie di Dominio

FiscalDB

SindacDB

MARITERM

Biolessico

Ontologie

IMAG-Act
È un'ontologia interlinguistica dell'azione. Usando i corpora del parlato, sono stati identificati e rappresentati visivamente con scene prototipiche 1.010 concetti di azione ad alta frequenza. L'ontologia permette la definizione di corrispondenze interlinguistiche fra verbi e azioni in inglese, italiano, cinese e spagnolo. Grazie alla rappresentazione visiva dei concetti di azione identificati, IMAG-Act può essere potenzialmente estesa a qualsiasi lingua.


[work in progress]