Corpora annotati
- Corpus of Sentences rated with Human Complexity Judgments
- CItA – Corpus Italiano di Apprendenti L1
- Evalita 2011 “Domain Adaptation for Dependency Parsing”
- Evalita 2011 “Frame Labeling”
- Evalita 2020 “Acceptability & Complexity evaluation task for Italian”
- PaCCSS-IT – Parallel Corpus of Complex-Simple Sentences for ITalian
- IMPaCTS – Italian Multilevel Parallel Corpus for Text Simplification
- ISACCO – Italian School-Age Children COrpus
- ISST-TANL Corpus
- SemEval-2022 “PreTENS-Evaluating Neural Networks on Presuppositional Semantic Knowledge”
- SimilEx – Sentence Similarity
- SPLeT 2012 “First Shared Task on Dependency Parsing of Legal Texts”
- Terence and Teacher
Corpora Non Annotati
CLIC
Lessici
PAROLE-SIMPLE-CLIPS
È un lessico di uso generale a quattro livelli che è stato elaborato in tre diversi progetti. Il nucleo dei lessici morfologici e sintattici è stato costruito nell’ambito del progetto europeo “Azione Preparatoria per l’Organizzazione delle Risorse Linguistiche per l’Ingegneria della Lingua” (LE-PAROLE). Il modello linguistico e il nucleo del lessico semantico sono stati elaborati all’interno del progetto europeo “Informazioni Semantiche per Lessici Plurilingui Multifunzionali” (LE-SIMPLE). Il livello fonologico della descrizione e l’estensione della copertura lessicale sono stati prodotti nel contesto del progetto italiano “Corpora e Lessici dell’Italiano Parlato e Scritto” (CLIPS). Comprende un totale di 387.267 unità fonetiche, 53.044 unità morfologiche (53.044 lemmi), 37.406 unità sintattiche (28.111 lemmi) e 28.346 unità semantiche (19.216 lemmi). È stato codificato a livello semantico, in piena conformità con gli standard internazionali specificati nel modello PAROLE-SIMPLE e basati su EAGLES. Le codifiche sintattica e semantica sono state operate in collaborazione con Thamus (Consorzio per l’Ingegneria Documentaria Multilingue), che è responsabile di 25.000 entrate aggiuntive.
SIMPLE LOD
È la serializzazione RDF di tutti i sostantivi estratti dal lessico PAROLE-SIMPLE-CLIPS. Le entrate lessicali sono serializzate in Lemon, mentre le relazioni semantiche sono modellate secondo la OWL di SIMPLE.
ItalWordNet LOD
Italian Word Embeddings
Two sets of word embeddings trained starting from two different corpora: itWaC and Twitter.
Learn more: Italian Word Embeddings.
FrameNet
GeoDomainWordNet
datahub; ilc per l’inglese; ilc per l’italiano
I concetti dell’ontologia GeoNames, con le loro etichettature e glosse inglesi, in italiano sono stati trasformati in una risorsa simil-WordNet, e sono stati debitamente collegati ai WordNet generici di entrambe le lingue. Questa risorsa è pubblicata in RDF conformemente al W3C e allo schema Lemon.
AncientGreekWordNet LOD
Sono i dati aperti collegati relativi alla sezione “AncientGreekWordNet” di CoPhiWordNet.
Sentiment Lexicon LOD
Il Lessico Italiano dei Sentimenti (in formato LMF) è stato sviluppato in modo semi-automatico da ItalWordNet partendo da una lista di 1.000 parole-chiave controllate manualmente. Contiene 24.293 entrate lessicali annotate con polarità positiva/negativa/neutra.
Twitter for Sentiment Analysis
The corpus “Twitter for Sentiment Analysis” is a collection of tweets containing text and images collected from July to December 2016. Each tweet has been labeled according to the sentiment polarity of the text. The tweets having the most confident textual sentiment predictions have been selected to build a Twitter for Sentiment Analysis (T4SA) dataset.
Learn more: Twitter for Sentiment Analysis
Terminologie di Dominio
IMAG-Act
È un’ontologia interlinguistica dell’azione. Usando i corpora del parlato, sono stati identificati e rappresentati visivamente con scene prototipiche 1.010 concetti di azione ad alta frequenza. L’ontologia permette la definizione di corrispondenze interlinguistiche fra verbi e azioni in inglese, italiano, cinese e spagnolo. Grazie alla rappresentazione visiva dei concetti di azione identificati, IMAG-Act può essere potenzialmente estesa a qualsiasi lingua.
FiscalDB
SindacDB
Mariterm
Biolessico
Ontologie
Altre risorse
Il repository ILC4CLARIN ospita una collezione, in costante aggiornamento, di risorse linguistiche sviluppate dal Cnr-Istituto di Linguistica Computazionale “Antonio Zampolli”. Tali risorse sono depositate e messe a disposizione in conformità con i principi FAIR (Findable, Accessible, Interoperable, Reusable).
