STRUMENTI PER L’ESTRAZIONE DI CONOSCENZA

T2K2: Text-To-Knowledge

È una piattaforma per l’estrazione automatica di informazioni linguistiche e specifiche di dominio da collezioni documentali. Offre un’organizzazione strutturata della conoscenza estratta e indicizza i testi analizzati rispetto all’informazione estratta. Dipende da una serie di strumenti per l’Elaborazione del Linguaggio Naturale (NLP), l’analisi statistica dei testi e l’apprendimento automatico, che sono dinamicamente integrati per offrire un’accurata rappresentazione delle informazioni linguistiche e del contenuto specifico di dominio di corpora testuali inglesi e italiani in diversi domini.

READ-IT: Assessing Readability of Italian Texts

È il primo strumento di valutazione avanzata della leggibilità per ciò che concerne l’italiano. Combina aspetti testuali grezzi tradizionali con informazioni lessicali, morfo-sintattiche e sintattiche. In READ-€“IT la valutazione della leggibilità è effettuata rispetto sia ai documenti sia alle frasi. Il secondo tipo di valutazione rappresenta l’importante novità dell’approccio proposto, creando i presupposti per allineare la fase della valutazione della leggibilità con il processo della semplificazione del testo.

PANACEA WebServices

Sono servizi sviluppati nell’ambito del progetto europeo denominato “PANACEA” e ospitati presso CNR- ILC. Consentono la costruzione automatica di risorse linguistiche e offrono convertitori di formati, etichettatori di parti del discorso, analizzatori sintattici di dipendenze, strumenti di acquisizione lessicale (estrattori di MultiWord e per la sottocategorizzazione, combinatori lessicali). Tutorial per l’utilizzo di questi servizi e la composizione di flussi di lavoro.