PAISÀ

Acronimo: 
PAISÀ
Titolo: 
Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati
Tipo di Progetto: 
Nazionale
Ente Finanziatore: 
Ministero dell'Istruzione, dell'Università e della Ricerca
Programma di Finanziamento: 
Fondo per gli Investimenti della Ricerca di Base
Contratto: 
FIRB-2006-RBNE072H7L
Data di Inizio: 
01/06/2009
Data di Fine: 
31/05/2012
Status: 
Terminato
Ruolo ILC: 
Coordinatore
Coordinatore del Progetto: 
Università di Bologna (2009-2011) | ILC (2011-2012)
Responsabile Scientifico del Progetto: 

L'obiettivo generale che si pone il progetto PAISÀ consiste nel contribuire a superare le barriere tecnologiche che impediscono agli utenti del web utilizzare un'ampia quantità di testi scritti in italiano contemporaneo per migliorare le proprie conoscenze linguistiche accedendovi in maniera interattiva. Il progetto si rivolge in particolar modo agli emigrati di seconda generazione, che hanno l'italiano come lingua materna ma ne fanno un uso molto limitato, e di terza generazione, che parlano l'italiano come seconda lingua (L2).
Per raggiungere questo obiettivo è stato costituito un ampio corpus di testi web in lingua italiana annotati nel dettaglio. Per la prima volta sono stati utilizzati dei testi liberamente disponibili (licenze creative commons) per costituire il corpus, selezionati in maniera automatica da Internet. In seguito sono stati aggiunti diversi livelli di annotazione (informazioni morfosintattiche, relazioni di dipendenza, ecc.) grazie agli strumenti per il trattamento automatico della lingua (o NLP, natural language processing) che si possono aggiustare e migliorare nel corso del progetto integrando manualmente altre informazioni per l'annotazione.
La versione non annotata del corpus e la versione annotata possono essere scaricate gratuitamente. Inoltre, i parlanti e gli apprendenti della lingua italiana potranno accedere direttamente ai dati attraverso un'interfaccia di ricerca complessa. In tal modo è garantito l'accesso gratuito online a testi che documentano l'uso reale e contemporaneo della lingua italiana.