BOOTSTREP

Acronimo: 
BOOTStrep
Titolo: 
Bootstrapping of Ontologies and Terminologies Strategic Research Project
Tipo di Progetto: 
Europeo
Ente Finanziatore: 
European Commission
Programma di Finanziamento: 
6th Framework Programme
Contratto: 
FP6-IST-2004-028099
Data di Inizio: 
01/04/2006
Data di Fine: 
31/03/2009
Status: 
Terminato
Ruolo ILC: 
Beneficiario
Responsabile Scientifico del Progetto: 

La conoscenza biologica è diffusa in formati di database eterogenei e conservata in documenti di linguaggio naturale non strutturati.

Lo scopo di BOOTStrep è riunire database di fatti biologici già esistenti in aggiunta ad archivi terminologici ed implementare un sistema di analisi  testuale che aumenti continuamente la loro copertura analizzando documenti biologici.

La progettata integrazione della conoscenza biologica in una struttura concettuale omogenea faciliterà l'accesso alla conoscenza altrimenti frammentata e ne aumenterà sostanzialmente l'utilizzo per scopi di R&S, ad esempio nell'industria bio-tecnologica e farmaceutica europea.

L'integrazione e il riutilizzo della conoscenza nel dominio della biologia sono gli obiettivi principali del progetto BOOTStrep.

In particolare, BOOTStrep si propone di:

  • sfruttare risorse terminologiche  già esistenti (thesauri, sistemi di classificazione ecc.) e associarle all'interno di un quadro di rappresentazione concettuale comune e standardizzato; sulla base di questa conoscenza di base specifica di dominio, avanzate tecnologie del linguaggio naturale vengono utilizzate per l'analisi di documenti biologici allo scopo di colmare i vuoti concettuali in queste risorse acquisendo automaticamente nuovi termini, concetti e relazioni;
  • creare, conservare in maniera incrementale e aggiornare continuamente un archivio di fatti biologici sulla base dell'utilizzo di un bio-lessico comprensivo e di una bio-ontologia formale basata su standard per analisi del testo; i fatti sono estratti da documenti biologici in modo totalmente automatico e sono successivamente filtrati e validati in base a novità, sovrabbondanza, contraddizione ecc.;
  • sviluppare risorse e strumenti di NLP per la creazione di risorse per la raccolta di conoscenza basata su testi allo scopo di incoraggiare l'estrazione delle informazioni e il text mining nel dominio della biologia;
  • consentire l'accesso pubblico multilingue ad archivi di fatti biologici continuamente aggiornati e validati.

Coinvolgimento dell'ILC