Tox Framework: sistema integrato per la gestione della letteratura tossicologica 2019-11-06T15:27:20+01:00

Project Description

TRUSTiCERT è una PMI attiva a livello internazionale come partner regolatorio e scientifico per lo sviluppo del settore della sigaretta elettronica e dei relativi prodotti di consumo. Questi prodotti rappresentano la migliore alternativa a quelli tradizionali, con un rischio ridotto per l’utilizzatore e un enorme risparmio per la spesa pubblica. La valutazione del rischio da esposizione a sostanze potenzialmente pericolose, tuttavia, è un processo complesso che richiede personale altamente specializzato nel trattamento di informazioni di tipo chimico, fisico e tossicologico, reperibili in banche dati e letteratura specializzata, oltre che nell’interpretazione e applicazione di regolamenti internazionali e nazionali. In questo contesto, l’OMS ha evidenziato la mancanza di studi scientifici relativi alla sicurezza e alla qualità dei liquidi di ricarica dei vaporizzatori personali. Le informazioni necessarie per rispondere a queste problematiche da parte della comunità scientifica internazionale e degli enti governativi sono rare e, quando presenti, frammentarie e incomplete. Sebbene esista una vasta letteratura sulle proprietà tossicologiche delle singole molecole di interesse industriale, esprimere appieno il potenziale di queste risorse risulta complesso a causa di una serie di problematiche quali, ad esempio, la difficoltà a interrogare tante banche dati contemporaneamente, le differenze nella presentazione dei dati (dati strutturati vs dati non strutturati) e il tempo richiesto per l’integrazione manuale delle informazioni. Il progetto intende risolvere queste problematiche creando una banca dati centralizzata, un sistema di integrazione dei dati e relativo software. L’accesso a tutti i dati attraverso un unico strumento consentirà una più rapida ed efficiente interpretazione da parte degli utenti specializzati e la generazione di reportistica completa per la determinazione del potenziale rischio dovuto all’esposizione a miscele a uso inalatorio. Nel corso degli anni di attività, TRUSTiCERT ha implementato un inventario di circa 1500 molecole chimiche comunemente utilizzate in ambito vaping. Questo elenco di sostanze è stato utilizzato per scaricare gli articoli scientifici inizialmente dal portale PubMed che, grazie alle API messe a disposizione, si è rivelato di facile accesso per lo scraping dei dati. Inoltre, per creare una banca dati specializzata, la ricerca dei paper è stata corredata di parole chiave indicate dagli esperti del dominio tossicologico. Il dataset ottenuto – costituito da titolo, autori, anno di pubblicazione e abstract di circa 60.000 articoli – è stato messo in qualità con tecniche di ETL e processato con l’algoritmo di machine learning Doc2Vec, molto efficiente nell’analisi lessicale di testi. Addestrato il modello di machine learning, è stata creata un’applicazione che, dato in input l’abstract di un nuovo paper, confronta il documento con la banca dati e fornisce un elenco di paper potenzialmente correlati e ordinati secondo la similarità del coseno, uno degli indici di similarità nell’analisi vettoriale. Oltre allo sviluppo dell’applicazione, si è esplorato il dataset con l’ausilio del database NoSQL Neo4J e con il software di visualizzazione Tableau.

Questo project work, naturalmente, non vuole essere il punto di arrivo bensì un tassello del più ampio progetto aziendale in ambito tossicologico. Sarà quindi necessario migliorare l’algoritmo di machine learning creando un dataset di test, verificato dagli esperti di dominio, per la validazione dell’output. Sarà necessario, inoltre, aumentare le dimensioni del dataset perfezionando le chiavi di ricerca durante lo scraping da PubMed e recuperando documentazione anche dagli altri siti del dominio tossicologico che sono risultati di più difficile accesso. L’obiettivo è fornire al team di tossicologi dell’azienda degli strumenti il più possibile automatizzati e che abbiano dati aggregati, così da snellire il processo di selezione bibliografica e consentire una più rapida classificazione in termini di tossicità acuta e cronica di singoli elementi e miscele in forma originale e riscaldata.

Vedi la presentazione completa

Project Details