Analisi delle pubblicazioni sulla fibrillazione arteriale nel periodo 2000-2015 2017-11-06T14:53:40+00:00

Project Description

Obiettivo
L’obiettivo di questo progetto è di analizzare le pubblicazioni sull’argomento “fibrillazione atriale” negli anni 2000-2015. L’obiettivo dello studio è di valutare i topics più discussi, eventuali trend, gli autori ed i Paesi coinvolti nella pubblicazione.

Fonte dei dati
Gli articoli analizzati sono stati ottenuti dal motore di ricerca di PubMed utilizzando le parole chiave “atrial+fibrillation” e limitando la ricerca alle pubblicazioni avvenute dal 2000 al 2015. I dati sull’impact factor (IF) sono stati ottenuti dall’ultimo Journal Citation Report disponibile.

Metodi
I risultati della ricerca, disponibili come un singolo file txt contenente tutte le informazioni come titolo, rivista, anno di pubblicazione, lista degli autori ed abstract, se disponibile.
Utilizzando Talend Open Studio for Data Integration, il file txt è stato diviso in tanti file quante le pubblicazioni, per poi alimentare un processo finalizzato all’estrazione delle variabili utili alle analisi in un dataset strutturato. A ciascuna pubblicazione è stato associato un topic individuato utilizzando la funzione di topic modeling (Latent Dirichlet Allocation, LDA) disponibile con il tool MALLET, ripetendo la procedura fino ad ottenere dei topic caratterizzati da keywords abbastanza dissimili da individuare un topic. Il dataset ottenuto è stato quindi utilizzato come fonte dei dati per l’analisi e la visualizzazione utilizzando il software Tableau. La qualità delle pubblicazioni è stata valutata utilizzando l’IF cumulato negli ultimi 5 anni delle riviste.

Risultati
La ricerca condotta con PubMed ha restituito 22,309 articoli pubblicati durante gli anni considerati. Selezionando l’argomento preponderante secondo il topic modeling di MALLET, la maggior parte delle pubblicazioni riguardava la terapia anticoagulante (28% circa), seguita dalle comorbidità o condizioni associate (21%), altri approcci terapeutici (19%), gli eventi acuti ascrivibili (18%) e l’epidemiologia (12%); una piccola parte (circa il 2%) è stato valutato come contenente più topics in misura uguale.Come atteso, è stata osservata una considerevole crescita nel numero di pubblicazioni nel periodo considerato; la maggior parte di questa crescita è ascrivibile alle pubblicazioni riguardante gli anticoagulanti.
Altre visualizzazioni hanno permesso di evidenziare i primi autori più produttivi, i loro interessi principali e la qualità dei loro lavori, rivelando la presenza di autori con un gran numero di pubblicazioni ma mediamente con un IF molto basso o del tutto assente per la rivista.
Il contributo fornito dai Paesi alle pubblicazioni, ugualmente, ha confermato le attese con i Paesi Europei e gli Stati Uniti che contano circa la metà dei papers ottenuti; la qualità dei lavori, valutata come IF medio, allo stesso modo ha confermato le attese con gli IF medi più alti osservati negli USA e in Europa, salvo poche eccezioni.

Conclusioni
I grandi volume di pubblicazioni e la loro rapida crescita possono offrire spunti per utilizzare nuovi approcci dai risultati interessanti.

Limiti
Il Formato originario dei dati ha richiesto una forte manipolazione e molte alter variabili avrebbero potuto essere estratte per arricchire l’analisi. L’utilizzo del topic modeling è stato adatto solo per una prima esplorazione dei testi, fornendo una classificazione molto debole.

Project Details

Skills Needed: