Ultimamente il mio lavoro bioinformatico si è spostato da una consistente ideazione di algoritmi e implementazione software ad una maggiore attenzione alla standardizzazione dei dati e dei risultati, vista l’approssimarsi della submission di un articolo. Mi sono guardato un po’ in giro e ho avuto un attacco di panico. Come è possibile che all’alba del 2008 ancora la comunità scientifica non riesce a darsi delle regole ben definite riguardo il trattamento dei dati?! E’ ormai una pratica comune usare nei laboratori tecnologie di tipo High-Throughput, ovvero che generano molto facilmente grandi quantità di dati e che debbono essere analizzati con tecniche automatiche e statistiche.
In proteomica (ve ne parlo perchè ci bazzico ancora un pochetto), la necessità di definire protocolli e standard è legato ad uno strano sentire. Da una parte il bioinformatico è alla ricerca spasmodica di tool per trattare i dati e quindi relativi standard di elaborazione (cosa non facile, visto che dispositivi diversi spesso generano raw data con strutture proprietarie e distinte); d’altra parte la propensione ad elaborare i dati nel modo che risulta più comodo e veloce possibile, dipendentemente dalle necessità del laboratorio, e dalla ricerca che si sta conducendo. Chi non ha mai sentito la spinta di archiviare dei dati in un bel formato TXT invece che un più adatto XML? Lo ammetto, signor giudice, sono colpevole!
Il problema è che lo stesso bioinformatico, che entra per la prima volta in un ambiente di ricerca, non viene istruito a questa necessità di rigore. Gli si chiedono risultati “tutto e subito”. E lui a volte si inventa formati dati, strutture di database albitrarie.
Per fortuna, questa tendenza, con la maturità di un settore scientifico, cerca di essere sedata (un caso a parte sono gli inglesi; a loro piace essere bizzarri, tanto da guidare dall’altra parte della strada, misurare la birra ancora in galloni e le distanze in piedi. Loro gli standard non sanno cosa siano).
Già nel 2003 il W3C aveva pubblicato il Web Ontology Language (OWL). OWL è un linguaggio per definire ontologie strutturate basate sul Web che permettano maggiore integrazione ed interoperabilità di dati tra applicazioni. I primi ad adottare questi standard comprendevano bioinformatici e comunità mediche.
Un gruppo di volenterosi – PSI-MS: Mass Spectrometry Standards Working Group- nel 2006 già si poneva dinanzi queste necessità .
Insomma non è una novità . Ma fa comunque sempre notizia!
Su CORDIS trovate un nuovo articolo interessante a riguardo, e un medesimo articolo correlato qui.
Sebbene sembri un aspetto marginale, è invece un argomento fondamentale, che dovrebbe far parte di una corretta formazione del bioinformatico.
Ancora vengono pubblicati tanti risultati difficilmente replicabili proprio a causa di questa costante disparità di trattamento dati.
A quanti si interessano di Proteomica, poi consiglio di leggere le loro linee guida.
Have Fun, e buon ritorno l lavoro a tutti!