Bioinformatica e Web 2.0

Inside Bioinfo

15 febbraio 2008 - 11:09

Gene Characterization Index (CGI? what’s up!)

“Uno score per indicizzare il livello di caratterizzazione dei geni”

Prima o poi chi gioca al Bioinformatico si ritrova ad affrontare la sfida di progettare un sistema di indicizzazioine e scoring.
Ce ne sono di ogni tipo, possono esserci score statistici, algoritmici, induttivi, euristici, gerarchici… ci si perde facilmente tra curve poissoniane del rumore, condizioni di Kolmogorov-Smirnov, normalizzazioni, teorie dei grandi numeri…
Uno score e’ comunque una sorta di coltello che frange dati significativi, dallo schifo intorno.

Tra gli score euristici mi affascinano quelli che fanno parte della categoria score qualitativi, che trattano proprio clasterizzazioni di paper, che costruiscono network sulla base di parole chiavi. L’incremento del numero di pubblicazioni ha reso necessario lo sviluppo di strumenti sempre più raffinati per identificare reference incrociate, analisi degli abstract e via dicendo. Se ne parla su Openhelix.
Ebbene, UN INTERESSANTE LAVORO e’ stato sviluppato e pubblicato nel tentativo di rispondere alla domanda “quanto uno specifico gene è stato funzionalmente caratterizzato?“. Lo score e’ basato su criteri che scansionano risorse quali le sequenze presenti in GenBank, domini InterPro, pathway in KEGG, reference Medline, OMIM e Swiss-Prot. Su questa base vengono assegnati degli score da 1 a 10 (great!).

By evaluating the survey as training data, we developed a bioinformatics procedure to assign gene characterization scores to all genes in the human genome. We analyzed snapshots of functional genome annotation over a period of 6 years to assess temporal changes reflected by the increase of the average Gene Characterization Index.

Il sistema, è più complesso di quanto ho detto (naturalmente!) ed è stato validato su classi di geni di rilevanza farmacologica. Il sistema dimostra di essere in grado di generare un ottimo posizionamento per geni target ben noti, e di individuare nuovi target gene potenzialmente interessanti. Un suo uso base può facilmente dare un’idea di quanto è studiato un gene, quanto materiale posso aspettarmi di trovare a riguardo, e se magari vale la pena focalizzare su di esso i nostri sforzi bioinformatici!

Other Posts

  1. Wired Science: Comunicare la scienza (for dummies)
  2. Openhelix (una risorsa importante per il bioinformatico)
  3. Bio-Linux Live DVD
  4. Linkedin
  5. Spettrometria di massa Natalizia (lista dei desideri dei big boss della proteomica)
  6. In arrivo la beta di MyExperiment!
  7. Biomail è morto (o quasi), lunga vita a Biomail
  8. Disegnare velocemente Primer con CLC…
  9. Sono solo dati, stupido! (i limiti di OpenSocial)
Tags: bioinformatica, CGI, Letteratura scientifica, Network

 

RSS feed per i commenti di questo post | TrackBack URI