Come già osservato
è possibile trovare degli errori nella computazione delle
varie entry, trovandoci a volte in difficoltà sull'avere
delle informazioni riguardo ad una sequenza. In questo caso é
possibile eseguire la ricerca sulla base della similaritá
di sequenza utilizzando programmi di “database searching”
come FASTA o BLAST che confrontano una sequenza sonda con tutte
le sequenze di una banca dati.
Ricerca mediante BLAST
BLAST è un motore di ricerca per sequenza nucleiche. Per
usarlo abbiamo bisogno di avere la sequenza.. (che nella realtà
ci viene da un sequenziamento o altri esperimenti).
Usiamo la sequenza proteica con ID: P13533.
- Sempre dal sito della NCBI
- Selezioniamo Protein e inseriamo l'ID della sequenza da cercare
- Selezionando FASTA nel menú a tendina a destra del bottone
“Display” e premendo il bottone “Send
to”, viene visualizzata la sequenza proteica.
FASTA è un formato in cui la prima riga corrisponde al
segno di maggiore seguito da un commento. Le righe successive
corrispondono alla sequenza.
- Copiamo la sequenza. [selezionamo il risultato in FASTA e premiamo
CNTRL C, o clicchiamo con il dx > copia]
- Ora dal sito www.ncbi.nlm.nih.gov
selezioniamo BLAST
- Come vedete si possono fare diversi BLAST, in funzione della
sequenza che abbiamo noi e con che banca vogliamo confrontarla
(quella di DNA, RNA, proteine?)
Selezioniamo quindi "Standard protein-protein BLAST [blastp]",
e nel campo Search inseriamo la sequenza presa prima, e clicchiamo
su "BLAST".
É anche possibile inserire direttamente l´ID invece
della sequenza stessa, ma solo se si tratta di una sequenza presente
nella banca dati.
- Nella nuova finestra che si apre, vengono indicati i domini
conservati nella sequenza fornita.
- Premi il bottone “Format” per visualizzare il risultato
dell´analisi BLAST.
- Si osservano i risultati. I primi avranno uno score alto ed
un E value tendente a zero. Lo score rappresenta quanto si possano
appaiare, base per base le due sequenze, l'Evalue indica invece
quanto è statisticamente probabile che l'allineamento sia
casuale.
Prendiamo nota degli ID per la sequenza corispondente in altre
specie (seuqenza ortologa).
Facciamo una tabella con ID nucleotidico, proteico e lunghezza
della sequenza.
Specie |
AC nt |
AC prot |
L (AA) |
Homo sapiens |
NM_002471.1
|
NP_002462 |
1939 |
Bos taurus |
|
|
|
.. |
|
|
|
.. |
|
|
|
Ricerca per omologia mediante
FASTA
- FASTA è il servizio analogo al BLAST, ma offerto d EMBL-EBI
(il corrispondente europeo dell'NCBI).
Per fare la nostra ricerca per omologia e similarità ci
colleghiamo al sito www.ebi.ac.uk/fasta33/
- Nella prima parte, possiamo indicare se cercare l'omologia
tra banca proteica o acidi nucleici, se mandarci il risultato
via e-mail o farlo direttamente sul sito, ed informazioni dettagliate
sui parametri per effettuare l'omologia di sequenza.
Inseriamo allora, la sequenza ottenuta prima (per riottenerla
inserisci l'ID P13533 nel campo in alto a destra, indicando "Get
Protein Sequence"), o direttamente l'ID. Notate che è
possibile indicare un file di testo (non di Word), contenente
la sequenza, ma che deve essere sempre nel formato Fasta.
- L'attesa può essere più o meno lunga a seconda
degli utenti che in quel momento stanno effettuando ricerche,
ma una volta che il risultato compare, comparate i risultatati
con i precedenti.
- Dalla tabella presente all'inzio, selezionando "Mview"
si osserva un multiallineamento tra le sequenze trovate.
Costruzione del profilo di
un multiallineamento di sequenze
- Incolla in un file di testo, le sequenze trovate con il BLAST
- Poi usiamo questo elenco per effettuare un multiallineamento
trale varie sequenze. l'interfaccia web si trova al sito www.ebi.ac.uk/clustalw
- inserisci nella apposita maschera le sequenze da allineare,
o indica dove il file è presente (ma deve essere salvato)
e lancia il programma.
- Selezionando Jalview si apre una finestra java che da molte
informazioni: mostra l'allinamento, ed è possibile editarlo
manualmente, cambiare il colore, e mostrare un albero di distanza
tra le diverse sequenze.