Forum

Nome Utente:
Password:
Riconoscimi automaticamente
 Tutti i Forum
 MolecularLab
 Bioinformatica
 ClustalW
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
I seguenti utenti stanno leggendo questo Forum Qui c'è:

Aggiungi Tag Aggiungi i tag

Quanto è utile/interessante questa discussione:

Autore Discussione  

steffi85
Nuovo Arrivato


Prov.: Mantova
Città: castiglione delle stiviere


25 Messaggi

Inserito il - 18 novembre 2010 : 21:14:07  Mostra Profilo  Visita l'Homepage di steffi85 Invia a steffi85 un Messaggio Privato  Rispondi Quotando
Ciao a tutti!
Vi scrivo per chiedere se qualcuno può darmi una delucidazione su questo fantastico e dannato programmino: CLUTALW!

Dunque... ho lanciato un multiallineamento ra la mia sequenza ed altre 5. Ho trovato dei residui molto conservati acidi, alifatici, polari neutri e pochi neutri polari. Che cosa significa? che sono le regioni più interne alla proteina e che probabilmente rispondono a dei domini funzionali?
e poi... ho modificato la gap extension e la open-gap penality, ma praticamente non è cambiato nulla. cosa significa??

non capisco!!

Ringrazio tutti in anticipo...

domi84
Moderatore

Smile3D

Città: Glasgow


1724 Messaggi

Inserito il - 20 novembre 2010 : 09:40:58  Mostra Profilo  Visita l'Homepage di domi84 Invia a domi84 un Messaggio Privato  Rispondi Quotando
Citazione:
Che cosa significa? che sono le regioni più interne alla proteina e che probabilmente rispondono a dei domini funzionali?

No, significa solo che sono conservati, quindi forse importanti per la struttura/funzione.

Gap Open (PW)
Slow pairwise alignment score for the first residue in a gap.
Default value is: 10

Gap Extension (PW)
Slow pairwise alignment score for each additional residue in a gap.
Default value is: 0.1

http://www.ebi.ac.uk/Tools/msa/clustalw2/help/index.html

Il mio blog: http://domi84.blogspot.com/
Le foto che ho scattato...
Torna all'inizio della Pagina

steffi85
Nuovo Arrivato


Prov.: Mantova
Città: castiglione delle stiviere


25 Messaggi

Inserito il - 22 novembre 2010 : 08:18:59  Mostra Profilo  Visita l'Homepage di steffi85 Invia a steffi85 un Messaggio Privato  Rispondi Quotando
Grazie mille!

Un'ulima cosa... con l'opzione show colors ho notato che i residui conservati erano rosso viola e pochissimi blu. Il che signifca che sono prevalentemente idrofobici e quindi interni alla proteina, giusto? quindi in pratica potrebbero corrispondere a dei siti catalitici conservati?

Ti lascio il file in allegato... se riesco!

Grazie!!
Torna all'inizio della Pagina

steffi85
Nuovo Arrivato


Prov.: Mantova
Città: castiglione delle stiviere


25 Messaggi

Inserito il - 22 novembre 2010 : 08:21:45  Mostra Profilo  Visita l'Homepage di steffi85 Invia a steffi85 un Messaggio Privato  Rispondi Quotando
ANALISI DI SEQUENZE:

Esercitazione 1


Ci è stato consegnato il frammento di DNA incognito n°13, la cui sequenza è:

CCTGGCGCGCCAGCAGCTGATCGAGACTGT

Il primo passo consiste nella sua traduzione e nell'identificazione del corretto ordine di lettura, tenendo presente che una sequenza di DNA, insieme al suo filamento complementare, specifica per sei diversi frames di lettura, 3 per ciascun filamento.

Si va quindi su http://expasy.org/tools/dna.html e si ottengono i seguenti frames di lettura:

5'3' Frame 1
PGAPAADRDC
5'3' Frame 2
LARQQLIET
5'3' Frame 3
WRASS-SRL
3'5' Frame 1
TVSISCWRAR
3'5' Frame 2
QSRSAAGAP
3'5' Frame 3
SLDQLLARQ
Una volta tradotto il frammento, è necessario identificare l'eventuale sequenza proteica, trovando, tra i diversi frames ottenuti, quello/i che codificano per una proteina esistente. Il frame 5'3' nuemro 3 (forward) non viene preso in considerazione, in quanto presenta un codone di stop.
Dalla home page http://pir.georgetown.edu/ si riscontra che solo il frame 5'3' numero 2 codifica per una proteina realmente esistente:






Protein AC/ID
Protein name
Length
Organism
PIRSF ID
Match range
B8NB34/B8NB34_ASPFN

Uricase; ( EC

302
Aspergillus flavus (strain ATCC 200026 / FGSC A1120 / NRRL 3357 / JCM 12722 / SRRC 167)
PIRSF000241
240 - 248 MAEQILARQQLIETVEYSL
Q00511/URIC_ASPFL

Uricase; ( EC

302
Aspergillus flavus
PIRSF000241
240 - 248 MAEQILARQQLIETVEYSL
Q068V7/Q068V7_ASPNG
Uricase; ( EC

302
Aspergillus niger
PIRSF000241
240 - 248 MAEQILARQQLIETVEYSL
Q2U050/Q2U050_ASPOR
Uricase; ( EC

302
Aspergillus oryzae
PIRSF000241
240 - 248 MAEQILARQQLIETVEYSL


In questo caso sono stati trovati 4 matches esatti. Tutte e quattro le proteine sono delle uricasi.

Scegliamo ora la seconda proteina per proseguire con l'analisi,cioè prendiamo in esame l'uricasi prodotta dall'Aspergillus flavus.

Si cerca quindi nel database SwissProt, http://expasy.org/sprot/ , la sequenza scelta per ricavarne maggiori informazioni possibili:


Accession
Entry name
Status
Protein name
Gene names
Organism
Length
Q00511
URIC_ASPFL

Uricase
uaZ uox
Aspergillus flavus
302


questa proteina, l'uricasi, altrimenti detta ossidoreduttasi, è codificata dal gene uaZ;
ha una sequenza di 302 aa e catalizza l’ossidazione dell’acido urico a 5-idrossiurato, che, essendo un composto instabile, è convertito in modo spontaneo nella forma allantoina;

Urate + O2 + H2O = 5-hydroxyisourate + H2O2

è coinvolta nel metabolismo delle purine e nell’ossidazione dell’urato;
Le purine sono basi azotate eterocicliche, ad esempio adenina, guanina, ipoxantina e xantina. La loro degradazione porta alla formazione dell'acido urico, che viene escreto nei primati, uccelli ed altri animali.

si tratta di un omotetramero;
è normalmente situata nel perossisoma (non nell’uomo!);
deriva dalla famiglia delle uricasi.

Si salva ora la sequenza della proteina in esame nel formato FASTA:

>sp|Q00511|URIC_ASPFL Uricase OS=Aspergillus flavus GN=uaZ PE=1 SV=3
MSAVKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDS
IKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHS
FIRDSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILS
TDVDATWQWKNFSGLQEVRSHVPKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQIL
ARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGRSSLKS
KL

2. Ricerca di simiarità

Si ricerca ora la similarità della sequenza della proteina identificata con altre sequenze di altre proteine contenute nel database BLAST.
BLAST crea un elenco di parole, leggendo una ad una tutte le parole di lunghezza W=3 della sequenza query. Per ogni word della sequenza query viene generata una lista di parole affini, dette W-mers a cui è attribuito, in base alla composizione ed alla lunghezza della sequenza in esame, uno score; i W-mers che presentano uno score maggiore di un valore soglia T (generalmente compreso tra 11 e 15) vengono memorizzati ed inseriti in un elenco. Dopodichè il programma analizza tutte le sequenze della banca dati, ricercando la presenza dei w-mers esattamente corrispondenti alle parole derivanti dalla sequenza query in esame. Infine, una volta trovata una corrispondenza, detta hit, il programma verifica se e quanto sia possibile estendere questo hit in entrambe le direzioni, senza considerare la possibilità di inserire gaps! In questo modo si trova un HSP (=high-scoring segment pair), cioè un segmento di allineamento locale non ulteriormente estendibile. Naturalmente esiste un valore soglia S, al di sopra del quale un HSP è considerato degno di attenzione.(La matrice usata è la BLOSUM62).

Quindi, si accede a Blast-P, http://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE=Proteins e si:
inserisce la sequenza da analizzare in FASTA format;
seleziona il database SWISSPROT.
Si lancia quindi la ricerca di similarità:



Putative conserved domains have been detected, click on the image below for detailed results.


Questo programma di ricerca di similarità restituisce un E-value come indice della bontà di allineamento. Questo valore, calcolato in base a diversi fattori, quali la lunghezza della sequenza query, la lunghezza del match trovato, la dimensione del database utilizzato, ecc, rappresenta la possibilità che l'allineamento sia dovuto al caso. Quindi più un e-value è tendente a zero e più l'allineamento è ottimale.
Viene anche mostrato lo Score, cioè un punteggio calcolato in base a diversi parametri (tra cui l'inserimento di gaps, le similarità chimico fisiche degli aminoacidi stessi, ecc.); più alto è lo Score, migliore è l'allineamento.

Nel nostro caso abbiamo trovato:
4 sequenze con uno score >200, rappresentate in rosso
21 con 80<S>200, rappresentate in rosa
1 con 50<S>80, rappresentata in verde
0 con 40<S>50
8 con uno Score<40, rappresentate in nero


L'E-value delle sequenze con uno Score>= 73,6 è molto basso, indice di un buon allineamento. Si tratta sempre di urate oxidasi.
Si selezionano le prime quattro sequenze con un buon Score ed un E-value sufficientemente basso:


>sp|Q00511.3|URIC_ASPFL RecName: Full=Uricase; AltName: Full=Urate oxidase
Length=302

Score = 631 bits (1628), Expect = 1e-180, Method: Compositional matrix adjust.
Identities = 302/302 (100%), Positives = 302/302 (100%), Gaps = 0/302 (0%)

Query 1 MSAVKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDS 60
MSAVKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDS
Sbjct 1 MSAVKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDS 60

Query 61 IKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHS 120
IKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHS
Sbjct 61 IKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHS 120

Query 121 FIRDSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILS 180
FIRDSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILS
Sbjct 121 FIRDSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILS 180

Query 181 TDVDATWQWKNFSGLQEVRSHVPKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQIL 240
TDVDATWQWKNFSGLQEVRSHVPKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQIL
Sbjct 181 TDVDATWQWKNFSGLQEVRSHVPKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQIL 240

Query 241 ARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGRSSLKS 300
ARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGRSSLKS
Sbjct 241 ARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGRSSLKS 300

Query 301 KL 302
KL
Sbjct 301 KL 302


>sp|P33282.1|URIC_EMENI RecName: Full=Uricase; AltName: Full=Urate oxidase
Length=301

Score = 525 bits (1352), Expect = 2e-148, Method: Compositional matrix adjust.
Identities = 250/302 (83%), Positives = 269/302 (90%), Gaps = 1/302 (0%)

Query 1 MSAVKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDS 60
MS V AARYGKDNVRVYKVHKD KTGVQTV EMTVCVLLEGEI+TSYTKADNSVIVATDS
Sbjct 1 MSTVAAARYGKDNVRVYKVHKDPKTGVQTVTEMTVCVLLEGEIDTSYTKADNSVIVATDS 60

Query 61 IKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHS 120
IKNTI+I AKQNPVTPPELFGSILGTHFI KY HIH AH NI+ HRWTR++IDGKPH HS
Sbjct 61 IKNTIFILAKQNPVTPPELFGSILGTHFINKYKHIHVAHTNIITHRWTRLNIDGKPHSHS 120

Query 121 FIRDSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILS 180
F+RDSEE RNVQVDV EG GIDIKSS++ LTVLKST SQFWGF+RDEYTTL E WDRILS
Sbjct 121 FVRDSEETRNVQVDVTEGVGIDIKSSINKLTVLKSTGSQFWGFVRDEYTTLPEVWDRILS 180

Query 181 TDVDATWQWKNFSGLQEVRSHVPKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQIL 240
TDV+ATW WK FSGL EVR +VPKFD TW AR +TLKTFAE+ SASVQATMYKM EQIL
Sbjct 181 TDVEATWAWKRFSGLDEVRGNVPKFDETWEAARNITLKTFAEEESASVQATMYKMGEQIL 240

Query 241 ARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGRSSLKS 300
A Q L+ETVEYSLPNKHYFEIDLSWHKGL+NTGK+AEVF PQ++PNGLIKCTVGR S K+
Sbjct 241 AYQPLLETVEYSLPNKHYFEIDLSWHKGLKNTGKDAEVFVPQTNPNGLIKCTVGRKS-KA 299

Query 301 KL 302
KL
Sbjct 300 KL 301


>sp|O74409.1|URIC_SCHPO RecName: Full=Probable uricase; AltName: Full=Urate oxidase
Length=296

Score = 283 bits (724), Expect = 1e-75, Method: Compositional matrix adjust.
Identities = 145/292 (50%), Positives = 187/292 (65%), Gaps = 3/292 (1%)

Query 4 VKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDSIKN 63
VK YGK VR K KT TVYEM V LL GE+E SYTKADNS++V TD+ KN
Sbjct 7 VKQCAYGKTLVRFMKKDICPKTKTHTVYEMDVQSLLTGELEESYTKADNSIVVPTDTQKN 66

Query 64 TIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHSFIR 123
TIY+ AK N V+ PE+F + L HF++KY HIH A ++I WTRM++ GKPH HSFIR
Sbjct 67 TIYVFAKNNDVSVPEVFAAKLAKHFVDKYKHIHGAALDITITPWTRMEVQGKPHSHSFIR 126

Query 124 DSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILSTDV 183
+ E R V EGKG D+ SSL + VLKST S F F + E+TTL E DRI ST +
Sbjct 127 NPGETRKTHVVFSEGKGFDVVSSLKDVLVLKSTGSGFTNFHKCEFTTLPEVTDRIFSTSI 186

Query 184 DATWQWKNFSGLQEVRSHVPKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQILARQ 243
D + +K+F +E+ F++ + +E+TL+TFA D+S SVQATMYKMA+ I+
Sbjct 187 DCNYTFKHFDTFEELAGF--DFNSIYEKVKEITLETFALDDSESVQATMYKMADTIINTY 244

Query 244 QLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGR 295
I V Y+LPNKHYFEI+L+ + N G N ++ PQ+ P+G I CTV R
Sbjct 245 PAINEVYYALPNKHYFEINLAPF-NIDNLGSNCSLYQPQAYPSGYITCTVAR 295


>sp|P78609.1|URIC_PICJA RecName: Full=Uricase; AltName: Full=Urate oxidase
Length=303

Score = 275 bits (702), Expect = 3e-73, Method: Compositional matrix adjust.
Identities = 151/306 (50%), Positives = 195/306 (64%), Gaps = 10/306 (3%)

Query 2 SAVKAARYGKDNVRVYKVHKD-EKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDS 60
+ + ++ YGKDNV+ KV KD + Q V E TV LLEG +TSYT+ADNS IV TD+
Sbjct 3 TTLSSSTYGKDNVKFLKVKKDPQNPKKQEVMEATVTCLLEGGFDTSYTEADNSSIVPTDT 62

Query 61 IKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHS 120
+KNTI + AK + P E F + L THF+EKY+H+ V IV RW + +DGKPH HS
Sbjct 63 VKNTILVLAKTTEIWPIERFAAKLATHFVEKYSHVSGVSVKIVQDRWVKYAVDGKPHDHS 122

Query 121 FIRDSEEKRNVQVDVVEGKGIDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILS 180
FI + EKR + + S++ LTVLKST S F+G+ + ++TTL+ T DRILS
Sbjct 123 FIHEGGEKRITDLYYKRSGDYKLSSAIKDLTVLKSTGSMFYGYNKCDFTTLQPTTDRILS 182

Query 181 TDVDATWQWKN--FSGLQEVRSHVPK--FDATWATAREVTLKTFAEDNSASVQATMYKMA 236
TDVDATW W N + ++ K FD + ARE+TL TFA +NS SVQATM+ MA
Sbjct 183 TDVDATWVWDNKKIGSVYDIAKAADKGIFDNVYNQAREITLTTFALENSPSVQATMFNMA 242

Query 237 EQILARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCTVGRS 296
QIL + + +V Y+LPNKHYF IDL W KGL+N + E+F P PNGLIKCTV R
Sbjct 243 TQILEKACSVYSVSYALPNKHYFLIDLKW-KGLEN---DNELFYPSPHPNGLIKCTVVRK 298

Query 297 SLKSKL 302
K+KL
Sbjct 299 E-KTKL 303
La riga intermedia riporta tutti i residui identici e, in caso di residui compatibili, il simbolo "+". Quando i residui allineati non sono compatibili, è lasciato uno spazio vuoto.

Dalla lista delle sequenze, che corrispondono ai probabili ortologhi (= sequenze che si sono evolute dalla stessa caratteristica nel loro ultimo antenato comune, ma non necessariamente mantenono la loro funzione ancestrale) della sequenza analizzata, sono state selezionate le quattro con migliore allineamento, per creare un profilo con cui effettuare una ricerca di similarità utilizzando Psi-Bast. Quest'ultimo si basa su una ricerca iterativa, per cui le sequenze trovate ad ogni ciclo, vengono utilizzate per costruire un profilo per il ciclo successivo. In questo modo è eventualmente possibile trovare altri ortologhi.


Il Fasta Format delle quattro sequenze è:

>gi|137100|sp|Q00511.3|URIC_ASPFL RecName: Full=Uricase; AltName: Full=Urate oxidase
MSAVKAARYGKDNVRVYKVHKDEKTGVQTVYEMTVCVLLEGEIETSYTKADNSVIVATDSIKNTIYITAK
QNPVTPPELFGSILGTHFIEKYNHIHAAHVNIVCHRWTRMDIDGKPHPHSFIRDSEEKRNVQVDVVEGKG
IDIKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILSTDVDATWQWKNFSGLQEVRSHVPKFDATWA
TAREVTLKTFAEDNSASVQATMYKMAEQILARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFA
PQSDPNGLIKCTVGRSSLKSKL

>gi|465011|sp|P33282.1|URIC_EMENI RecName: Full=Uricase; AltName: Full=Urate oxidase
MSTVAAARYGKDNVRVYKVHKDPKTGVQTVTEMTVCVLLEGEIDTSYTKADNSVIVATDSIKNTIFILAK
QNPVTPPELFGSILGTHFINKYKHIHVAHTNIITHRWTRLNIDGKPHSHSFVRDSEETRNVQVDVTEGVG
IDIKSSINKLTVLKSTGSQFWGFVRDEYTTLPEVWDRILSTDVEATWAWKRFSGLDEVRGNVPKFDETWE
AARNITLKTFAEEESASVQATMYKMGEQILAYQPLLETVEYSLPNKHYFEIDLSWHKGLKNTGKDAEVFV
PQTNPNGLIKCTVGRKSKAKL

>gi|6136151|sp|O74409.1|URIC_SCHPO RecName: Full=Probable uricase; AltName: Full=Urate oxidase
MSETTYVKQCAYGKTLVRFMKKDICPKTKTHTVYEMDVQSLLTGELEESYTKADNSIVVPTDTQKNTIYV
FAKNNDVSVPEVFAAKLAKHFVDKYKHIHGAALDITITPWTRMEVQGKPHSHSFIRNPGETRKTHVVFSE
GKGFDVVSSLKDVLVLKSTGSGFTNFHKCEFTTLPEVTDRIFSTSIDCNYTFKHFDTFEELAGFDFNSIY
EKVKEITLETFALDDSESVQATMYKMADTIINTYPAINEVYYALPNKHYFEINLAPFNIDNLGSNCSLYQ
PQAYPSGYITCTVARK

>gi|2501644|sp|P78609.1|URIC_PICJA RecName: Full=Uricase; AltName: Full=Urate oxidase
MSTTLSSSTYGKDNVKFLKVKKDPQNPKKQEVMEATVTCLLEGGFDTSYTEADNSSIVPTDTVKNTILVL
AKTTEIWPIERFAAKLATHFVEKYSHVSGVSVKIVQDRWVKYAVDGKPHDHSFIHEGGEKRITDLYYKRS
GDYKLSSAIKDLTVLKSTGSMFYGYNKCDFTTLQPTTDRILSTDVDATWVWDNKKIGSVYDIAKAADKGI
FDNVYNQAREITLTTFALENSPSVQATMFNMATQILEKACSVYSVSYALPNKHYFLIDLKWKGLENDNEL
FYPSPHPNGLIKCTVVRKEKTKL


La prima iterazione con Psi-Blast fornisce dei risultati identici alla ricerca effettuata con Blast. Con le successive due iterazioni gli Score aumentano, permettendo di identificare tre omologhi, Nodulin-35 homolog (di Arabidopsis Thaliana), sempre appartenenti alla famiglia delle Uricasi.



3. ALLINEAMENTO MULTIPLO DI SEQUENZA

Per predire la funzione di una proteina ci si basa sull'osservazione di similarità significativa con altre proteine a funzione nota. Per effettuare un'analisi comparativa necessario selezionare un certo numero di sequenze omologhe e costruire, successivamente, un allineamento multiplo. In questo caso sono state considerate cinque sequenze né troppo simili, né troppo diverse, i cui Fasta Format sono i seguenti:

>gi|465011|sp|P33282.1|URIC_EMENI RecName: Full=Uricase; AltName: Full=Urate oxidase
MSTVAAARYGKDNVRVYKVHKDPKTGVQTVTEMTVCVLLEGEIDTSYTKADNSVIVATDSIKNTIFILAK
QNPVTPPELFGSILGTHFINKYKHIHVAHTNIITHRWTRLNIDGKPHSHSFVRDSEETRNVQVDVTEGVG
IDIKSSINKLTVLKSTGSQFWGFVRDEYTTLPEVWDRILSTDVEATWAWKRFSGLDEVRGNVPKFDETWE
AARNITLKTFAEEESASVQATMYKMGEQILAYQPLLETVEYSLPNKHYFEIDLSWHKGLKNTGKDAEVFV
PQTNPNGLIKCTVGRKSKAKL

>gi|6136151|sp|O74409.1|URIC_SCHPO RecName: Full=Probable uricase; AltName: Full=Urate oxidase
MSETTYVKQCAYGKTLVRFMKKDICPKTKTHTVYEMDVQSLLTGELEESYTKADNSIVVPTDTQKNTIYV
FAKNNDVSVPEVFAAKLAKHFVDKYKHIHGAALDITITPWTRMEVQGKPHSHSFIRNPGETRKTHVVFSE
GKGFDVVSSLKDVLVLKSTGSGFTNFHKCEFTTLPEVTDRIFSTSIDCNYTFKHFDTFEELAGFDFNSIY
EKVKEITLETFALDDSESVQATMYKMADTIINTYPAINEVYYALPNKHYFEINLAPFNIDNLGSNCSLYQ
PQAYPSGYITCTVARK

>gi|2501644|sp|P78609.1|URIC_PICJA RecName: Full=Uricase; AltName: Full=Urate oxidase
MSTTLSSSTYGKDNVKFLKVKKDPQNPKKQEVMEATVTCLLEGGFDTSYTEADNSSIVPTDTVKNTILVL
AKTTEIWPIERFAAKLATHFVEKYSHVSGVSVKIVQDRWVKYAVDGKPHDHSFIHEGGEKRITDLYYKRS
GDYKLSSAIKDLTVLKSTGSMFYGYNKCDFTTLQPTTDRILSTDVDATWVWDNKKIGSVYDIAKAADKGI
FDNVYNQAREITLTTFALENSPSVQATMFNMATQILEKACSVYSVSYALPNKHYFLIDLKWKGLENDNEL
FYPSPHPNGLIKCTVVRKEKTKL

>gi|74853438|sp|Q54LT2.1|URIC_DICDI RecName: Full=Uricase; AltName: Full=Urate oxidase
MATLIDNRYGKARVRVLRVFKGPNEYHKVFDFDCRVLLRGAEFSETYLTGDNSKVVATDTMKNTVYVIAQ
KEEFKSLEEYGILLGKHFLATYSWVNGVEVVMRENQWRRIKTSNGKEQAHSFQRDREIHSVTVTSSRDKS
PVVVSGIDDLLIMKTTQSGFEGFHRDKYTSLKETKDRVFATVVTANWTYNTLSVDYSKVFEQFKLSVFDI
FAQTYSRSVQETLFLIAKDVISKVPQVEQVHLSLPNKHAFGFDFSRLNIENNQTVFQPVEEPSGLIEGTI
KRSHSRL

>gi|166897640|sp|O04420.2|URIC_ARATH RecName: Full=Uricase; AltName: Full=Nodulin-35 homolog; AltName: Full=Urate oxidase
MAQEADGIRLDQRHGKARVRVGRVWRHAHDGSHHFVEWNVSISLLSHCLSSYRLDDNSDIVATDTIKNTV
YVKAKECGDRLSVEEFAILIGKHFCSFYPQVFTAIVNIIEKPWERVSIDGKPHLHGFKLGSENHTTEARV
EKSGALNLTSGIGGLALLKTTQSGFERFVRDKYTILPETRERMLATEVNASWRYSYESVASIPTKGLYFS
EKFMDVKKVLMDTFFGPPETGVYSPSVQRTLYLMGSAVLKRFADVSSIHLKMPNIHFLPVNLSTKENPSM
VKFKDDVYLPTDEPHGSIEATLSRITSKL


Una volta stabilito che le sequenze considerate sono omologhe tra di loro, si può procedere con un multiallineamento, che fornisce molte informazioni biologiche, poiché i residui importanti da un punto di vista funzionale risultano estremamente conservati tra tutte le sequenze dell'allineamento.
Clustal W, http://www.ebi.ac.uk/Tools/clustalw/ , è il programma più diffuso per la determinazione di allineamenti multipli di sequenze omologhe. Si basa sull'allineamento multiplo progressivo, che parte dal presupposto che le sequenze da allineare siano filogeneticamente correlate. Le sequenze di input sono
inizialmente allineate a coppie. Si ricava così una matrice nella quale è riportato un punteggio proporzionale alla somiglianza delle sequenze. Da questi punteggi è possibile ricavare un albero filogenetico che indica l’ordine con il quale le sequenze devono essere allineate. L’allineamento progressivo delle sequenze genera l’allineamento multiplo.

Le sequenze considerate da allineare non sono molto divergenti, infatti ci sono pochi gaps e la percentuale di similarità è maggiore del 50%, in modo tale che il programma possa offrire una soluzione ottimale di allineamento multiplo.


gi|137100|sp|Q00511.3|URIC_ASP ---MSAVKAARYGKDNVRVYKVHKDEK-TGVQTVYEMTVCVLLEGEIETS 46
gi|465011|sp|P33282.1|URIC_EME ---MSTVAAARYGKDNVRVYKVHKDPK-TGVQTVTEMTVCVLLEGEIDTS 46
gi|6136151|sp|O74409.1|URIC_SC MSETTYVKQCAYGKTLVRFMKKDICPK-TKTHTVYEMDVQSLLTGELEES 49
gi|2501644|sp|P78609.1|URIC_PI --MSTTLSSSTYGKDNVKFLKVKKDPQNPKKQEVMEATVTCLLEGGFDTS 48
: : . *** *:. * . : . : * * * ** * :: *

gi|137100|sp|Q00511.3|URIC_ASP YTKADNSVIVATDSIKNTIYITAKQNPVTPPELFGSILGTHFIEKYNHIH 96
gi|465011|sp|P33282.1|URIC_EME YTKADNSVIVATDSIKNTIFILAKQNPVTPPELFGSILGTHFINKYKHIH 96
gi|6136151|sp|O74409.1|URIC_SC YTKADNSIVVPTDTQKNTIYVFAKNNDVSVPEVFAAKLAKHFVDKYKHIH 99
gi|2501644|sp|P78609.1|URIC_PI YTEADNSSIVPTDTVKNTILVLAKTTEIWPIERFAAKLATHFVEKYSHVS 98
**:**** :*.**: **** : ** . : * *.: *..**::**.*:

gi|137100|sp|Q00511.3|URIC_ASP AAHVNIVCHRWTRMDIDGKPHPHSFIRDSEEKRNVQVDVVEGKGIDIKSS 146
gi|465011|sp|P33282.1|URIC_EME VAHTNIITHRWTRLNIDGKPHSHSFVRDSEETRNVQVDVTEGVGIDIKSS 146
gi|6136151|sp|O74409.1|URIC_SC GAALDITITPWTRMEVQGKPHSHSFIRNPGETRKTHVVFSEGKGFDVVSS 149
gi|2501644|sp|P78609.1|URIC_PI GVSVKIVQDRWVKYAVDGKPHDHSFIHEGGEKRITDLYYKRSGDYKLSSA 148
. .* *.: ::**** ***::: *.* ..: .. . .: *:

gi|137100|sp|Q00511.3|URIC_ASP LSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILSTDVDATWQW--KNFSG 194
gi|465011|sp|P33282.1|URIC_EME INKLTVLKSTGSQFWGFVRDEYTTLPEVWDRILSTDVEATWAW--KRFSG 194
gi|6136151|sp|O74409.1|URIC_SC LKDVLVLKSTGSGFTNFHKCEFTTLPEVTDRIFSTSIDCNYTF--KHFDT 197
gi|2501644|sp|P78609.1|URIC_PI IKDLTVLKSTGSMFYGYNKCDFTTLQPTTDRILSTDVDATWVWDNKKIGS 198
:. : *****.* * .: : ::*** . ***:**.::..: : *.:.

gi|137100|sp|Q00511.3|URIC_ASP LQEVRSHV--PKFDATWATAREVTLKTFAEDNSASVQATMYKMAEQILAR 242
gi|465011|sp|P33282.1|URIC_EME LDEVRGNV--PKFDETWEAARNITLKTFAEEESASVQATMYKMGEQILAY 242
gi|6136151|sp|O74409.1|URIC_SC FEELAG----FDFNSIYEKVKEITLETFALDDSESVQATMYKMADTIINT 243
gi|2501644|sp|P78609.1|URIC_PI VYDIAKAADKGIFDNVYNQAREITLTTFALENSPSVQATMFNMATQILEK 248
. :: *: : .:::** *** ::* ******::*. *:

gi|137100|sp|Q00511.3|URIC_ASP QQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQSDPNGLIKCT 292
gi|465011|sp|P33282.1|URIC_EME QPLLETVEYSLPNKHYFEIDLSWHKGLKNTGKDAEVFVPQTNPNGLIKCT 292
gi|6136151|sp|O74409.1|URIC_SC YPAINEVYYALPNKHYFEINLAPFN-IDNLGSNCSLYQPQAYPSGYITCT 292
gi|2501644|sp|P78609.1|URIC_PI ACSVYSVSYALPNKHYFLIDLKWKG----LENDNELFYPSPHPNGLIKCT 294
: * *:******* *:* .: .:: *.. *.* *.**

gi|137100|sp|Q00511.3|URIC_ASP VGRSSLKSKL 302
gi|465011|sp|P33282.1|URIC_EME VGRKS-KAKL 301
gi|6136151|sp|O74409.1|URIC_SC VARK------ 296
gi|2501644|sp|P78609.1|URIC_PI VVRKE-KTKL 303
* *.
Gli amminoacidi identici sono indicati dall'asterisco, le sostituzioni conservative e semiconservative sono indicate rispettivamente con i due punti (similarità > 70%) ed il punto singolo (similarità compresa tra 35% e 75%). I trattini rappresentano gli intervalli (gaps) introdotti dal programma per ottenere il miglior allineamento.
Gli allineamenti multipli presentano l'opzione per colorare i residui in base ai seguenti criteri:
acidi --- colore rosso
basici --- colore blu
polari neutri --- colore verde
alifatici --- colore grigio
aromatici --- colore viola
proline o glicine --- colore marrone
cisteine --- colore giallo


sp|Q00511|URIC_ASPFL --MS---AVKAARYGKDNVRVYKVHKDEKTG-VQTVYEMTVCVLLEGEIE 44
gi|465011|sp|P33282.1|URIC_EME --MS---TVAAARYGKDNVRVYKVHKDPKTG-VQTVTEMTVCVLLEGEID 44
gi|2501644|sp|P78609.1|URIC_PI --MST--TLSSSTYGKDNVKFLKVKKDPQNPKKQEVMEATVTCLLEGGFD 46
gi|6136151|sp|O74409.1|URIC_SC --MSETTYVKQCAYGKTLVRFMKKDICPKTK-THTVYEMDVQSLLTGELE 47
gi|74853438|sp|Q54LT2.1|URIC_D MATLID-----NRYGKARVRVLRVFKGPNE-YHKVFDFDCRVLLRGAEFS 44
gi|166897640|sp|O04420.2|URIC_ MAQEADGIRLDQRHGKARVRVGRVWRHAHDGSHHFVEWNVSISLLSHCLS 50
:** *:. : : : . * :.

sp|Q00511|URIC_ASPFL TSYTKADNSVIVATDSIKNTIYITAKQN-PVTPPELFGSILGTHFIEKYN 93
gi|465011|sp|P33282.1|URIC_EME TSYTKADNSVIVATDSIKNTIFILAKQN-PVTPPELFGSILGTHFINKYK 93
gi|2501644|sp|P78609.1|URIC_PI TSYTEADNSSIVPTDTVKNTILVLAKTT-EIWPIERFAAKLATHFVEKYS 95
gi|6136151|sp|O74409.1|URIC_SC ESYTKADNSIVVPTDTQKNTIYVFAKNN-DVSVPEVFAAKLAKHFVDKYK 96
gi|74853438|sp|Q54LT2.1|URIC_D ETYLTGDNSKVVATDTMKNTVYVIAQKE-EFKSLEEYGILLGKHFLATYS 93
gi|166897640|sp|O04420.2|URIC_ S-YRLDDNSDIVATDTIKNTVYVKAKECGDRLSVEEFAILIGKHFCSFYP 99
* *** :*.**: ***: : *: * :. :..** *

sp|Q00511|URIC_ASPFL HIHAAHVNIVCHRWTRMDID-GKPHPHSFIRDSEEKRNVQVDVVEGKGID 142
gi|465011|sp|P33282.1|URIC_EME HIHVAHTNIITHRWTRLNID-GKPHSHSFVRDSEETRNVQVDVTEGVGID 142
gi|2501644|sp|P78609.1|URIC_PI HVSGVSVKIVQDRWVKYAVD-GKPHDHSFIHEGGEKRITDLYYKRSGDYK 144
gi|6136151|sp|O74409.1|URIC_SC HIHGAALDITITPWTRMEVQ-GKPHSHSFIRNPGETRKTHVVFSEGKGFD 145
gi|74853438|sp|Q54LT2.1|URIC_D WVNGVEVVMRENQWRRIKTSNGKEQAHSFQRDR-EIHSVTVTSSRDKSPV 142
gi|166897640|sp|O04420.2|URIC_ QVFTAIVNIIEKPWERVSID-GKPHLHGFKLGS-ENHTTEARVEKSGALN 147
: . : * : . ** : *.* * : . ..

sp|Q00511|URIC_ASPFL IKSSLSGLTVLKSTNSQFWGFLRDEYTTLKETWDRILSTDVDATWQWKN- 191
gi|465011|sp|P33282.1|URIC_EME IKSSINKLTVLKSTGSQFWGFVRDEYTTLPEVWDRILSTDVEATWAWKR- 191
gi|2501644|sp|P78609.1|URIC_PI LSSAIKDLTVLKSTGSMFYGYNKCDFTTLQPTTDRILSTDVDATWVWDNK 194
gi|6136151|sp|O74409.1|URIC_SC VVSSLKDVLVLKSTGSGFTNFHKCEFTTLPEVTDRIFSTSIDCNYTFKH- 194
gi|74853438|sp|Q54LT2.1|URIC_D VVSGIDDLLIMKTTQSGFEGFHRDKYTSLKETKDRVFATVVTANWTYNTL 192
gi|166897640|sp|O04420.2|URIC_ LTSGIGGLALLKTTQSGFERFVRDKYTILPETRERMLATEVNASWRYSYE 197
: *.: : ::*:* * * : : .:* * . :*:::* : ..: :.

sp|Q00511|URIC_ASPFL -FSGLQEVRSHVPK--FDATWATAREVTLKTFAED-----NSASVQATMY 233
gi|465011|sp|P33282.1|URIC_EME -FSGLDEVRGNVPK--FDETWEAARNITLKTFAEE-----ESASVQATMY 233
gi|2501644|sp|P78609.1|URIC_PI KIGSVYDIAKAADKGIFDNVYNQAREITLTTFALE-----NSPSVQATMF 239
gi|6136151|sp|O74409.1|URIC_SC -FDTFEELAG----FDFNSIYEKVKEITLETFALD-----DSESVQATMY 234
gi|74853438|sp|Q54LT2.1|URIC_D SVD-------------YSKVFEQFKLSVFDIFAQT-----YSRSVQETLF 224
gi|166897640|sp|O04420.2|URIC_ SVASIPTKGLY-----FSEKFMDVKKVLMDTFFGPPETGVYSPSVQRTLY 242
. :. : : : * * *** *::

sp|Q00511|URIC_ASPFL KMAEQILARQQLIETVEYSLPNKHYFEIDLSWHKGLQNTGKNAEVFAPQS 283
gi|465011|sp|P33282.1|URIC_EME KMGEQILAYQPLLETVEYSLPNKHYFEIDLSWHKGLKNTGKDAEVFVPQT 283
gi|2501644|sp|P78609.1|URIC_PI NMATQILEKACSVYSVSYALPNKHYFLIDLKW-KGLEN---DNELFYPSP 285
gi|6136151|sp|O74409.1|URIC_SC KMADTIINTYPAINEVYYALPNKHYFEINLAP-FNIDNLGSNCSLYQPQA 283
gi|74853438|sp|Q54LT2.1|URIC_D LIAKDVISKVPQVEQVHLSLPNKHAFGFDFSRLN----IENNQTVFQPVE 270
gi|166897640|sp|O04420.2|URIC_ LMGSAVLKRFADVSSIHLKMPNIHFLPVNLSTKENPSMVKFKDDVYLPTD 292
:. :: : : :** * : .:: . :: *

sp|Q00511|URIC_ASPFL DPNGLIKCTVGRSSLKSKL 302
gi|465011|sp|P33282.1|URIC_EME NPNGLIKCTVGRKS-KAKL 301
gi|2501644|sp|P78609.1|URIC_PI HPNGLIKCTVVRKE-KTKL 303
gi|6136151|sp|O74409.1|URIC_SC YPSGYITCTVARK------ 296
gi|74853438|sp|Q54LT2.1|URIC_D EPSGLIEGTIKRSHSRL-- 287
gi|166897640|sp|O04420.2|URIC_ EPHGSIEATLSRITSKL-- 309
* * * *: *
Analizzando l'allineamento si può notare che gli aminoacidi maggiormente conservati sono quelli idrofobici.........

Le celle GAP EXTENSION e GAP DISTANCES sono dedicate a definire le penalità per l'estensione (da 0.05 a 10) e la separazione (da 1 a 10) delle interruzioni: modificando i parametri di default, in particolare diminuendo a 0.05 la GAP EXTENSION ed aumentando a 10 le GAP DISTANCES la situazione non cambia; ciò potrebbe significare che non è possibile ottenere migliori allineamenti.
Torna all'inizio della Pagina
  Discussione  

Quanto è utile/interessante questa discussione:

 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
Vai a:
MolecularLab.it © 2003-18 MolecularLab.it Torna all'inizio della Pagina