Bancos de dados de Vias Metabólicas

Objetivos

Obter familiarização com o banco KEGG.
Anotar sequências em uma via metabólica.
Extrair informações de uma via e de seus componentes.

Observação:

Este tutorial foi construído apenas para fins didáticos para a disciplina de Bioinformática, do curso de Biomedicina da UFRN. A reprodução dele para qualquer outro fim não é permitida e nem consentida pelos professores do curso.

Explorando o KEGG

Introdução

Anotando sequências desconhecidas em uma via metabólica usando o KEGG.

O banco de dados KEGG (Kyoto Encyclopedia of Genes and Genomes) é um dos mais utilizados e um dos padrões para anotação de sequências obtidas em abordagens “-ômicas”. Nele estão contidas informações gerais de sistemas (metabolismo dos organismos vivos, como descrição de redes, vias, processos de sinalização), genômicas (genes e genomas), químicas (enzimas, metabólitos, etc.) e de saúde (fármacos, doenças, etc.). Ele pode ser acessado tanto por um servidor web, como pode ser obtido para integração com bancos de dados do tipo SQL.

Cada mapa de via no KEGG é identificado pela combinação de um código de 2-4 letras e um número de 5 dígitos. Os prefixos tem os seguintes significados:

map - Reference pathway (Via de referência, desenhada).
ko - Reference pathway (KO).
ec - Reference pathway (EC).
rn - Reference pathway (Reaction).
org - Organism-specific pathway map.

Objetos gráficos nos mapas, tem os seguintes significados:

Caixas - grupos ortólogos (KO) identificados por números K e, em mapas metabólicos, reações identificadas por números R.
Círculos - outras moléculas, geralmente compostos químicos identificados por números C, incluindo glicanos, identificados por números G.
Linhas - reações identificadas por números R nos mapas metabólicos; grupos ortólogos (KO) identificados por números K em mapas globais do metabolismo.

Explorando Vias

Abra a página do KEGG e insira no campo de busca no início da página o termo MAP00010 e clique em SEARCH.
Na paǵina seguinte clique no resultado: MAP00010.
Agora uma descrição geral da Via glicolítica irá aparecer. Leia-a e depois clique em Pathway Map. Observe a via.
Volte para a página inicial do KEGG e agora coloque os termos, um de cada vez:
ko00010;
eco00010;
hsa00010.
As caixas em verde representam os ortólogos encontrados naquela espécie. Compare e veja as diferenças entre a via glicolítica da E. coli e a de humanos.

Anotando sequências

Baseado nas informações acima iremos anotar um grupo de sequências de proteínas “desconhecidas”, descobrindo sua função e a quais vias/processos elas pertencem, utilizando o KEGG Mapper (BlastKOALA). O arquivo com as sequências é o seguinte:

SeqsKEGG.fasta.

Copie as sequências ou salve o arquivo e, sem seguida, siga os passos abaixo:

Abra a página inicial do KEGG Annotation.
Na coluna do lado esquerdo clique em BlastKOALA
Cole as sequências fasta dadas na caixa Enter fasta sequences (ou faça o upload do arquivo).
Clique em Eukaryotes, abaixo do item Enter KEGG GENES database file to be searched e coloque seu e-mail institucional (.edu.br ou outro). Abra seu email, confirme os resultados. Esta etapa geralmente demora mais do que alguns minutos.
Verifique e interprete o gráfico dado como resultado. Clique em View para ver uma tabela com a anotação das sequências. Verifique na tabela o número KO.
Volte a página do KEGG Annotation e coloque a lista com os KOs na caixa Ortholog table e clique em GO.
Volte a página do sumário do resultado e agora clique em Reconstruct Pathway. Verifique os resultados, especialmente os número entre parênteses.

Questões de direcionamento

Baseado no encontrado acima (deixe as páginas abertas), responda as seguintes questões:

As sequências obtidas participam de quantas vias metabólicas? Qual seria a principal?
A via metabólica que você considerou como principal está completa? (No sentido de todas as enzimas estarem presentes). Quantas enzimas estão presentes? Liste as enzimas ausentes?
Existem isoformas de proteínas para a mesma função?
Há sobreposição de vias, ou seja, proteínas que estejam relacionadas a vias interligadas?
Quais processos de sinalização estão relacionados as sequências utilizadas como input?
Elas estão envolvidas em algum evento de sinalização hormonal?
Elas estão envolvidas em alguma doença? Obtenha informações.

SeqsKEGG.fasta

>KPYM_HUMAN
MSKPHSEAGTAFIQTQQLHAAMADTFLEHMCRLDIDSPPITARNTGIICTIGPASRSVET
LKEMIKSGMNVARLNFSHGTHEYHAETIKNVRTATESFASDPILYRPVAVALDTKGPEIR
TGLIKGSGTAEVELKKGATLKITLDNAYMEKCDENILWLDYKNICKVVEVGSKIYVDDGL
ISLQVKQKGADFLVTEVENGGSLGSKKGVNLPGAAVDLPAVSEKDIQDLKFGVEQDVDMV
FASFIRKASDVHEVRKVLGEKGKNIKIISKIENHEGVRRFDEILEASDGIMVARGDLGIE
IPAEKVFLAQKMMIGRCNRAGKPVICATQMLESMIKKPRPTRAEGSDVANAVLDGADCIM
LSGETAKGDYPLEAVRMQHLIAREAEAAIYHLQLFEELRRLAPITSDPTEATAVGAVEAS
FKCCSGAIIVLTKSGRSAHQVARYRPRAPIIAVTRNPQTARQAHLYRGIFPVLCKDPVQE
AWAEDVDLRVNFAMNVGKARGFFKKGDVVIVLTGWRPGSGFTNTMRVVPVP
>G3P_HUMAN
MGKVKVGVNGFGRIGRLVTRAAFNSGKVDIVAINDPFIDLNYMVYMFQYDSTHGKFHGTV
KAENGKLVINGNPITIFQERDPSKIKWGDAGAEYVVESTGVFTTMEKAGAHLQGGAKRVI
ISAPSADAPMFVMGVNHEKYDNSLKIISNASCTTNCLAPLAKVIHDNFGIVEGLMTTVHA
ITATQKTVDGPSGKLWRDGRGALQNIIPASTGAAKAVGKVIPELNGKLTGMAFRVPTANV
SVVDLTCRLEKPAKYDDIKKVVKQASEGPLKGILGYTEHQVVSSDFNSDTHSSTFDAGAG
IALNDHFVKLISWYDNEFGYSNRVVDLMAHMASKE
>ENOA_HUMAN
MSILKIHAREIFDSRGNPTVEVDLFTSKGLFRAAVPSGASTGIYEALELRDNDKTRYMGK
GVSKAVEHINKTIAPALVSKKLNVTEQEKIDKLMIEMDGTENKSKFGANAILGVSLAVCK
AGAVEKGVPLYRHIADLAGNSEVILPVPAFNVINGGSHAGNKLAMQEFMILPVGAANFRE
AMRIGAEVYHNLKNVIKEKYGKDATNVGDEGGFAPNILENKEGLELLKTAIGKAGYTDKV
VIGMDVAASEFFRSGKYDLDFKSPDDPSRYISPDQLADLYKSFIKDYPVVSIEDPFDQDD
WGAWQKFTASAGIQVVGDDLTVTNPKRIAKAVNEKSCNCLLLKVNQIGSVTESLQACKLA
QANGWGVMVSHRSGETEDTFIADLVVGLCTGQIKTGAPCRSERLAKYNQLLRIEEELGSK
AKFAGRNFRNPLAK
>ALDOA_HUMAN
MPYQYPALTPEQKKELSDIAHRIVAPGKGILAADESTGSIAKRLQSIGTENTEENRRFYR
QLLLTADDRVNPCIGGVILFHETLYQKADDGRPFPQVIKSKGGVVGIKVDKGVVPLAGTN
GETTTQGLDGLSERCAQYKKDGADFAKWRCVLKIGEHTPSALAIMENANVLARYASICQQ
NGIVPIVEPEILPDGDHDLKRCQYVTEKVLAAVYKALSDHHIYLEGTLLKPNMVTPGHAC
TQKFSHEEIAMATVTALRRTVPPAVTGITFLSGGQSEEEASINLNAINKCPLLKPWALTF
SYGRALQASALKAWGGKKENLKAAQEEYVKRALANSLACQGKYTPSGQAGAAASESLFVS
NHAY
>G6PI_HUMAN
MAALTRDPQFQKLQQWYREHRSELNLRRLFDANKDRFNHFSLTLNTNHGHILVDYSKNLV
TEDVMRMLVDLAKSRGVEAARERMFNGEKINYTEGRAVLHVALRNRSNTPILVDGKDVMP
EVNKVLDKMKSFCQRVRSGDWKGYTGKTITDVINIGIGGSDLGPLMVTEALKPYSSGGPR
VWYVSNIDGTHIAKTLAQLNPESSLFIIASKTFTTQETITNAETAKEWFLQAAKDPSAVA
KHFVALSTNTTKVKEFGIDPQNMFEFWDWVGGRYSLWSAIGLSIALHVGFDNFEQLLSGA
HWMDQHFRTTPLEKNAPVLLALLGIWYINCFGCETHAMLPYDQYLHRFAAYFQQGDMESN
GKYITKSGTRVDHQTGPIVWGEPGTNGQHAFYQLIHQGTKMIPCDFLIPVQTQHPIRKGL
HHKILLANFLAQTEALMRGKSTEEARKELQAAGKSPEDLERLLPHKVFEGNRPTNSIVFT
KLTPFMLGALVAMYEHKIFVQGIIWDINSFDQWGVELGKQLAKKIEPELDGSAQVTSHDA
STNGLINFIKQQREARVQ
>PFKAL_HUMAN
MAAVDLEKLRASGAGKAIGVLTSGGDAQGMNAAVRAVTRMGIYVGAKVFLIYEGYEGLVE
GGENIKQANWLSVSNIIQLGGTIIGSARCKAFTTREGRRAAAYNLVQHGITNLCVIGGDG
SLTGANIFRSEWGSLLEELVAEGKISETTARTYSHLNIAGLVGSIDNDFCGTDMTIGTDS
ALHRIMEVIDAITTTAQSHQRTFVLEVMGRHCGYLALVSALASGADWLFIPEAPPEDGWE
NFMCERLGETRSRGSRLNIIIIAEGAIDRNGKPISSSYVKDLVVQRLGFDTRVTVLGHVQ
RGGTPSAFDRILSSKMGMEAVMALLEATPDTPACVVTLSGNQSVRLPLMECVQMTKEVQK
AMDDKRFDEATQLRGGSFENNWNIYKLLAHQKPPKEKSNFSLAILNVGAPAAGMNAAVRS
AVRTGISHGHTVYVVHDGFEGLAKGQVQEVGWHDVAGWLGRGGSMLGTKRTLPKGQLESI
VENIRIYGIHALLVVGGFEAYEGVLQLVEARGRYEELCIVMCVIPATISNNVPGTDFSLG
SDTAVNAAMESCDRIKQSASGTKRRVFIVETMGGYCGYLATVTGIAVGADAAYVFEDPFN
IHDLKVNVEHMTEKMKTDIQRGLVLRNEKCHDYYTTEFLYNLYSSEGKGVFDCRTNVLGH
LQQGGAPTPFDRNYGTKLGVKAMLWLSEKLREVYRKGRVFANAPDSACVIGLKKKAVAFS
PVTELKKDTDFEHRMPREQWWLSLRLMLKMLAQYRISMAAYVSGELEHVTRRTLSMDKGF
>PFKAM_HUMAN
MTHEEHHAAKTLGIGKAIAVLTSGGDAQGMNAAVRAVVRVGIFTGARVFFVHEGYQGLVD
GGDHIKEATWESVSMMLQLGGTVIGSARCKDFREREGRLRAAYNLVKRGITNLCVIGGDG
SLTGADTFRSEWSDLLSDLQKAGKITDEEATKSSYLNIVGLVGSIDNDFCGTDMTIGTDS
ALHRIMEIVDAITTTAQSHQRTFVLEVMGRHCGYLALVTSLSCGADWVFIPECPPDDDWE
EHLCRRLSETRTRGSRLNIIIVAEGAIDKNGKPITSEDIKNLVVKRLGYDTRVTVLGHVQ
RGGTPSAFDRILGSRMGVEAVMALLEGTPDTPACVVSLSGNQAVRLPLMECVQVTKDVTK
AMDEKKFDEALKLRGRSFMNNWEVYKLLAHVRPPVSKSGSHTVAVMNVGAPAAGMNAAVR
STVRIGLIQGNRVLVVHDGFEGLAKGQIEEAGWSYVGGWTGQGGSKLGTKRTLPKKSFEQ
ISANITKFNIQGLVIIGGFEAYTGGLELMEGRKQFDELCIPFVVIPATVSNNVPGSDFSV
GADTALNTICTTCDRIKQSAAGTKRRVFIIETMGGYCGYLATMAGLAAGADAAYIFEEPF
TIRDLQANVEHLVQKMKTTVKRGLVLRNEKCNENYTTDFIFNLYSEEGKGIFDSRKNVLG
HMQQGGSPTPFDRNFATKMGAKAMNWMSGKIKESYRNGRIFANTPDSGCVLGMRKRALVF
QPVAELKDQTDFEHRIPKEQWWLKLRPILKILAKYEIDLDTSDHAHLEHITRKRSGEAAV
>PGK1_HUMAN
MSLSNKLTLDKLDVKGKRVVMRVDFNVPMKNNQITNNQRIKAAVPSIKFCLDNGAKSVVL
MSHLGRPDGVPMPDKYSLEPVAVELKSLLGKDVLFLKDCVGPEVEKACANPAAGSVILLE
NLRFHVEEEGKGKDASGNKVKAEPAKIEAFRASLSKLGDVYVNDAFGTAHRAHSSMVGVN
LPQKAGGFLMKKELNYFAKALESPERPFLAILGGAKVADKIQLINNMLDKVNEMIIGGGM
AFTFLKVLNNMEIGTSLFDEEGAKIVKDLMSKAEKNGVKITLPVDFVTADKFDENAKTGQ
ATVASGIPAGWMGLDCGPESSKKYAEAVTRAKQIVWNGPVGVFEWEAFARGTKALMDEVV
KATSRGCITIIGGGDTATCCAKWNTEDKVSHVSTGGGASLELLEGKVLPGVDALSNI
>TPIS_HUMAN
MAEDGEEAEFHFAALYISGQWPRLRADTDLQRLGSSAMAPSRKFFVGGNWKMNGRKQSLG
ELIGTLNAAKVPADTEVVCAPPTAYIDFARQKLDPKIAVAAQNCYKVTNGAFTGEISPGM
IKDCGATWVVLGHSERRHVFGESDELIGQKVAHALAEGLGVIACIGEKLDEREAGITEKV
VFEQTKVIADNVKDWSKVVLAYEPVWAIGTGKTATPQQAQEVHEKLRGWLKSNVSDAVAQ
STRIIYGGSVTGATCKELASQPDVDGFLVGGASLKPEFVDIINAKQ
>PFKAP_HUMAN
MDADDSRAPKGSLRKFLEHLSGAGKAIGVLTSGGDAQGMNAAVRAVVRMGIYVGAKVYFI
YEGYQGMVDGGSNIAEADWESVSSILQVGGTIIGSARCQAFRTREGRLKAACNLLQRGIT
NLCVIGGDGSLTGANLFRKEWSGLLEELARNGQIDKEAVQKYAYLNVVGMVGSIDNDFCG
TDMTIGTDSALHRIIEVVDAIMTTAQSHQRTFVLEVMGRHCGYLALVSALACGADWVFLP
ESPPEEGWEEQMCVKLSENRARKKRLNIIIVAEGAIDTQNKPITSEKIKELVVTQLGYDT
RVTILGHVQRGGTPSAFDRILASRMGVEAVIALLEATPDTPACVVSLNGNHAVRLPLMEC
VQMTQDVQKAMDERRFQDAVRLRGRSFAGNLNTYKRLAIKLPDDQIPKTNCNVAVINVGA
PAAGMNAAVRSAVRVGIADGHRMLAIYDGFDGFAKGQIKEIGWTDVGGWTGQGGSILGTK
RVLPGKYLEEIATQMRTHSINALLIIGGFEAYLGLLELSAAREKHEEFCVPMVMVPATVS
NNVPGSDFSIGADTALNTITDTCDRIKQSASGTKRRVFIIETMGGYCGYLANMGGLAAGA
DAAYIFEEPFDIRDLQSNVEHLTEKMKTTIQRGLVLRNESCSENYTTDFIYQLYSEEGKG
VFDCRKNVLGHMQQGGAPSPFDRNFGTKISARAMEWITAKLKEARGRGKKFTTDDSICVL
GISKRNVIFQPVAELKKQTDFEHRIPKEQWWLKLRPLMKILAKYKASYDVSDSGQLEHVQ
PWSV
>ADPGK_HUMAN
MALWRGSAYAGFLALAVGCVFLLEPELPGSALRSLWSSLCLGPAPAPPGPVSPEGRLAAA
WDALIVRPVRRWRRVAVGVNACVDVVLSGVKLLQALGLSPGNGKDHSILHSRNDLEEAFI
HFMGKGAAAERFFSDKETFHDIAQVASEFPGAQHYVGGNAALIGQKFAANSDLKVLLCGP
VGPKLHELLDDNVFVPPESLQEVDEFHLILEYQAGEEWGQLKAPHANRFIFSHDLSNGAM
NMLEVFVSSLEEFQPDLVVLSGLHMMEGQSKELQRKRLLEVVTSISDIPTGIPVHLELAS
MTNRELMSSIVHQQVFPAVTSLGLNEQELLFLTQSASGPHSSLSSWNGVPDVGMVSDILF
WILKEHGRSKSRASDLTRIHFHTLVYHILATVDGHWANQLAAVAAGARVAGTQACATETI
DTSRVSLRAPQEFMTSHSEAGSRIVLNPNKPVVEWHREGISFHFTPVLVCKDPIRTVGLG
DAISAEGLFYSEVHPHY
>PGK2_HUMAN
MSLSKKLTLDKLDVRGKRVIMRVDFNVPMKKNQITNNQRIKASIPSIKYCLDNGAKAVVL
MSHLGRPDGVPMPDKYSLAPVAVELKSLLGKDVLFLKDCVGAEVEKACANPAPGSVILLE
NLRFHVEEEGKGQDPSGKKIKAEPDKIEAFRASLSKLGDVYVNDAFGTAHRAHSSMVGVN
LPHKASGFLMKKELDYFAKALENPVRPFLAILGGAKVADKIQLIKNMLDKVNEMIIGGGM
AYTFLKVLNNMEIGASLFDEEGAKIVKDIMAKAQKNGVRITFPVDFVTGDKFDENAQVGK
ATVASGISPGWMGLDCGPESNKNHAQVVAQARLIVWNGPLGVFEWDAFAKGTKALMDEIV
KATSKGCITVIGGGDTATCCAKWNTEDKVSHVSTGGGASLELLEGKILPGVEALSNM

One more thing...

Um dos grupos de pesquisa do BioME possui uma ferramenta bem interessante, chamada KEGG Pathway Viewer. Com ela você pode verificar vias metabólicas do KEGG por meio de uma perspectiva da Biologia de Sistemas/teoria dos grafos. Além disso, ela também ajuda a identificar/ressaltar as proteínas mais importantes na rede/via e os seus pontos de articulação.