UniProt
UniProt je slobodno dostupna baza podataka proteinskih sekvenci i funkcijskih informacija, a mnogi unosi izvedeni su iz Projekat sekvenciranja genoma. Sadrži veliku količinu informacija o biološkoj funkciji proteina izvedenih iz istraživačke literature. Održava ga UniProt konzorcij, koji se sastoji od nekoliko evropskih bioinformatičkih organizacija i fondacije iz Washington, DC, Sjedinjene Države
UniProt | |
---|---|
Nasljednik | Nasljednik je najstarije baze podataka o sekvencama proteina, Margaret Dayhoff: Atlas proteinskih sekvenci i struktura, prvi put objavljeni 1965 |
Vrsta | Baza i anotacije proteinskih podataka |
Status | Aktivna |
Cilj | UniProt je Uni verzalni Prot einski resurs, centralno spremište podataka o proteinima, stvoreno kombiniranjem Swiss-Prot, TrEMBL i PIR-PSD baza podataka |
Glavno sjedište | EMBL-EBI, Velika Britanija SIB, Švicarska; PIR, SAD. |
Članstvo | Globalno |
Jezik | Engleski |
Br. volontera | Neograničen |
Veb-sajt | www www |
UniProt konzorcij
urediKonzorcij UniProt čine Evropskog instituta za bioinformatiku (EBI), Švicarski institut za bioinformatiku (SIB) i Informativni proteinski resurs (PIR). EBI, smješten u Wellcome Trust genomskom kampusuu u Hinxtonu, u Velikoj Britaniji, domaćin je velikom resursu baza podataka i usluga o bioinformatici. SIB, smješten u Ženevi u Švicarskoj, održava ExPASy (Stručni sistem za analizu proteina – Expert Protein Analysis System), servere koji su centalnii resurs za proteomske alate i baze podataka. PIR, čiji je domaćin Nacionalna fondacija za biomedicinska istraživanja (NBRF) u Medicinskom centru Univerziteta Georgetown u Washingtonu, DC, nasljednik je najstarije baze podataka o sekvencama proteina, Margaret Dayhoff, Atlas proteinskih sekvenci i struktura, prvi put objavljeni 1965.[1] U 2002., EBI, SIB i PIR udružili su snage kao UniProt konzorcij.[2]
Korijeni UniProt baza podataka
urediSvaki član konzorcija u velikoj mjeri uključen je u održavanje i bilježenje baza podataka o proteinima. Do nedavno su EBI i SIB zajedno izrađivali baze podataka Swiss-Prot i TrEMBL, dok je PIR proizvodio bazu podataka o sekvencama proteina (PIR-PSD).[3][4][5] Ove baze podataka koegzistirale su s različitim sekvencama proteina i prioritetima označavanja.
Swiss-Prot stvorio je 1986. godine Amos Bairoch, za vrijeme doktorata, a razvio ga je Švicarski institut za bioinformatiku, a potom Rolf Apweiler u Evropskom institutu za bioinformatiku.[6][7][8] Swiss-Prot imao je za cilj pružiti pouzdane podatke o proteinskim sekvencama, koje supovezane s visokim nivoom anotacije (kao što je opis funkcije proteina, njegov domenska struktura, posttranslacijske modifikacije, varijante, itd.), minimalni nivo redundancije i visok nivo integracije s drugim bazama podataka. Prepoznajući da se podaci o sekvencama generiraju brzinom koja premašuje sposobnost Swiss-Prota da to održi, stvorena je TrEMBL (translatirana biblioteka podataka nukleotidnih sekvenci EMBL nukleotida), kako bi se pružile automatizirane anotacije za one proteine koji nisu u Swiss-Protu. U međuvremenu, PIR je održavao PIR-PSD i srodne baze podataka, uključujući iProClass, bazu proteinskih sekvenci i nadgledanih porodica.
Članice konzorcija objedinile su preklapajuće resurse i stručnost i pokrenuli UniProt, u decembru 2003.[9]
Organizacija UniProt baza podataka
urediUniProt pruža četiri osnovne baze podataka: UniProtKB (s poddijelovima Swiss-Prot i TrEMBL), UniParc, UniRef.
UniProtKB
urediUniProt baza znanja (UniProtKB) je baza podataka o proteinima koju su djelimično uredili stručnjaci, a sastoji se od dva odjeljka: UniProtKB / Swiss-Prot (sadrži pregledane, ručno označene unose) i UniProtKB / TrEMBL (sadrži nerevidirane, automatski označene unose).[10] Dana 19. marta 2014., izdagt je "2014_03" u UniProtKB / Swiss-Prot, koji sadrži 542.782 unosa sekvenci (uključujući 193,019.802 aminokiseline, apstrahirane iz 226.896 referenci), a izdanje "2014_03" za UniProtKB / TrEMBL sadrži 54,247.468 unosa sekvenci (od 17,207.833.179 aminokiselina).[11][12]
UniProtKB/Swiss-Prot
urediUniProtKB / Swiss-Prot je ručno komentirana, neredunantna baza podataka o proteinskim sekvencama. Kombinira informacije izvučene iz naučne literature i biokuratora – evaluirane računarske analize. Cilj UniProtKB / Swiss-Prot je pružiti sve poznate relevantne informacije o određenom proteinu. Bilješke se redovno pregledavaju, kako bi se išlo u korak sa tekućim naučnim saznanjima. Ručna bilješka unosa uključuje detaljnu analizu proteinske sekvence i naučne literature. literature.[13]
Sekvence iz istog gena i iste vrste spojeni su u isti unos baze podataka. Utvrđene su razlike između sekvenci i dokumentiran njihov uzrok (na primjer alternativna prerada RNK, prirodna varijacija, netačna inicijacija lokacije, netačne granice egzona , pomicanje okvira, neidentificirani sukobi). U bilješkama UniProtKB / Swiss-Prot unosa koristi se niz alata za analizu sekvenci. Računarska predviđanja se ručno procjenjuju i odabiru relevantni rezultati za uključivanje u unos. Ova predviđanja uključuju posttranslacijske modifikacije, transmembrfanske domene i topologiju, signalne peptide, identifikacija domena i klasifikaciju porodica proteina.[13][14]
Relevantne publikacije identificiraju se pretraživanjem baza podataka kao što je PubMed. Čita se puni tekst svakog rada, a informacije se izdvajaju i dodaju unosu. Napomena koja proizlazi iz naučne literature uključuje, ali nije ograničena na:[9][13][14]
- Imena proteina i gena
- Funkciju
- Enzim-specifičnu informaciju, kao što su katalitska aktivnost, kofactori katalitski ostaci
- Subćelijska lokacija
- Interakcije protein-protein
- Obrasci eksprtesije
Lokacije i uloge značajnih domena i web lokacija
- Ion – supstrat – i mjesta vezanja kofaktora
- Oblici proteinskih varijanti proizvedeni prirodnom genetičkom varijacijom, prerada RNK, alternativna prerada, proteolitska obrada i posttranslacijske modifikacije
Prije uključivanja u UniProtKB / Swiss-Prot, zapisi se podvrgavaju osiguranju kvaliteta. Kada novi podaci postanu dostupni, unosi se ažuriraju.
UniProtKB / TrEMBL
urediUniProtKB/TrEMBL sadrži visokokvalitetne računarski analizirane zapise koji su obogaćeni automatskim napomenama. Uveden je kao odgovor na povećani protok podataka proizašao iz projekata genoma, jer se dugotrajni i ručni postupak anotiranja UniProtKB/Swiss-Prot nije mogao proširiti tako da uključuje sve dostupne proteinske sekvence.[9] Prijevodi označenih kodirajućih sekvenci u EMBL-Bank/GenBank/DDBJ baza nukleotidnih sekvenci automatski se obrađuju i unose u UniProtKB / TrEMBL.
UniProtKB/TrEMBL također sadrži sekvence iz PDB i iz predviđanja gena, uključujući Ensembl, RefSeq i Projekta konsenzusnog obilježavanja sekvenci. .[15]
UniParc
urediUniProt Archive (UniParc) je sveobuhvatna i nerebudantna baza podataka koja sadrži sve sekvence proteina iz glavnih, javno dostupnih baza podataka o sekvencama proteina.[16] Proteini mogu postojati u nekoliko različitih izvornih baza podataka i u više kopija u istoj bazi. Da bi se izbjegla suvišnost, UniParc pohranjuje svaku jedinstvenu sekvencu samo jednom. Identični nizovi se spajaju, bez obzira da li su iz iste ili različitih vrsta. Svaka sekvenca dobija stabilni i jedinstveni identifikator (UPI), što omogućava identifikaciju istog proteina iz različitih izvornih baza podataka. UniParc sadrži samo proteinske sekvence, bez napomena. Unakrsne reference baze podataka u UniParc unosima omogućuju preuzimanje dodatnih podataka o proteinu iz izvornih baza podataka. Kada se sekvence u izvornim bazama podataka promijene, UniParc prati te promjene i arhivira u povijest svih promjena.
Izvorne baze podataka
urediDo sada UniParc sadrži proteinske sekvence iz sljedećih javno dostupnih baza podataka:
- INSDC EMBL - Banka / DDBJ / GenBank baze podataka sekvence nukleotida
- Ensembl
- Evropski patentni ured (EPO)
- FlyBaza: primarno spremište genetičkih i molekulskh podataka za porodicu insekata porodice Drosophilidae (FlyBaza)
- Baza podataka H-Invitationa (H-Inv)
- Međunarodni indeks proteina (IPI)
- Japanski patentni ured (JPO)
- Proteinski informativni resurs (PIR-PSD)
- Proteinska banka podataka (PDB)
- Fondacija za istraživanje proteina (PRF) [17]
- RefSeq
- Baza podataka za Saccharomyces (SGD)
- Arabidopsisov informativni resurs (TAIR)
- TROME[18]
- Američki ured za patente (USPTO)
- UniProtKB /Swiss-Prot, UniProtKB/Swiss-Prot proteinske izoforme, UniProtKB / TrEMBL
- Baza podataka o anotacijama kičmenjaka i genoma (VEGA)
- WormBaza
UniRef
urediReferentni klasteri UniProt (UniRef) sastoje se od tri baze podataka klasteriziranih skupova proteinskih sekvenci iz UniProtKB i odabranih UniParc zapisa.[19] Baza podataka UniRef100 kombinira identične sekvence i fragmente sekvenci (iz bilo kojeg organizma) u jedan UniRef unos. Prikazana je sekvenca reprezentativnog proteina, pristupni brojevi svih spojenih unosa i veza do odgovarajućih zapisa UniProtKB i UniParc. UniRef100 sekvence su grupirane pomoću CD-HIT-a algoritama za izgradnju UniRef90 i UniRef50.[19][20] Svaki klaster sastoji se od sekvenci koje imaju najmanje 90%, odnosno 50% identiteta sekvence do najduže sekvence. Grupiranje sekvenci značajno smanjuje veličinu baze podataka, omogućavajući brže pretraživanje sekvenci.
UniRef je dostupan na UniProt FTP web mjestu.
Finansiranje
urediUniProt se financira grantovima Nacionalnog instituta za istraživanje ljudskog genoma, Nacionalnog instituta za zdravstvo (NIH), Evropske komisije, Švicarske savezne vlade putem Saveznog ureda za obrazovanje i nauku , NCI-caBIG i Ministarstvo odbrane SAD-a.[10]
Reference
uredi- ^ Dayhoff, Margaret O. (1965). Atlas of protein sequence and structure. Silver Spring, Md: National Biomedical Research Foundation.
- ^ "2002 Release: NHGRI Funds Global Protein Database". National Human Genome Research Institute (NHGRI). Arhivirano s originala, 24. 9. 2015. Pristupljeno 14. 4. 2018.
- ^ O'Donovan, C.; Martin, M. J.; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "High-quality protein knowledge resource: SWISS-PROT and TrEMBL". Briefings in Bioinformatics. 3 (3): 275–284. doi:10.1093/bib/3.3.275. PMID 12230036.
- ^ Wu, C. H.; Yeh, L. S.; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kourtesis, P.; Ledley, R. S.; Suzek, B. E.; Vinayaka, C. R.; Zhang, J.; Barker, W. C. (2003). "The Protein Information Resource". Nucleic Acids Research. 31 (1): 345–347. doi:10.1093/nar/gkg040. PMC 165487. PMID 12520019.
- ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, M. C.; Estreicher, A.; Gasteiger, E.; Martin, M. J.; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003". Nucleic Acids Research. 31 (1): 365–370. doi:10.1093/nar/gkg095. PMC 165542. PMID 12520024.
- ^ Bairoch, A.; Apweiler, R. (1996). "The SWISS-PROT protein sequence data bank and its new supplement TREMBL". Nucleic Acids Research. 24 (1): 21–25. doi:10.1093/nar/24.1.21. PMC 145613. PMID 8594581.
- ^ Bairoch, A. (2000). "Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times!". Bioinformatics. 16 (1): 48–64. doi:10.1093/bioinformatics/16.1.48. PMID 10812477.
- ^ Séverine Altairac, "Naissance d’une banque de données: Interview du prof. Amos Bairoch Arhivirano 12. 7. 2010. na Wayback Machine". Protéines à la Une Arhivirano 21. 6. 2011. na Wayback Machine, August 2006. ISSN 1660-9824.
- ^ a b c Apweiler, R.; Bairoch, A.; Wu, C. H. (2004). "Protein sequence databases". Current Opinion in Chemical Biology. 8 (1): 76–80. doi:10.1016/j.cbpa.2003.12.004. PMID 15036160.
- ^ a b Uniprot, C. (2009). "The Universal Protein Resource (UniProt) in 2010". Nucleic Acids Research. 38 (Database issue): D142–D148. doi:10.1093/nar/gkp846. PMC 2808944. PMID 19843607.
- ^ "UniProtKB/Swiss-Prot Release 2018_03 statistics". web.expasy.org. Pristupljeno 14. 4. 2018.
- ^ EMBL-EBI. "Current Release Statistics < Uniprot < EMBL-EBI". www.ebi.ac.uk. Arhivirano s originala, 25. 4. 2019. Pristupljeno 14. 4. 2018.
- ^ a b c "How do we manually annotate a UniProtKB entry?". www.uniprot.org. Pristupljeno 14. 4. 2018.
- ^ a b Apweiler, R.; Bairoch, A.; Wu, C. H.; Barker, W. C.; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; Lopez, R.; Magrane, M.; Martin, M. J.; Natale, D. A.; o’Donovan, C.; Redaschi, N.; Yeh, L. S. (2004). "UniProt: The Universal Protein knowledgebase". Nucleic Acids Research. 32 (90001): 115D–1119. doi:10.1093/nar/gkh131. PMC 308865. PMID 14681372.
- ^ "Where do the UniProtKB protein sequences come from?". www.uniprot.org. Pristupljeno 14. 4. 2018.
- ^ Leinonen, R.; Diez, F. G.; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "UniProt archive". Bioinformatics. 20 (17): 3236–3237. doi:10.1093/bioinformatics/bth191. PMID 15044231.
- ^ http://www.prf.or.jp/index-e.html
- ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome[mrtav link]
- ^ a b Suzek, B. E.; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, C. H. (2007). "UniRef: Comprehensive and non-redundant UniProt reference clusters". Bioinformatics. 23 (10): 1282–1288. doi:10.1093/bioinformatics/btm098. PMID 17379688.
- ^ Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Clustering of highly homologous sequences to reduce the size of large protein databases". Bioinformatics. 17 (3): 282–283. doi:10.1093/bioinformatics/17.3.282. PMID 11294794.