Porodica proteina
Porodica proteina je evolucijski srodna grupa proteina. U mnogim slučajevima porodica proteina ima odgovarajuću porodicu gena, u kojoj svaki gen kodira odgovarajući protein u odnosu 1:1. Termin porodica proteina ne treba brkati sa porodica kako se koristi u taksonomiji.
Proteini u porodici potiču od zajedničkog pretka i obično imaju slične trodimenzijske strukture, funkcije i značajne sličnosti sekvenci. Najvažnija od njih je sličnost (obično aminokiselinskih) sekvenci, jer je najstriktniji pokazatelj homologije, a samim tim i najjasniji pokazatelj zajedničkog pretka. Postoji prilično dobro razvijen okvir za procjenu značaja sličnosti između grupe sekvenci, pomoću metoda zvanog poravnavanje sekvenci. Vrlo je malo vjerovatno da će proteini koji nemaju zajedničkog pretka pokazati statistički značajnu sličnost sekvenci, što poravnavanje sekvenci čini moćnim alatom za identificiranje članova proteinskih porodica.
Porodice se ponekad grupiraju u veće kladuse zvane superporodice, na osnovu strukturne i mehaničke sličnosti, čak i ako ne postoji identifikacija homologa sekvence.
Do sada je definirano preko 60.000 porodica proteina,[1] iako dvosmislenost u definiciji „porodice proteina“ dovodi do njihovogh podjednako različitog broja.
Terminologija i upotreba
urediKao i kod mnogih bioloških termina, upotreba „porodice proteina“ donekle ovisi o kontekstu; može ukazivati na velike grupe proteina s najnižim mogućim nivoom sličnosti sekvence koja se može uočiti ili na vrlo uske skupine proteina s gotovo identičnom sekvencom, funkcijom i trodimenzijskom strukturom, ili bilo koji međutip. Da bi se napravila razlika između ovih situacija, pojam proteinska superporodica često se koristi za proteine koji se odnose na srodničku daljinu čija srodnost nije uočljiva sličnošću sekvenci, već samo iz zajedničkih strukturnih karakteristika.[2][3][4] Ostali termini poput „klasa“, „grupa“, „klan“ i „potporodica“ proteina nastali su tokom godina, ali svi trpe slične nejasnoće u upotrebi. Uobičajena upotreba je da superporodice (strukturna homologija) sadrže porodice (homologija sekvence) koje sadrže potporodice. Otuda superporodica, poput PA-klana proteaza, ima daleko nižu kozerviranost sekvence od jedine porodice koju sadrži, porodice C04. Malo je vjerovatno da će biti dogovorena tačna definicija, a na čitatelju je da tačno utvrdi kako se ti termini koriste u određenom kontekstu.
Evolucija proteinskih porodica
urediPrema postojećem konsenzusu, porodice proteina nastaju na dva načina. Prvo, razdvajanje roditeljske vrste na dvije genetički izolirane potomstvene vrste omogućava genu/proteinu da nezavisno akumulira varijacije (mutacije) u ove dvije loze. To rezultira porodicom ortologa datih proteina, obično sa konzerviranim motivima sekvence. Drugo, dupliranje gena može stvoriti drugu kopiju gena (zvanu paralog). Budući da izvorni gen još uvijek može obavljati svoju funkciju, duplirani gen može se slobodno razilaziti i može steći nove funkcije (slučajnom mutacijom). Određene porodice gena/proteina, posebno kod eukariota, sudjeluju u ekstremnim ekspanzijama i kontrakcijama tokom evolucije, ponekad u skladu s duplikacijom genoma]]. Ovo širenje i sužavanje porodica proteina jedna je od istaknutih karakteristika evolucije cijeliig genoma, ali njegov značaj i posljedice tada nisu jasni.
Resursi za porodice proteina
urediPostoji mnogo bioloških baza podataka koje bilježe primjere porodica proteina i omogućavaju korisnicima da utvrde pripadaju li novoidentificirani proteini poznatoj porodici. Evo nekoliko primjera:
- Pfam – Baza proteinskih porodica poravnavanja i HMM-ova
- PROSITE – Baza proteinskih domena, porodica i funkcionalnih lokacija
- PIRSF – Sistem klasifikacije SuperFamily
- PASS2 - Poravnavanje proteina kao strukturne superporodice v2-PASS2@NCBS [5]
- SUPERPORODICA – Biblioteka HMM-ova koja predstavljaju superporodice i bazu podataka (superporodica i porodica), napomena za sve potpuno sekvencirane organizme
- SCOP i CATH – klasifikacija proteinskih struktura u superporodica, porodica i domena
Slično postoje mnogi algoritmi za pretraživanje baze podataka, naprimjer:
- BLAST – pretraživač sličnosti DNK sekvence
- BLASTp – Pretraživač sličnosti sekvence proteina
- OrthoFinder: Arhivirano 2. 3. 2021. na Wayback Machine brz, skalabilan i tačan metod za grupiranje proteina u porodice (ortogrupe)[6][7]
Također pogledajte
urediReference
uredi- ^ Kunin V, Cases I, Enright AJ, de Lorenzo V, Ouzounis CA (2003). "Myriads of protein families, and still counting". Genome Biology. 4 (2): 401. doi:10.1186/gb-2003-4-2-401. PMC 151299. PMID 12620116.
- ^ Dayhoff MO (decembar 1974). "Computer analysis of protein sequences". Federation Proceedings. 33 (12): 2314–6. PMID 4435228.
- ^ Dayhoff MO, McLaughlin PJ, Barker WC, Hunt LT (1975). "Evolution of sequences within protein superfamilies". Die Naturwissenschaften. 62 (4): 154–161. Bibcode:1975NW.....62..154D. doi:10.1007/BF00608697. S2CID 40304076.
- ^ Dayhoff MO (august 1976). "The origin and evolution of protein superfamilies". Federation Proceedings. 35 (10): 2132–8. PMID 181273.
- ^ Gandhimathi A, Nair AG, Sowdhamini R (januar 2012). "PASS2 version 4: an update to the database of structure-based sequence alignments of structural domain superfamilies". Nucleic Acids Research. 40 (Database issue): D531–4. doi:10.1093/nar/gkr1096. PMC 3245109. PMID 22123743.
- ^ Emms DM, Kelly S (august 2015). "OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy". Genome Biology. 16: 157. doi:10.1186/s13059-015-0721-2. PMC 4531804. PMID 26243257.
- ^ Emms DM, Kelly S (novembar 2019). "OrthoFinder: phylogenetic orthology inference for comparative genomics". Genome Biology. 20 (1): 238. doi:10.1186/s13059-019-1832-y. PMC 6857279. PMID 31727128.