Konzervirana sekvenca

Konzervirane sekvence su slične ili identične sekvence DNK koje se javljaju u molekulama DNK, a uzrokuju odgovarajućesekvence u RNK, proteinima i ugljikohidratima .

Ove sekvence javljaju se kod različitih vrsta, što dokazuje da su se sekvence održavale u evoluciji unatoč njihovoj specijaciji. Što se u više sigurnosnih kopija filogenetskog stabla javlja određena konzervirana sekvenca, to je ona više konzervirana. Pošto se informacije o sekvenci normalno prenose sa roditelja na potomstvo pomoću gena, konzervirana sekvenca implicira da postoji konzervirani gen.

Konzervirane sekvence događaju se kada mutacije u visoko konzerviranoj regiji dovedu do neodrživih oblika života, to jest oblika koji se eliminira putem prirodnog odabiranja. Drugim riječima, takav proizvod gena je vitalan za život, a njegovu funkciju uništavaju gotovo sve promjene (mutacije) u sekvenci.

Konzervirane sekvence nukleinske kiseline

Osnovna teorija, široko prihvaćena, je da visoko konzervirane sekvence DNK moraju imati funkcionalnu vrijednost, iako uloga mnogih od ovih visoko konzerviranih nekodirajućih sekvenci DNK nije poznata. Jedna nedavna studija koja je eliminirala četiri visoko konzervirane nekodirajuće DNK sekvence kod miševa dala je održive miševe bez značajnih fenotipskih razlika; autori su svoje nalaze opisali kao "neočekivane".^[1] Dakle, jasno je da ovdje postoji nešto što se ne razumije.

Mnoga područja DNK, uključujući visoko konzervirane sekvence DNK, sastoje se od ponavljajućih elemenata sekvence. Ako bi se uklonio samo jedan od niza ponovljenih sekvenci, a ponavljanja nisu bila potrebna, tada se neće vidjeti razlika kod miševa. U radu nije objavljeno da li su eliminirane sekvence ponovljene sekvence.

Konzervirane proteinske sekvence i strukture

Visoko konzervirani proteini često su potrebni za rad ili dijeljenje ćelija. Konzerviranje proteinskih sekvenci pokazuje prisutnost identičnih aminokiselinskih ostataka na analognim dijelovima proteina. Na konzerviranost proteinskih struktura ukazuje prisutnost funkcionalno ekvivalentnih, iako ne nužno identičnih, aminokiselinskih ostataka i struktura između analognih dijelova proteina.

Dolje je prikazano poravnavanje aminokiselina između proteina dva ljudska cinkova prsta. Konzervirane sekvence aminokiselina označene su sekvencama $\ mathrm{*}$ u trećem retku poravnavanja sekvence. Kao što se može vidjeti iz ovog poravnavanja, ova dva proteina sadrže brojne konzervirane sekvence aminokiselina (predstavljene identičnim slovima poravnatim između dvije sekvence).

Identifikacija

Konzervirane sekvence se tipski identifikuju bioinformatičkim pristupima zasnovanim na poravnavanju sekvenci. Napredak visokopropusnog sekvenciranja DNK i masene spektrometrije proteina značajno je povećalo dostupnost proteinskih sekvenci i cijelih genoma za poređenje od ranih 2000-ih.^[2]^[3]

Traženje homologije

Konzervirane sekvence mogu se identificirati pretraživanjem homologije, korištenjem alata kao što su BLAST, HMMER. OrthologR,^[4] and Infernal.^[5] Alati za pretraživanje homologije mogu uzeti pojedinačnu sekvencu nukleinske kiseline ili proteina kao ulaz ili koristiti statističke modele generirane iz poravnavanja višestrukih sekvenci poznatih srodnih sekvenci. Statistički modeli kao što su profil-HMM i modeli kovarijanse RNK koji također uključuju strukturne informacije,^[6] može biti od pomoći kada se traže sekvence koje su udaljenije. Ulazne sekvence se zatim usklađuju s bazom podataka sekvenci srodnih osoba ili drugih vrsta. Rezultirajuća poravnavanja se zatim boduju, na osnovu broja odgovarajućih aminokiselina ili baza i broja praznina ili delecija koje je generiralo poravnavanje. Prihvatljive konzervativne supstitucije mogu se identifikovati korištenjem matrica supstitucije kao što su PAM i BLOSUM. Pretpostavlja se da su poravnanja sa visokim rezultatom iz homolognih sekvenci. O konzerviranosti sekvence se tada može zaključiti detekcijom vrlo sličnih homologa u širokom filogenetičkom rasponu.^[7]

Poravnavanje višestrukih sekvenci

Logo sekvence za LexA-vezujući motiv gram-pozitivnih bakterija. Kako je adenozin na poziciji 5 visoko očuvan, čini se da je veći od ostalih znakova.^[8]

Višestruka poravnvanja sekvenci mogu se koristiti za vizualizaciju konzerviranih sekvenci. Format CLUSTAL uključuje ključ običnog teksta za označavanje konzerviranih stubaca poravnanja, označavajući konzerviranu sekvencu (*), konzervativne mutacije (:), polukonzervirne mutacije (.) i nekonzerane mutacije ( ).^[9] Logotipi sekvence također mogu prikazati konzerviranu sekvencu, predstavljanjem proporcija znakova u svakoj tački poravnanja po visini.^[8]

Genomsko poravnavanje

Slika iz ECR pretraživača^[10] prikazuje rezultat poravnavanja različitih genoma kičmenjaka sa ljudskim genomom na konzerviranom genu OTX2.
Vrh: Oznake egzona i introna gena OTX2. Za svaki genom je prikazana sličnost sekvence (%) u poređenju sa ljudskim genomom.
Tragovi pokazuju zebricu, psa, kokoš, zapadnu kandžastu žabu, oposuma, miša, rezus-makaka i šimpanzu genomi. Pikovi pokazuju regije visoke sličnosti sekvenci u svim genomima, pokazujući da je ova sekvenca visoko konzervirana.

Za identifikaciju visoko konzerviranih regija može se koristiti i poravnavanje cijelog genoma (WGA) među vrstama. Dsadašnja tačnost i skalabilnost WGA alata i dalje je ograničena zbog računarske složenosti bavljenja preuređivanjem, ponavljajućim regijama i velike veličine mnogih eukariotskih genoma.^[11] Međutim, WGA od 30 ili više blisko povezanih bakterija (prokariota) sada su sve izvodljivije.^[12]^[13]

Sistemi bodovanja

Drugi pristupi koriste mjerenja konzerviranosti zasnovana na statističkim testovima koji pokušavaju identificirati sekvence koje mutiraju drugačije u odnosu na očekivanu pozadinsku (neutralnu) stopu mutacije.

GERP (Genomic Evolutionary Rate Profiling = genomska evolucijska stopa profiliranja) okvir ocjenjuje konzerviranosti genetičkih sekvenci među vrstama. Ovaj pristup procjenjuje stopu neutralnih mutacija u skupu vrsta iz višestrukog poravnavanja sekvenci, a zatim identificira regije sekvence koje pokazuju manje mutacija nego što se očekivalo. Ovim regijama se zatim dodjeljuju bodovi, na osnovu razlike između uočene stope mutacije i očekivane stope pozadinske mutacije. Visok GERP-rezultat tada ukazuje na visoko konzerviranu sekvencu.^[14]^[15]

LIST^[16] ^[17] (Local Identity and Shared Taxa = lokalni identitet i zajednički za taksone) zasniva se na pretpostavci da su varijacije uočene u vrstama koje su blisko povezane s ljudima više značajno pri procjeni konzerviranosti u poređenju sa onima kod udaljenih vrsta. Prema tome, LIST koristi identitet lokalnog poravnanja oko svake pozicije da identifikuje relevantne sekvence u višestrukom poravnanju sekvenci (MSA), a zatim procjenjuje konzerviranost na osnovu taksonomskih udaljenosti ovih sekvenci do čovjeka. Za razliku od drugih alata, LIST zanemaruje broj/učestalost varijacija u MSA.

Aminoda^[18] kombinira višestruka poravnavanja sa filogenetskom analizom da sagleda promjene u homolognim proteinima i proizvede dijagram koji ukazuje na lokalne stope evolucijskih promjena. Ovaj pristup identificira evolucijski ograničene regije u proteinu, a to su segmenti koji su podložni pročišćavajućoj selekciji i tipski su kritični za normalnu funkciju proteina.

Drugi pristupi kao što su PhyloP i PhyloHMM uključuju statističkofilogenetičke metode za upoređivanje distribucije vjerovatnoće stopa supstitucije, što omogućava otkrivanje i konzerviranja i ubrzane mutacije. Prvo, generira se pozadinska distribucija vjerovatnoće broja zamjena za koje se očekuje da će se dogoditi za kolonu u višestrukom poravnavanju sekvenci, na osnovu filogenetskog stabla. Procijenjeni evolucijski odnosi između vrsta od interesa koriste se za izračunavanje važnosti bilo koje supstitucije (tj. zamjena između dvije blisko srodne vrste može biti manja od onih koje su udaljene, a samim tim i značajnija). Da bi se otkrila konzervacija, distribucija vjerovatnoće, izračunava se za podskup višestrukog poravnavanja sekvenci i upoređuje se sa pozadinskom distribucijom pomoću statističkog testa kao što su test omjera vjerovatnoće ili test rezultata. P-vrijednosti generirane iz poređenja dvije distribucije se zatim koriste za identifikaciju konzerviranih regija. PhyloHMM koristi Markovljev model skrivenosti za generiranje distribucije vjerovatnoće. Softverski paket PhyloP upoređuje distribucije vjerovatnoće koristeći test omjera vjerovatnoće ili test rezultata, kao i korištenjem sistema bodovanja sličan GERP-u.^[19]^[20]^[21]

Uporedna genomika

Područje istraživanja koje proučava evoluciju i funkciju višegenskih porodica naziva se komparativna genomika.^[22]

Reference

^ Ahituv N. Zhu Y. & Visel A. et al 2007. Deletion of ultraconserved elements yields viable mice. PLoS Biol. 5 (9): e234. doi:10.1371/journal.pbio.0050234. PMC 1964772. PMID 17803355 //www.ncbi.nlm.nih.gov/pmc/articles/PMC1964772. Parametar |title= nedostaje ili je prazan (pomoć)
^ Margulies, E. H. (2003-12-01). "Identification and Characterization of Multi-Species Conserved Sequences". Genome Research (jezik: engleski). 13 (12): 2507–2518. doi:10.1101/gr.1602203. ISSN 1088-9051. PMC 403793. PMID 14656959.
^ Edwards, John R.; Ruparel, Hameer; Ju, Jingyue (2005). "Mass-spectrometry DNA sequencing". Mutation Research/Fundamental and Molecular Mechanisms of Mutagenesis (jezik: engleski). 573 (1–2): 3–12. doi:10.1016/j.mrfmmm.2004.07.021. PMID 15829234.
^ Drost, Hajk-Georg; Gabel, Alexander; Grosse, Ivo; Quint, Marcel (2015-05-01). "Evidence for Active Maintenance of Phylotranscriptomic Hourglass Patterns in Animal and Plant Embryogenesis". Molecular Biology and Evolution (jezik: engleski). 32 (5): 1221–1231. doi:10.1093/molbev/msv012. ISSN 0737-4038. PMC 4408408. PMID 25631928.
^ Nawrocki, E. P.; Eddy, S. R. (4 September 2013). "Infernal 1.1: 100-fold faster RNA homology searches". Bioinformatics. 29 (22): 2933–2935. doi:10.1093/bioinformatics/btt509. PMC 3810854. PMID 24008419.
^ Eddy, SR; Durbin, R (11 June 1994). "RNA sequence analysis using covariance models". Nucleic Acids Research. 22 (11): 2079–88. doi:10.1093/nar/22.11.2079. PMC 308124. PMID 8029015.
^ Trivedi, Rakesh; Nagarajaram, Hampapathalu Adimurthy (2020). "Substitution scoring matrices for proteins ‐ An overview". Protein Science (jezik: engleski). 29 (11): 2150–2163. doi:10.1002/pro.3954. ISSN 0961-8368. PMC 7586916. PMID 32954566.
^ ^a ^b "Weblogo". UC Berkeley. Pristupljeno 30 December 2017.
^ "Clustal FAQ #Symbols". Clustal. Arhivirano s originala, 24 October 2016. Pristupljeno 8 December 2014.
^ "ECR Browser". ECR Browser. Pristupljeno 9 January 2018.
^ Earl, Dent; Nguyen, Ngan; Hickey, Glenn; Harris, Robert S.; Fitzgerald, Stephen; Beal, Kathryn; Seledtsov, Igor; Molodtsov, Vladimir; Raney, Brian J.; Clawson, Hiram; Kim, Jaebum; Kemena, Carsten; Chang, Jia-Ming; Erb, Ionas; Poliakov, Alexander; Hou, Minmei; Herrero, Javier; Kent, William James; Solovyev, Victor; Darling, Aaron E.; Ma, Jian; Notredame, Cedric; Brudno, Michael; Dubchak, Inna; Haussler, David; Paten, Benedict (December 2014). "Alignathon: a competitive assessment of whole-genome alignment methods". Genome Research. 24 (12): 2077–2089. doi:10.1101/gr.174920.114. PMC 4248324. PMID 25273068.
^ Rouli, L.; Merhej, V.; Fournier, P.-E.; Raoult, D. (September 2015). "The bacterial pangenome as a new tool for analysing pathogenic bacteria". New Microbes and New Infections. 7: 72–85. doi:10.1016/j.nmni.2015.06.005. PMC 4552756. PMID 26442149.
^ Méric, Guillaume; Yahara, Koji; Mageiros, Leonardos; Pascoe, Ben; Maiden, Martin C. J.; Jolley, Keith A.; Sheppard, Samuel K.; Bereswill, Stefan (27 March 2014). "A Reference Pan-Genome Approach to Comparative Bacterial Genomics: Identification of Novel Epidemiological Markers in Pathogenic Campylobacter". PLOS ONE. 9 (3): e92798. Bibcode:2014PLoSO...992798M. doi:10.1371/journal.pone.0092798. PMC 3968026. PMID 24676150.
^ Cooper, G. M. (17 June 2005). "Distribution and intensity of constraint in mammalian genomic sequence". Genome Research. 15 (7): 901–913. doi:10.1101/gr.3577405. PMC 1172034. PMID 15965027.
^ "Sidow Lab - GERP". Arhivirano s originala, 14. 1. 2017. Pristupljeno 24. 12. 2021.
^ Nawar Malhis; Steven J. M. Jones; Jörg Gsponer (2019). "Improved measures for evolutionary conservation that exploit taxonomy distances". Nature Communications. 10 (1): 1556. Bibcode:2019NatCo..10.1556M. doi:10.1038/s41467-019-09583-2. PMC 6450959. PMID 30952844.
^ Nawar Malhis; Matthew Jacobson; Steven J. M. Jones; Jörg Gsponer (2020). "LIST-S2: Taxonomy Based Sorting of Deleterious Missense Mutations Across Species". Nucleic Acids Research. 48 (W1): W154–W161. doi:10.1093/nar/gkaa288. PMC 7319545. PMID 32352516.
^ Chang KT, Guo J, di Ronza A, Sardiello M (January 2018). "Aminode: Identification of Evolutionary Constraints in the Human Proteome". Sci. Rep. 8 (1): 1357. Bibcode:2018NatSR...8.1357C. doi:10.1038/s41598-018-19744-w. PMC 5778061. PMID 29358731.
^ Pollard, K. S.; Hubisz, M. J.; Rosenbloom, K. R.; Siepel, A. (26 October 2009). "Detection of nonneutral substitution rates on mammalian phylogenies". Genome Research. 20 (1): 110–121. doi:10.1101/gr.097857.109. PMC 2798823. PMID 19858363.
^ "PHAST: Home".
^ Fan, Xiaodan; Zhu, Jun; Schadt, Eric E; Liu, Jun S (2007). "Statistical power of phylo-HMM for evolutionarily conserved element detection". BMC Bioinformatics. 8 (1): 374. doi:10.1186/1471-2105-8-374. PMC 2194792. PMID 17919331.
^ Klug, William S. et al 2010. Concepts of genetics. 10th ed, Pearson, p600. ISBN 0-321-79578-4

[pmid17803355-1] Ahituv N. Zhu Y. & Visel A. et al 2007. Deletion of ultraconserved elements yields viable mice. PLoS Biol. 5 (9): e234. doi:10.1371/journal.pbio.0050234. PMC 1964772. PMID 17803355 //www.ncbi.nlm.nih.gov/pmc/articles/PMC1964772. Parametar |title= nedostaje ili je prazan (pomoć)

[2] Margulies, E. H. (2003-12-01). "Identification and Characterization of Multi-Species Conserved Sequences". Genome Research (jezik: engleski). 13 (12): 2507–2518. doi:10.1101/gr.1602203. ISSN 1088-9051. PMC 403793. PMID 14656959.

[3] Edwards, John R.; Ruparel, Hameer; Ju, Jingyue (2005). "Mass-spectrometry DNA sequencing". Mutation Research/Fundamental and Molecular Mechanisms of Mutagenesis (jezik: engleski). 573 (1–2): 3–12. doi:10.1016/j.mrfmmm.2004.07.021. PMID 15829234.

[:9-4] Drost, Hajk-Georg; Gabel, Alexander; Grosse, Ivo; Quint, Marcel (2015-05-01). "Evidence for Active Maintenance of Phylotranscriptomic Hourglass Patterns in Animal and Plant Embryogenesis". Molecular Biology and Evolution (jezik: engleski). 32 (5): 1221–1231. doi:10.1093/molbev/msv012. ISSN 0737-4038. PMC 4408408. PMID 25631928.

[5] Nawrocki, E. P.; Eddy, S. R. (4 September 2013). "Infernal 1.1: 100-fold faster RNA homology searches". Bioinformatics. 29 (22): 2933–2935. doi:10.1093/bioinformatics/btt509. PMC 3810854. PMID 24008419.

[6] Eddy, SR; Durbin, R (11 June 1994). "RNA sequence analysis using covariance models". Nucleic Acids Research. 22 (11): 2079–88. doi:10.1093/nar/22.11.2079. PMC 308124. PMID 8029015.

[7] Trivedi, Rakesh; Nagarajaram, Hampapathalu Adimurthy (2020). "Substitution scoring matrices for proteins ‐ An overview". Protein Science (jezik: engleski). 29 (11): 2150–2163. doi:10.1002/pro.3954. ISSN 0961-8368. PMC 7586916. PMID 32954566.

[Weblogo-8] "Weblogo". UC Berkeley. Pristupljeno 30 December 2017.

[9] "Clustal FAQ #Symbols". Clustal. Arhivirano s originala, 24 October 2016. Pristupljeno 8 December 2014.

[10] "ECR Browser". ECR Browser. Pristupljeno 9 January 2018.

[11] Earl, Dent; Nguyen, Ngan; Hickey, Glenn; Harris, Robert S.; Fitzgerald, Stephen; Beal, Kathryn; Seledtsov, Igor; Molodtsov, Vladimir; Raney, Brian J.; Clawson, Hiram; Kim, Jaebum; Kemena, Carsten; Chang, Jia-Ming; Erb, Ionas; Poliakov, Alexander; Hou, Minmei; Herrero, Javier; Kent, William James; Solovyev, Victor; Darling, Aaron E.; Ma, Jian; Notredame, Cedric; Brudno, Michael; Dubchak, Inna; Haussler, David; Paten, Benedict (December 2014). "Alignathon: a competitive assessment of whole-genome alignment methods". Genome Research. 24 (12): 2077–2089. doi:10.1101/gr.174920.114. PMC 4248324. PMID 25273068.

[12] Rouli, L.; Merhej, V.; Fournier, P.-E.; Raoult, D. (September 2015). "The bacterial pangenome as a new tool for analysing pathogenic bacteria". New Microbes and New Infections. 7: 72–85. doi:10.1016/j.nmni.2015.06.005. PMC 4552756. PMID 26442149.

[13] Méric, Guillaume; Yahara, Koji; Mageiros, Leonardos; Pascoe, Ben; Maiden, Martin C. J.; Jolley, Keith A.; Sheppard, Samuel K.; Bereswill, Stefan (27 March 2014). "A Reference Pan-Genome Approach to Comparative Bacterial Genomics: Identification of Novel Epidemiological Markers in Pathogenic Campylobacter". PLOS ONE. 9 (3): e92798. Bibcode:2014PLoSO...992798M. doi:10.1371/journal.pone.0092798. PMC 3968026. PMID 24676150.

[14] Cooper, G. M. (17 June 2005). "Distribution and intensity of constraint in mammalian genomic sequence". Genome Research. 15 (7): 901–913. doi:10.1101/gr.3577405. PMC 1172034. PMID 15965027.

[15] "Sidow Lab - GERP". Arhivirano s originala, 14. 1. 2017. Pristupljeno 24. 12. 2021.

[16] Nawar Malhis; Steven J. M. Jones; Jörg Gsponer (2019). "Improved measures for evolutionary conservation that exploit taxonomy distances". Nature Communications. 10 (1): 1556. Bibcode:2019NatCo..10.1556M. doi:10.1038/s41467-019-09583-2. PMC 6450959. PMID 30952844.

[17] Nawar Malhis; Matthew Jacobson; Steven J. M. Jones; Jörg Gsponer (2020). "LIST-S2: Taxonomy Based Sorting of Deleterious Missense Mutations Across Species". Nucleic Acids Research. 48 (W1): W154–W161. doi:10.1093/nar/gkaa288. PMC 7319545. PMID 32352516.

[Chang2018-18] Chang KT, Guo J, di Ronza A, Sardiello M (January 2018). "Aminode: Identification of Evolutionary Constraints in the Human Proteome". Sci. Rep. 8 (1): 1357. Bibcode:2018NatSR...8.1357C. doi:10.1038/s41598-018-19744-w. PMC 5778061. PMID 29358731.

[19] Pollard, K. S.; Hubisz, M. J.; Rosenbloom, K. R.; Siepel, A. (26 October 2009). "Detection of nonneutral substitution rates on mammalian phylogenies". Genome Research. 20 (1): 110–121. doi:10.1101/gr.097857.109. PMC 2798823. PMID 19858363.

[20] "PHAST: Home".

[21] Fan, Xiaodan; Zhu, Jun; Schadt, Eric E; Liu, Jun S (2007). "Statistical power of phylo-HMM for evolutionarily conserved element detection". BMC Bioinformatics. 8 (1): 374. doi:10.1186/1471-2105-8-374. PMC 2194792. PMID 17919331.

[22] Klug, William S. et al 2010. Concepts of genetics. 10th ed, Pearson, p600. ISBN 0-321-79578-4

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]