Sekvenca nukleinskih kiselina

Sekvenca nukleinske kiseline je niz baza označenih slijdedom od pet različitih slova koja označavaju redoslijed nukleotida koji formiraju alele unutar molekula DNK (koristeći GACT) ili RNK (GACU). Po konvenciji, sekvence su obično predstavljene od 5' kraja do 3' kraja. Za DNK se koristi smisleni lanac. Budući da su nukleinske kiseline normalno linearni (nerazgranati) polimeri, specificiranje sekvence je ekvivalentno definiranju kovalentne strukture cijele molekule. Iz tog razloga, sekvenca nukleinske kiseline se takođe naziva primarna struktura.

Sekvenca ima kapacitet da predstavlja informacije. Biološka dezoksiribonukleinska kiselina predstavlja informaciju koja usmjerava funkcije i strukture živog bića.

Nukleinske kiseline takođe imaju sekundarnu i tercijarnu strukturu. Primarna struktura se ponekad pogrešno naziva "primarna sekvenca". Suprotno tome, ne postoji paralelni koncept sekundarne ili tercijarne sekvence.

Nukleotidi uredi

 
Hemijska struktura ribonukleinske kiseline
 
Serija kodona u dijelu molekule iRNK. Svaki kodon se sastoji od tri nukleotida, koji obično predstavljaju jednu aminokiselinu.

Nukleinske kiseline sastoje se od lanca povezanih jedinica koje se nazivaju nukleotidi. Svaki nukleotid se sastoji od po tri podjedinice: fosfatne grupe i šećera (riboza u slučaju RNK, dezoksiriboza u DNK) čine uzdužnu okosnicu lanca nukleinske kiseline, a vezana za šećer je jedna iz skupa nukleobaza. Za nukeobaze važno je komplementarno uparivanje u baznom paru lanaca, kako bi se formirala sekundarna i tercijarna struktura kao što je čuveni dvostruki heliks.

Moguća slova su A, C, G i T, koja predstavljaju četiri nukleotidne baze DNK lanca – adenin, citozin, guanin, timinkovalentno usko povezani su fosfodiesterskom kičmom. U tipskom slučaju, sekvence se štampaju naslanjajući se jedna na drugu bez praznina, kao u sekvenci AAAGTCTGAC, koja se čita s lijeva na desno u pravcu 5' do 3'. Što se tiče transkripcije, sekvenca je na kodirajućoj niti ako ima isti red oslijed kao i transkribirana RNK.

Jedna sekvenca može biti komplementarna drugoj sekvenci, što znači da imaju bazu na svakoj poziciji u komplementarnom (tj. A–T, C–G ) i u obrnutom redoslijedu. Naprimjer, komplementarna sekvenca TTAC-u je GTAA. Ako se jedan lanac dvolančane DNK smatra smislenim lancem, onda će drugi lanac, koji se smatra antisens lancem, imati komplementarnu sekvencu smislenom lancu.

Označanavanje uredi

Poređenje i određivanje % razlike između dvije nukleotidne sekvence.

  • AATCCGCTAG
  • AAA'CC'CT'TAG
  • Ako sed dvije sekvence od po 10 nukleotida, poravnaju i uporede razlike između njih, moguće je zračunati postotak sličnosti uzimajući broj različitih DNK baza podijeljen s ukupnim brojem nukleotida. U gornjem slučaju, postoje tri razlike u sekvenci od 10 nukleotida. Stoga, se podijeli 7/10 i dobije 70% sličnosti i oduzme se to od 100% da dobijete 30% razlike.

Dok A, T, C i G predstavljaju određeni nukleotid na datoj poziciji, postoje i slova koja predstavljaju dvosmislenost,a koja se koriste kada se na toj poziciji može pojaviti više od jednog tipa nukleotida. Pravila Međunarodne unije za čistu i primijenjenu hemiju (IUPAC) su sljedeća:[1]

Simbol[2] Opis Predstavljene baze Komplement
A Adenin A 1 T
C Citozin C G
G Guanin G C
T Timin T A
U Uracil U A
W Weak=slabo A T 2 W
S Strong=jako C G S
M aMino A C K
K Keto G T M
R puRin A G Y
Y pYrimidin C T R
B ne A (B dolazi nakon A) C G T 3 V
D ne C (D dolazi nakon C) A G T H
H ne G (H dolazi nakon G) A C T D
V ne T (V dolazi nakon T i U) A C G B
N bilo koji Nukleotid (ne gep) A C G T 4 N
Z Zero=nula 0 Z

Ovi simboli važe i za RNK, osim što U (uracil) zamjenjuje T (timin).[1]

Osim adenina (A), citozina (C), gvanina (G), timina (T) i uracila (U), DNK i RNK također sadrže baze koje su modificirane nakon formiranja lanca nukleinske kiseline. U DNK, najčešća modifikovana baza je 5-metilcitidin (m5C). U RNK postoji mnogo modifikovanih baza, uključujući pseudouridin (Ψ), dihidrouridin (D), inozin (I), ribotimidin (rT) i 7-metilgvanozin (m7G).[3][4] Hipoksantin i ksantin su dvije od mnogih baza stvorenih prisustvom mutagena, obje deaminacijom (zamjena aminske karbonilnom grupom). Hipoksantin se proizvodi iz adenina, a ksantin iz guanina.[5] Slično, deaminacija citozina rezultira uracilom.

Biološki značaj uredi

 
Prikaz genetičkog koda, pomoću kojeg se informacije sadržane u nukleinskim kiselinam prevode u aminokiselinske sekvence u proteinima.

U biološkim sistemima, nukleinske kiseline sadrže informacije koje žive ćelije koriste za konstruisanje specifičnih proteina. Sekvenca nukleobaza na lancu nukleinske kiseline je prevedena putem ćelijske mašinerije u sekvencu aminokiselina koja čini proteinski lanac. Svaka grupa od tri baze, zvana kodon, odgovara jednoj aminokiselini, a postoji i specifičan genetički kod po kojem svaka moguća kombinacija tri baze odgovara određenoj aminokiselini.

Centralna dogma molekulske biologije opisuje mehanizam kojim se sastavljaju proteini koristeći informacije sadržane u nukleinskim kiselinama. DNK se transkribira u molekule iRNK, kojw putuju do ribosoma gdje se iRNK koristi kao šablon za izgradnju proteinskog lanca. Budući da se nukleinske kiseline mogu vezati za molekule sa komplementarnim sekvencama, postoji razlika između "smislenih" sekvenci koje kodiraju proteine, i komplementarne "antismislene" sekvenca koja je sama po sebi nefunkcionalna, ali se može vezati za smislenu.

Određivanje sekvence uredi

 
Elektroferogramski ispis iz automatskog sekvencera za određivanje dijela DNK sekvence

Sekvenciranje DNK je proces određivanja fredolslijeda nukleotida sekvence datog DNK fragmenta. Sekvenca DNK živog bića kodira potrebne informacije da to živo biće preživi i reprodukuje. Stoga je određivanje redoslijeda korisno u fundamentalnim istraživanjima zašto i kako organizmi žive, kao i u primijenjenim subjektomaa. Zbog važnosti DNK za živa bića, poznavanje sekvence DNK može biti korisno u praktično u svakom biološkom istraživanju. Naprimjer, u medicini se može koristiti za identifikaciju, dijagnostiku i potencijalno razvijanje tretmana za genetičke bolesti. Slično tome, istraživanje patogena može dovesti do liječenja zaraznih bolesti. Biotehnologija je disciplina u razvoju, sa potencijalom za mnoge korisne proizvode i usluge. RNK se ne sekvencira direktno. Umjesto toga, kopira se u DNK pomoću reverzne transkriptaze, a ta DNK se zatim sekvencira.

Sadašnj metodi sekvenciranja oslanjaju se na diskriminatornu sposobnost DNK polimeraza i stoga mogu razlikovati samo četiri baze. Inozin (nastao od adenozina tokom prerada RNK) čita se kao G, a 5-metil-citozin (nastao iz citozina DNK metilacijom) čita se kao C. Dosadašnjom tehnologijom, teško je je sekvencirati male količine DNK, jer je signal preslab za mjerenje. Ovo se prevazilazi amplifikacijom lančanom reakcijom polimeraze (PCR).

Digitalno predstavljanje uredi

 
Digitalni format genetičke sekvence.

Kada se sekvenca nukleinske kiseline dobije iz organizma, ona se pohranjuje in silico u digitalnom formatu. Digitalne genetićke sekvence mogu biti pohranjene u bazu podataka o sekvencama, analizirane (pogledajte Analiza sekvenci u nastavku), digitalno izmijenjene i korištene kao šabloni za kreiranje nove stvarne DNK, korištenjem vještačke sinteze gena.

Analiza sekvence uredi

Digitalne genske sekvence mogu se analizirati pomoću bioinformatičkih alata, kako bi se pokušala utvrditi njihova funkcija.

Genetičko testiranje uredi

DNK u genomu organizma može se analizirati kako bi se dijagnosticirala ranjivost na naslijeđene bolesti, a može se koristiti i za određivanje očinstva djeteta (genetički otac) ili predačke osobe. Normalno, svaka osoba nosi dvije varijacije svakog gena, jednu naslijeđenu od majke, drugu od oca. Vjeruje se da ljudski genom sadrži oko 20.000 – 25.000 gena. Pored proučavanja hromosoma do nivoa pojedinačnih gena, genetičko testiranje u širem smislu uključuje biohemijske testove za moguće prisustvo genetičkih bolesti ili mutantnih oblika gena povezanih sa povećan rizik od razvoja genetičkih poremećaja . Genetičko testiranje identifikuje promjene u hromosomima, genima ili proteinima.[6] Obično se testiranje koristi za pronalaženje promjena koje su povezane s nasljednim poremećajima. Rezultati genetičkog testa mogu potvrditi ili isključiti sumnjivo genetičko stanje ili pomoći u određivanju šansi osobe za razvoj ili prenošenje genetičkog poremećaja na potomstvo. Sada se koristi nekoliko stotina genetičkih testova, a razvija ih se još više.[7][8]

Poravnavanje sekvence uredi

U bioinformatici, poravnavanje sekvenci je način uređenja sekvenci DNK, RNK ili proteina da se identifikuju regije sličnosti koje mogu biti posljedica funkcionalne, strukturnih, ili evolucijskih odnosa između sekvenci.[9] Ako dvije sekvence u poravnanju dijele zajedničkog pretka, nepodudarnosti se mogu tumačiti kao tačkasta mutacija, a praznine kao insercijske ili delecijske mutacije (indeli) uvedene u jednu ili obje loze u vremenu od kada su se međusobno razišle. Kod poravnavanja sekvenci proteina, stepen sličnosti između aminokiselina koje zauzimaju određenu poziciju u sekvenci može se tumačiti kao gruba mjera o tome kako je konzerviranosti određenih regija ili motiva sekvence je među lozama. Odsustvo supstitucija, ili prisustvo samo vrlo konzervativnih supstitucija (to jest, supstitucija aminokiselina čiji bočni lanci imaju slična biohemijska svojstva) u određenom regionu sekvence, sugeriše[10] da takva regija ima strukturni ili funkcionalni značaj. Iako su nukleotidne baze DNK i RNK sličnije jedna drugoj nego što su aminokiseline, konzerviranje baznih parova može ukazivati na sličnu funkcionalnu ili strukturnu ulogu.[11]

Kompjuterska filogenetika uveliko koristi poravnvanja sekvenci u konstrukciji i interpretaciji filogenetskih stabala, koja se koriste za klasifikaciju evolucijskih odnosa između homolognih gena, predstavljenih u genomima divergentnih vrsta. Stepen do kojeg se sekvence u skupu upita razlikuju kvalitativno je povezan s međusobnom evolucijskom udaljenost. Grubo govoreći, visok identitet sekvence sugerira da dotične sekvence imaju relativno mladog najskorijeg drevnog zajedničkog pretka, dok nizak identitet sugeriše da je divergencija starija. Ova aproksimacija, koja odražava hipotezu "molekularni sat" da se otprilike konstantna stopa evolucijske promjene može koristiti za ekstrapolaciju vremena koje je proteklo otkako su se dva gena prvi put razišla (tj. vrijeme spajanja), pretpostavlja da su efekti mutacije i selekcija konstantni u svim linijama sekvence. Stoga, ne uzima u obzir moguću razliku između organizama ili vrsta u stopama popravke DNK ili mogućoj funkcionalnoj konzervaciji specifičnih regija sekvence. (U slučaju nukleotidnih sekvenci, hipoteza molekulnog sata u svom najosnovnijem obliku također odbacuje razliku u stopama prihvatanja između tihih mutacija koje ne mijenjaju značenje datog kodona i drugih mutacija koje rezultiraju ugradnjom različite aminokiseline u protein.) Statistički preciznije metode dozvoljavaju da se stopa evolucije na svakoj grani filogenetskog stabla mijenja, čime se proizvode bolje procjene vremena spajanja gena.

Motivi sekvence uredi

Često primarna struktura kodira motive koji su od funkcionalnog značaja. Neki primjeri motiva sekvence su:C/D[12] H/ACA kutije[13] od snoRNK, Sm vezujuće mjesto pronađeno u splajsosomnim RNK, kao što su U1, U2, U4, U5, U6, U12 i U3, Shine-Dalgarno sekvenca,[14] Kozak konsezusna sekvenca[15] i terminator RNK polimeraze III.[16]

Korelacije dugog dometa uredi

Peng et al.[17][18] otkrili su postojanje korelacija dugog dometa u nekodirajućim sekvencama baznih parova DNK. Nasuprot tome, čini se da se takve korelacije ne pojavljuju u kodirajućim sekvencama DNK. Ovo otkriće objasnili su Grosberg et al.[19] globalnom prostornom strukturom DNK.

Entropija sekvence uredi

U bioinformastici, entropija sekvence, također poznata i kao složenost sekvence ili profil informacija,[20] je numerička sekvenca koja daje kvantitativnu mjeru lokalne složenosti sekvence DNK, neovisno o smjeru obrade. Manipulacije profilima informacija omogućavaju analizu sekvenci, koristeći tehnike bez poravnavanja, kao što je naprimjer detekcija motiva i preuređivanja.[20][21] [22]

Također pogledajte uredi

Reference uredi

  1. ^ a b Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences, NC-IUB, 1984.
  2. ^ Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1984). "Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences". Pristupljeno 4. 2. 2008.
  3. ^ "BIOL2060: Translation". mun.ca. Arhivirano s originala, 5. 8. 2020. Pristupljeno 16. 11. 2021.
  4. ^ "Research". uw.edu.pl.
  5. ^ Nguyen, T; Brunson, D; Crespi, C L; Penman, B W; Wishnok, J S; Tannenbaum, S R (april 1992). "DNA damage and mutation in human cells exposed to nitric oxide in vitro". Proc Natl Acad Sci USA. 89 (7): 3030–034. Bibcode:1992PNAS...89.3030N. doi:10.1073/pnas.89.7.3030. PMC 48797. PMID 1557408.
  6. ^ "What is genetic testing?". Genetics Home Reference. 16. 3. 2015. Arhivirano s originala, 29. 5. 2006. Pristupljeno 19. 5. 2010.
  7. ^ "Genetic Testing". nih.gov.
  8. ^ "Definitions of Genetic Testing". Definitions of Genetic Testing (Jorge Sequeiros and Bárbara Guimarães). EuroGentest Network of Excellence Project. 11. 9. 2008. Arhivirano s originala, 4. 2. 2009. Pristupljeno 10. 8. 2008.
  9. ^ Mount DM. (2004). Bioinformatics: Sequence and Genome Analysis (2nd izd.). Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 0-87969-608-7.
  10. ^ Ng, P. C.; Henikoff, S. (2001). "Predicting Deleterious Amino Acid Substitutions". Genome Research. 11 (5): 863–74. doi:10.1101/gr.176601. PMC 311071. PMID 11337480.
  11. ^ Witzany, G (2016). "Crucial steps to life: From chemical reactions to code using agents". Biosystems. 140: 49–57. doi:10.1016/j.biosystems.2015.12.007. PMID 26723230.
  12. ^ Samarsky, DA; Fournier MJ; Singer RH; Bertrand E (1998). "The snoRNA box C/D motif directs nucleolar targeting and also couples snoRNA synthesis and localization". The EMBO Journal. 17 (13): 3747–57. doi:10.1093/emboj/17.13.3747. PMC 1170710. PMID 9649444.
  13. ^ Ganot, Philippe; Caizergues-Ferrer, Michèle; Kiss, Tamás (1. 4. 1997). "The family of box ACA small nucleolar RNAs is defined by an evolutionarily conserved secondary structure and ubiquitous sequence elements essential for RNA accumulation". Genes & Development. 11 (7): 941–56. doi:10.1101/gad.11.7.941. PMID 9106664.
  14. ^ Shine J, Dalgarno L (1975). "Determinant of cistron specificity in bacterial ribosomes". Nature. 254 (5495): 34–38. Bibcode:1975Natur.254...34S. doi:10.1038/254034a0. PMID 803646. S2CID 4162567.
  15. ^ Kozak M (oktobar 1987). "An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNAs". Nucleic Acids Res. 15 (20): 8125–48. doi:10.1093/nar/15.20.8125. PMC 306349. PMID 3313277.
  16. ^ Bogenhagen DF, Brown DD (1981). "Nucleotide sequences in Xenopus 5S DNA required for transcription termination". Cell. 24 (1): 261–70. doi:10.1016/0092-8674(81)90522-5. PMID 6263489. S2CID 9982829.
  17. ^ Peng, C.-K.; Buldyrev, S. V.; Goldberger, A. L.; Havlin, S.; Sciortino, F.; Simons, M.; Stanley, H. E. (1992). "Long-range correlations in nucleotide sequences". Nature. 356 (6365): 168–70. Bibcode:1992Natur.356..168P. doi:10.1038/356168a0. ISSN 0028-0836. PMID 1301010. S2CID 4334674.
  18. ^ Peng, C.-K.; Buldyrev, S. V.; Havlin, S.; Simons, M.; Stanley, H. E.; Goldberger, A. L. (1994). "Mosaic organization of DNA nucleotides". Physical Review E. 49 (2): 1685–89. Bibcode:1994PhRvE..49.1685P. doi:10.1103/PhysRevE.49.1685. ISSN 1063-651X. PMID 9961383.
  19. ^ Grosberg, A; Rabin, Y; Havlin, S; Neer, A (1993). "Crumpled globule model of the three-dimensional structure of DNA". Europhysics Letters. 23 (5): 373–78. Bibcode:1993EL.....23..373G. doi:10.1209/0295-5075/23/5/012.
  20. ^ a b Pinho, A; Garcia, S; Pratas, D; Ferreira, P (Nov 21, 2013). "DNA Sequences at a Glance". PLOS ONE. 8 (11): e79922. Bibcode:2013PLoSO...879922P. doi:10.1371/journal.pone.0079922. PMC 3836782. PMID 24278218.
  21. ^ Pratas, D; Silva, R; Pinho, A; Ferreira, P (18. 5. 2015). "An alignment-free method to find and visualise rearrangements between pairs of DNA sequences". Scientific Reports. 5: 10203. Bibcode:2015NatSR...510203P. doi:10.1038/srep10203. PMC 4434998. PMID 25984837.
  22. ^ Troyanskaya, O; Arbell, O; Koren, Y; Landau, G; Bolshoy, A (2002). "Sequence complexity profiles of prokaryotic genomic sequences: A fast algorithm for calculating linguistic complexity". Bioinformatics. 18 (5): 679–88. doi:10.1093/bioinformatics/18.5.679. PMID 12050064.

Vanjaki linkovi uredi