Obilježavanje nukleinske kiseline
Obilježavanja ili notaciju nukleinske kiseline koja se danas koristi prvi put je formalizirala Međunartodna unija za čistu i primijenjenu hemiju (IUPAC) 1970.[1] Ova univerzalno prihvaćena notacija koristi latinske znakove G, C, A i T za predstavljanje četiri nukleotida koja se obično nalaze u dezoksiribonukleinskim kiselinama (DNK).
S obzirom na brzo rastuću ulogu genetičkog sekvenciranja, sinteze i analize u biologiji, neki istraživači su razvili alternativne zapise kako bi dodatno podržali analizu i manipulaciju genetičkim podacima. Ove oznake općenito koriste veličinu, oblik i simetriju za postizanje ovih ciljeva.
IUPAC-ova notacija
urediOpis | Simbol | Predstavljena baza | Komplementarne baze | ||||
---|---|---|---|---|---|---|---|
No. | A | C | G | T | |||
Adenin | A | 1 | A | T | |||
Citozin | C | C | G | ||||
Guanin | G | G | C | ||||
Timin | T | T | A | ||||
Uracil | U | U | A | ||||
Slaba | W | 2 | A | T | W | ||
Jaka | S | C | G | S | |||
Amino | M | A | C | K | |||
Keton | K | G | T | M | |||
Purin | R | A | G | Y | |||
Pirimidin | Y | C | T | R | |||
Ne-A | B | 3 | C | G | T | V | |
Ne-C | D | A | G | T | H | ||
Ne-G | H | A | C | T | D | ||
Not T Ne-U za RNK | V | A | C | G | B | ||
Bilo koja baza | N | 4 | A | C | G | T | N |
Međuprostor (praznina) | - | 0 | - | ||||
Simboli degeneriranih baza u biohemiji su IUPAC-ovi[2][3] reprezentacija za poziciju na DNK sekvenci koja može imati više mogućih alternativa. Ne treba ih brkati sa nekanonskim bazama jer će svaka određena sekvenca u stvari imati jednu od regularnih baza. Oni se koriste za kodiranje konsenzusne skvence populacije usklađenih sekvenci i koriste se naprimjer u filogenetičkoj analizi da se sumiraju u jednu od više sekvenci ili za BLAST pretraživanja, iako su IUPAC degenerirani simboli maskirani (pošto nisu kodirani).
Prema uobičajeno korištenom IUPAC sistemu, nukleobaze su predstavljene prvim slovima njihovih hemijskih imena: guanin (G), citozin ˙(C), adenin (A) i timin (T). Ova skraćenica također uključuje jedanaest povezanih znakova "dvosmislenosti" sa svakom mogućom kombinacijom četiri DNK baze.[4] Znakovi dvosmislenosti dizajnirani su da kodiraju varijacije položaja kako bi se prijavile greške sekvenciranja DNK, konsenzusne sekvence ili SNP. IUPAC notacija, uključujući znakove dvosmislenosti i predložene mnemonike, prikazana je u tabeli 1.
Uprkos svom širokom i skoro univerzalnom prihvatanju, IUPAC sistem ima niz ograničenja, koja proizilaze iz njegovog oslanjanja na latinično pismo. Slaba čitljivost velikih rimskih znakova, koji se općenito koriste pri prikazivanju genetičkih podataka, može biti glavno među ovim ograničenjima. Vrijednost vanjskih projekcija u razlikovanju slova je dobro dokumentirana.[5] Međutim, ove projekcije nedostaju u velikim slovima, koja se u nekim slučajevima mogu razlikovati samo po suptilnim unutrašnjim znakovima. Uzmimo za primjer velika slova C i G koja se koriste za predstavljanje citozina i guanina. Ovi znakovi općenito čine polovinu znakova u genetičkoj sekvenci, ali se razlikuju po maloj unutrašnjoj kvačici (ovisno o fontu). Ipak, ovi rimski znakovi su dostupni u skupu znakova ASCII koji se najčešće koristi u tekstovnoj komunikaciji, što pojačava sveprisutnost ovog sistema.
Još jedan nedostatak IUPAC obilježavanja proizilazi iz činjenice da je njegovih jedanaest znakova višeznačnosti odabrano od preostalih znakova rimskog alfabeta. Autori notacije su nastojali da odaberu dvosmislene znakove pomoću logičke mnemonike. Naprimjer, S se koristi za predstavljanje mogućnosti pronalaženja citozina ili guanina na genskim lokusima, od kojih oba formiraju "jake" interakcije vezivanja unakrsnih lanaca. Suprotno tome, „slabije“ interakcije timina i adenina su predstavljene sa W. Međutim, prikladne mnemotehnike nisu tako lahko dostupne za druge znakove dvosmislenosti prikazane u Tabeli 1. Ovo je otežalo korištenje znakova dvosmislenosti i može objasniti njihovu ograničenu primjenu.
Nomenklatura nukleinske kiseline
uredi.[3]
Alternativno vizuelno poboljšana označavanja
urediProblemi čitljivosti povezani sa IUPAC-kodiranim genetičkim podacima naveli su biologe da razmotre alternativne strategije za prikazivanje genetičkih podataka. Ovi kreativni pristupi vizualizaciji sekvenci DNK uglavnom su se oslanjali na upotrebu prostorno raspoređenih simbola i/ili vizuelno različitih oblika za kodiranje dugih sekvenci nukleinskih kiselina. Pokušali su se alternativni zapisi za nukleotidne sekvence, ali generalno usvajanje je bilo nisko. Nekoliko od ovih pristupa je sažeto u nastavku.
Dužičasta projekcija
urediU 1986., Cowin et al. opisali je novi metod za vizualizaciju DNK sekvence, poznatu kao Steveova projekcija.[6] Njihova strategija bila je da kodiraju nukleotide kao krugove na nizu horizontalnih traka sličnih notama na muzičkoj skali. Kao što je ilustrovano na slici 1, svaka praznina na petolinijskom štapu odgovara jednoj od četiri baze DNK. Prostorna distribucija krugova je učinila daleko lakšim razlikovanje pojedinačnih baza i upoređivanje gentetičkih sekvenci nego IUPAC kodirani podaci.
Redoslijed baza (od vrha do dna, G, A, T, C) bira se tako da se komplementarni niz može očitati okretanjem projekcije naopako.
Geometrijski simboli
urediZimmerman et al. zauzeli su drugačiji pristup vizualizaciji genetičkih podataka.[7] Umjesto da se oslanjaju na prostorno raspoređene krugove kako bi istakli genetičke karakteristike, oni su iskoristili četiri geometrijski različita simbola pronađena u standardnom kompjuterskom fontu kako bi razlikovali četiri baze. Autori su razvili jednostavan WordPerfect makro za prevođenje IUPAC znakova u vizualno različite simbole.
DNK Skyline
urediUz rastuću dostupnost urednika fontova, Jarvius i Landegren su osmislili novi skup genetskih simbola, poznat kao DNK Skyline font, koji koristi sve više blokove za predstavljanje različitih baza DNK.[8] Iako podsjeća na prostorno raspoređenu projekciju Staveove projekcije Cowina et al., font DNK Skyline je jednostavan za preuzimanje i dozvoljava prijevod na i sa IUPAC notacije jednostavnom promjenom fonta u većini standardnih aplikacija za obradu teksta.
Ambigrafske oznake
urediAmbigrami (simboli koji prenose različita značenja kada se gledaju u različitoj orijentaciji) dizajnirani su da odražavaju strukturne simetrije pronađene u dvostrukoj spirali DNK.[9] By assigning ambigraphic characters to complementary bases (i.e. guanine: b, cytosine: q, adenine: n, and thymine: u), it is possible to complement DNA sequences by simply rotating the text 180 degrees.[10] Ambigrafska notacija nukleinske kiseline također olakšava identifikaciju genetičkih palindroma, kao što su restrikcijska mesta endonukleaza, kao dijelovi teksta koji se mogu rotirati za 180 stepeni bez promjene sekvence.
Jedan primjer ambigrafskog oznaćavanja nukleinske kiseline je AmbiScript, racionalno dizajnirana notacija nukleinske kiseline koja je kombinirala mnoge vizuelne i funkcionalne karakteristike svojih prethodnika.[11] Njegova notacija također koristi prostorno pomaknute znakove kako bi olakšala vizualni pregled i analizu genetskih podataka. AmbiScript je također dizajniran da ukaže na dvosmislene pozicije nukleotida putem složenih simbola. Ova strategija imala je za cilj ponuditi intuitivnije rješenje za korištenje dvosmislenih znakova koje je prvi predložio IUPAC.[4] Kao i kod Jarviusovih i Landegrenovih DNK Skyline fontova, AmbiScript fontovi se mogu preuzeti i primijeniti na IUPAC kodirane podaci o sekvenci.
Uparivanje baza sa trostrukim heliksom
urediParovi Watsonovih i Crickovih baza su označeni sa "•" ili "–" ili "." (primjer: A•T, ili poli(rC)•2poli(rC)).
Parovi baza Hoogsteenovog trostrukog heliksa označeni su sa "*" ili ":" (primjer: C•G*G+, ili T•A*T, ili C•G*G, ili T•A*A ).
Također pogledajte
urediReference
uredi- ^ IUPAC-IUB Commission on Biochemical Nomenclature (1970). "Abbreviations and symbols for nucleic acids, polynucleotides, and their constituents". Biochemistry. 9 (20): 4022–4027. doi:10.1021/bi00822a023.
- ^ a b Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1984). "Nomenclature for Incompletely Specified Bases in Nucleic Acid Sequences". Nucleic Acids Research. 13 (9): 3021–3030. doi:10.1093/nar/13.9.3021. PMC 341218. PMID 2582368.
- ^ a b Cornish-Bowden A (maj 1985). "Nomenclature for incompletely specified bases in nucleic acid sequences: recommendations 1984". Nucleic Acids Research. 13 (9): 3021–30. doi:10.1093/nar/13.9.3021. PMC 341218. PMID 2582368.
- ^ a b Nomenclature Committee of the International Union of Biochemistry (NC-IUB) (1986). "Nomenclature for incompletely specified bases in nucleic acid sequences. Recommendations 1984". Proc. Natl. Acad. Sci. USA. 83 (1): 4–8. Bibcode:1986PNAS...83....4O. doi:10.1073/pnas.83.1.4. PMC 322779. PMID 2417239.
- ^ Tinker, M. A. 1963. Legibility of Print. Iowa State University Press, Ames IA.
- ^ Cowin, J. E.; Jellis, C. H.; Rickwood, D. (1986). "A new method of representing DNA sequences which combines ease of visual analysis with machine readability". Nucleic Acids Research. 14 (1): 509–15. doi:10.1093/nar/14.1.509. PMC 339435. PMID 3003680.
- ^ Zimmerman, P. A.; Spell, M. L.; Rawls, J.; Unnasch, T. R. (1991). "Transformation of DNA sequence data into geometric symbols". BioTechniques. 11 (1): 50–52. PMID 1954017.
- ^ Jarvius, J.; Landegren, U. (2006). "DNA Skyline: fonts to facilitate visual inspection of nucleic acid sequences". BioTechniques. 40 (6): 740. doi:10.2144/000112180. PMID 16774117.
- ^ Hofstadter, Douglas R. (1985). Metamagical Themas: Questioning the Essence of Mind and Pattern. New York: Basic Books. ISBN 978-0465045662.
- ^ Rozak, D. A. (2006). "The practical and pedagogical advantages of an ambigraphic nucleic acid notation". Nucleosides, Nucleotides & Nucleic Acids. 25 (7): 807–813. doi:10.1080/15257770600726109. PMID 16898419. S2CID 23600737.
- ^ Rozak, David A.; Rozak, Anthony J. (2008). "Simplicity, function, and legibility in an enhanced ambigraphic nucleic acid notation". BioTechniques. 44 (6): 811–813. doi:10.2144/000112727. PMID 18476835. Arhivirano s originala, 25. 10. 2016. Pristupljeno 28. 6. 2023.