Nasumično sekvenciranje

U genetici, nasumično sekvenciranje ili sačmarično sekvenciranje je metod koji se koristi za sekvenciranje nasumične DNK niti. Ime je dobilo po analogiji sa brzo širećim, kvazi-slučajnim grupiranjem hitaca sačmarica.

Metod prekida lanca kod sekvenciranja DNK ("Sangerovsko sekvenciranje") može se koristiti samo za kratke lance DNK od 100 do 1000 baznih parova. Zbog ovog ograničenja veličine, duže sekvence se dijele na manje fragmente koji se mogu zasebno sekvencirati, a ove sekvence se sastavljaju da daju ukupnu sekvencu.

U sekvenciranju ovog tipa,[1][2] DNK je nasumično razbijena na brojne male segmente, koji se sekvenciraju korištenjem metoda prekida lanca kako bi se dobila čitanja. Višestruka preklapanja čitanja za ciljnu DNK dobijaju se izvođenjem nekoliko rundi ove fragmentacije i sekvenciranja. Računarski programi zatim koriste preklapajuće krajeve različitih čitanja kako bi ih spojili u kontinuiranu sekvencu.[1]

Sačmarična sekvenciranje bila je jedna od prekursorskih tehnologija koja je bila odgovorna za omogućavanje sekvenciranja cijelog genoma.

Primjer uredi

Na primjer, uzmite u obzir sljedeća dva kruga sačmarice:

Lanac Sekvenca
AGCATGCTGCAGTCATGCTTAGGCTA
Prva nasumična sekvenca AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Druga nasumična sekvenca AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Rekonstrukcija AGCATGCTGCAGTCATGCTTAGGCTA

U ovom krajnje pojednostavljenom primjeru, nijedno od očitavanja ne pokriva cijelu dužinu originalne sekvence, ali četiri čitanja se mogu sklopiti u originalni niz, korištenjem preklapanja njihovih krajeva, kako bi se poravnali i poredali. U stvarnosti, ovaj proces koristi ogromne količine informacija koje su pune nejasnoća i grešaka u sekvenciranju. Sastavljanje složenih genoma dodatno je komplikovano velikim brojem ponavljajućih sekvenci, što znači da bi slična kratka čitanja mogla doći iz potpuno različitih dijelova sekvence.

Mnoga preklapanja čitanja za svaki segment originalne DNK su neophodna da bi se prevladale ove poteškoće i precizno sastavila sekvenca. Naprimjer, da bi se završio Projekt ljudskog genoma, većina ljudskog genoma je sekvencirana pri 12X ili većoj pokrivenosti; odnosno svaka baza u konačnoj sekvenci bila je prisutna u prosjeku u 12 različitih čitanja. Čak i tako, sadašnji metodi nisu uspjeli izolirati ili sastaviti pouzdanu sekvencu za otprilike 1% (eukromatinskog) ljudskog genoma, od 2004.[3]

Sekvenciranje cijelog genoma uredi

Historija uredi

Sekvenciranje cijelog genoma za male genome (od 4000 do 7000 parova baza) prvi put je predloženo 1979.[1] Prvi genom sekvenciran sačmarčnim sekvenciranjem bio je genom virus mozaika karfiola, objavljeno 1981.[4][5]

Sekvenciranje uparenog kraja uredi

Šira primjena imala je koristi od uparivanja krajnjeg sekvenciranja, kolokvijalno poznatog kao sekvenciranje sačmaricom sa dvostrukom cijevi. Kako su projekti sekvenciranja počeli preuzimati duže i složenije sekvence DNK, više grupa je počelo shvaćati da se korisne informacije mogu dobiti sekvenciranjem oba kraja fragmenta DNK. Iako je sekvenciranje oba kraja istog fragmenta i praćenje uparenih podataka bilo glomaznije od sekvenciranja jednog kraja dva različita fragmenta, saznanje da su dvije sekvence orijentirane u suprotnim smjerovima i da su otprilike dužine fragmenta odvojeno od svakog drugi je bio vrijedan u rekonstrukciji sekvence originalnog ciljnog fragmenta.

Historija: Prvi objavljeni opis upotrebe sekvenciranja uparenih krajeva bio je u 1990.[6] kao dio sekvenciranja ljudskog hipoksantin-guanin fosforiboziltransferaznoglokusa, iako je upotreba uparenih krajeva bila ograničena na zatvaranje praznina nakon primjene tradicijskog pristupa nasumičnog sekvenciranja s. Prvi teorijski opis čiste strategije sekvenciranja krajova u paru, uz pretpostavku da su fragmenti konstantne dužine, bio je 1991. godine.[7] U to vrijeme, postojao je konsenzus zajednice da bi optimalna dužina fragmenta za uparivanje krajnjeg sekvenciranja bila tri puta veća od dužine čitanja sekvence. 1995. Roach et al.[8] uveli su inovaciju korištenja fragmenata različitih veličina i pokazao da je čisto u paru strategija krajnjeg sekvenciranja bila bi moguća na velikim ciljevima. Strategiju je naknadno usvojio Institut za genomska istraživanja (TIGR) za sekvenciranje genoma bakterije Haemophilus influenzae 1995.,[9] a zatim od strane Celera Genomics za sekvenciranje genoma Drosophila melanogaster (voćne mušice) 2000.,[10] and subsequently the human genome.

Pristup uredi

Da bi se primijenila strategija, lanac DNK visoke molekulske težine se siječe na nasumične fragmente, odabrane veličine (obično 2, 10, 50 i 150 kb) i klonirane u odgovarajući vektor. Klonovi se zatim sekvenciraju sa oba kraja koristeći metod završetka lanca dajući dvije kratke sekvence. Svaka sekvenca se naziva čitabje kraja ili čitaj 1 i čitaj 2i dva čitanja iz istog klona nazivaju se spareni parovi. S obzirom da metod prekida lanca obično može proizvesti samo čitanja dugačka između 500 i 1000 baza, u svim osim najmanjih klonova, upareni parovi će se rijetko preklapati.

Sklapanje uredi

Originalna sekvenca je rekonstruisana iz čitanja pomoću softvera sequence assembly. Prvo, čitanja koja se preklapaju se skupljaju u duže kompozitne sekvence poznate kao kontigovi. Kontigovi se mogu povezati zajedno u skele prateći veze između sparenih parova. Udaljenost između kontiga može se zaključiti iz njihovih pozicija ako je poznata prosječna dužina fragmenta biblioteke i ima uzak prozor odstupanja. Ovisno o veličini jaza između kontiga, mogu se koristiti različite tehnike za pronalaženje sekvence u prazninama. Ako je jaz mali (5–20 kb), onda je potrebna upotreba lančane polimerazne reakcije (PCR) za pojačavanje regije, nakon čega slijedi sekvenciranje. Ako je jaz velik (>20 kb), tada se veliki fragment klonira u posebne vektore kao što su bakterijski vještački hromosom (BAC) nakon čega slijedi sekvenciranje vektora.

Za i protiv uredi

Zagovornici ovog pristupa tvrde da je moguće sekvencirati cijeli genom odjednom koristeći velike nizove sekvencera, što cijeli proces čini mnogo efikasnijim od tradicijskih pristupa. Kritičari tvrde da iako tehnika brzo sekvencira velike regione DNK, njena sposobnost da pravilno poveže ove regione je sumnjiva, posebno za genome sa regionima koji se ponavljaju. Kako programi sequence Assembly postaju sofisticiraniji i računarska snaga postaje jeftinija, možda će biti moguće prevazići ovo ograničenje.

Pokrivenost uredi

Pokrivenost (dubina čitanja ili dubina) je prosječan broj čitanja koja predstavljaju dati nukleotid u rekonstruiranoj sekvenci. Može se izračunati iz dužine originalnog genoma (G), broja čitanja (N) i prosječne dužine čitanja (L) kao  . Naprimjer, hipotetski genom sa 2.000 parova baza rekonstruiranih iz 8 čitanja sa prosječnom dužinom od 500 nukleotida imat će 2x redundantnost. Ovaj parametar također omogućava procjenu drugih veličina, kao što je postotak genoma pokrivenog čitanjima (ponekad se naziva i pokrivenost). Poželjna je visoka pokrivenost u nasumičnom sekvenciranju jer može prevladati greške u pozivanju baze i sklapanju. Predmet teorija sekvenciranja DNK bavi se odnosima takvih veličina.

Ponekad se pravi razlika između pokrića sekvence i fizičke pokrivenosti. Pokrivenost sekvence je prosječan broj čitanja baze (kao što je gore opisano). Fizička pokrivenost je prosječan broj čitanja baza ili proširenja čitanja uparenih partnera.[11]

Hijerarhijsko nasumično sekvenciranje uredi

 
U sekvenciranju cijelog genoma (gore), cijeli genom se nasumično siječe na male fragmente (odgovarajuće veličine za sekvenciranje) i zatim se ponovo sastavlja. U hijerarhijskom sačmaričnom sekvenciranju (dolje), genom se prvo razbija na veće segmente. Nakon što se zaključi redoslijed ovih segmenata, oni se dalje sijeku u fragmente odgovarajuće veličine za sekvenciranje.

Iako se nasumično sekvencioniranje u teoriji može primijeniti na genom bilo koje veličine, njegova direktna primjena na sekvenciranje velikih genoma (naprimjer, ljudski genom) bila je ograničena do kasnih 1990-ih, kada je tehnološki napredak učinio praktičnim rukovanje od ogromne količine složenih podataka uključenih u proces.[12] Historijski gledano, vjerovalo se da je ovakvo sekvenciranje punih genoma ograničeno i samom veličinom velikih genoma i složenošću koju dodaje visoki postotak repetitivne DNK (veći od 50% za ljudski genom) prisutan u velikim genomima.[13] Nije bilo široko prihvaćeno da će sekvenca velikog genoma sačmaricama punog genoma pružiti pouzdane podatke. Iz ovih razloga, morale su se koristiti druge strategije koje su smanjile računarsko opterećenje sklopa sekvenci prije nego što se izvrši sačmarično sekvenciranje.[13] U hijerarhijskom sekvenciranju, poznatom i kao sekvenciranje odozgo prema dolje, genoma niske rezolucije fizička mapa se pravi prije stvarnog sekvenciranja. Iz ove mape se odabire minimalni broj fragmenata koji pokrivaju cijeli hromosom za sekvenciranje.[14] Na ovaj način je potrebna minimalna količina sekvenciranja i sklapanja visoke propusnosti.

Amplificirani genom se prvo siječe na veće komade (50–200 kb) i klonira u bakterijskog domaćina koristeći BAC ili P1-izvedeni vještački hromosom (PAC). Budući da je više kopija genoma nasumično izrezano, fragmenti sadržani u ovim klonovima imaju različite krajeve i sa dovoljno pokrivenosti (vidi odjeljak iznad) pronalaženje skele BAC kontiga koji pokriva cijeli genom je teorijski moguće. Ova skela zove se popločavanje putanje.

 
BAC kontig koji pokriva čitavo genomsko područje od interesa čini putanju popločavanja.

Jednom kada je putanja popločavanja napravljena, pronađeni BAC-ovi koji formiraju ovu putanju se nasumično dijele na manje fragmente i mogu se sekvencirati korištenjem metoda sačmarice na manjem obimu.

Iako pune sekvence BAC kontiga nisu poznate, poznate su njihove orijentacije jedna u odnosu na drugu. Postoji nekoliko metoda za određivanje ovog redoslijeda i odabir BAC-ova koji čine putanju popločavanja. Opća strategija uključuje identifikaciju položaja klonova u odnosu jedan prema drugom, a zatim izbor najmanjeg broja klonova potrebnih za formiranje susjedne skele koja pokriva cijelo područje od interesa. Redoslijed klonova utvrđuje se određivanjem načina na koji se oni preklapaju.[15] Klonovi koji se preklapaju mogu se identificirati na nekoliko načina. Mala radioaktivno ili hemijski označena sonda koja sadrži mjesto označeno sekvencom (STS) može se hibridizirati na mikromrežu na kojem se klonovi štampaju. Na ovaj način, svi klonovi koji sadrže određenu sekvencu u genomu su identificirani. Kraj jednog od ovih klonova se zatim može sekvencirati kako bi se dobila nova sonda i proces se ponovio metodom koji se zove hodanje po hromosomima.

Alternativno, BAC biblioteka može biti restrikcijski sažetak. Zaključuje se da se dva klona koji imaju nekoliko zajedničkih veličina fragmenata preklapaju jer sadrže više zajedničkih restrikcijskih mjesta na sličan način. Ovaj metod genomskog mapiranja naziva se restrikcijskim otiskom prsta jer identificira skup ograničenja mjesta sadržana u svakom klonu. Nakon što je pronađeno preklapanje između klonova i njihov redoslijed u odnosu na genom poznat, skela minimalnog podskupa ovih kontiga koja pokriva cijeli genom se sekvencira.

Budući da prvo uključuje kreiranje mape genoma niske rezolucije, hijerarhijsko sekvenciranje sačmaricama je sporije od sekvenciranja sačmaricama cijelog genoma, ali se manje oslanja na kompjuterske algoritme nego sekvenciranje sačmaricama cijelog genoma. Međutim, proces obimnog kreiranja BAC biblioteke i odabira putanje popločavanja čini hijerarhijsko sekvenciranje sačmarica sporim i radno intenzivnim. Sada kada je tehnologija dostupna i pouzdanost podataka demonstrirana,[13] brzina i isplativost nasiumičnog sekvenciranja u cijelom genomu učinili su ga primarnim metodom za sekvenciranje genoma.

Novije tehnologije sekvenciranja uredi

Klasično sekvenciranje sačmaricama bilo je zasnovano na Sangerovskom metodu sekvenciranja: ovo je bila najnaprednija tehnika za sekvencioniranje genoma od otprilike 1995-2005. Strategija sačmarice se i danas primjenjuje, međutim, koristeći druge tehnologije sekvenciranja, kao što su sekvenciranje kratkog čitanja i sekvenciranje dugog čitanja.

Kratko čitanje ili sekvenciranje "sljedeće generacije" proizvodi kraća čitanja (bilo gdje od 25 do 500 bp), ali mnogo stotina hiljada ili miliona čitanja u relativno kratkom vremenu (po redu jednog dana).[16] Ovo rezultira velikom pokrivenošću, ali je proces sastavljanja mnogo računarski intenzivniji. Ove tehnologije su znatno superiornije od Sangerovskog sekvenciranja zbog velike količine podataka i relativno kratkog vremena potrebnog za sekvenciranje cijelog genoma.[17]

Metagenomsko nasumično sekvenciranje uredi

Očitavanje dužine 400-500 parova baza je dovoljno da se odredi vrsta ili soj organizama odakle dolazi DNK, pod uslovom da je njegov genom već poznat, koristeći naprimjer k-mer baziran taksonomski klasifikatorski softver. Sa milionima čitanja sekvenciranja uzorka životne sredine sljedeće generacije, moguće je dobiti potpuni pregled bilo kog složenog mikrobioma sa hiljadama vrsta, kao što je crijevna flora. ]]]]Prednosti u odnosu na 16S rRNK amplikonsko sekvenciranje su: nije ograničena na bakterije, klasifikacija na nivou sojeva gdje sekvenciranje amplikona dobiva samo rod i mogućnost izdvajanja cijelih gena i specificiranja njihove funkcije kao dijela metagenoma.[18] Osetljivost metagenomskog sekvenciranja čini ga atraktivnim izborom za kliničku upotrebu.[19] Međutim, naglašava problem kontaminacije uzorka ili cjevovoda za sekvenciranje.[20]

Također pogledajte uredi

Reference uredi

  1. ^ a b c Staden, R (1979). "A strategy of DNA sequencing employing computer programs". Nucleic Acids Research. 6 (70): 2601–10. doi:10.1093/nar/6.7.2601. PMC 327874. PMID 461197.
  2. ^ Anderson, S (1981). "Shotgun DNA sequencing using cloned DNase I-generated fragments". Nucleic Acids Research. 9 (13): 3015–27. doi:10.1093/nar/9.13.3015. PMC 327328. PMID 6269069.
  3. ^ Human Genome Sequencing Consortium, International (21. 10. 2004). "Finishing the euchromatic sequence of the human genome". Nature. 431 (7011): 931–945. Bibcode:2004Natur.431..931H. doi:10.1038/nature03001. PMID 15496913.
  4. ^ Gardner, Richard C.; Howarth, Alan J.; Hahn, Peter; Brown-Luedi, Marianne; Shepherd, Robert J.; Messing, Joachim (25. 6. 1981). "The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing". Nucleic Acids Research (jezik: engleski). 9 (12): 2871–2888. doi:10.1093/nar/9.12.2871. ISSN 0305-1048. PMC 326899. PMID 6269062.
  5. ^ Doctrow, Brian (19. 7. 2016). "Profile of Joachim Messing". Proceedings of the National Academy of Sciences (jezik: engleski). 113 (29): 7935–7937. Bibcode:2016PNAS..113.7935D. doi:10.1073/pnas.1608857113. ISSN 0027-8424. PMC 4961156. PMID 27382176.
  6. ^ Edwards, A; Caskey, T (1991). "Closure strategies for random DNA sequencing". Methods: A Companion to Methods in Enzymology. 3 (1): 41–47. doi:10.1016/S1046-2023(05)80162-8.
  7. ^ Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. (1990). "Automated DNA sequencing of the human HPRT locus". Genomics. 6 (4): 593–608. doi:10.1016/0888-7543(90)90493-E. PMID 2341149.
  8. ^ Roach, JC; Boysen, C; Wang, K; Hood, L (1995). "Pairwise end sequencing: a unified approach to genomic mapping and sequencing". Genomics. 26 (2): 345–353. doi:10.1016/0888-7543(95)80219-C. PMID 7601461.
  9. ^ Fleischmann, RD; et al. (1995). "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd". Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800. S2CID 10423613.
  10. ^ Adams, MD; et al. (2000). "The genome sequence of Drosophila melanogaster" (PDF). Science. 287 (5461): 2185–95. Bibcode:2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639. doi:10.1126/science.287.5461.2185. PMID 10731132. Arhivirano s originala (PDF), 22. 7. 2018. Pristupljeno 25. 10. 2017.
  11. ^ Meyerson, M.; Gabriel, S.; Getz, G. (2010). "Advances in understanding cancer genomes through second-generation sequencing". Nature Reviews Genetics. 11 (10): 685–696. doi:10.1038/nrg2841. PMID 20847746. S2CID 2544266.
  12. ^ Dunham, I. Genome Sequencing. Encyclopedia of Life Sciences, 2005. doi:10.1038/npg.els.0005378
  13. ^ a b c Venter, J. C. "Shotgunning the Human Genome: A Personal View." Encyclopedia of Life Sciences, 2006.
  14. ^ Gibson, G. and Muse, S. V. A Primer of Genome Science. 3rd ed. P.84
  15. ^ Dear, P. H. Genome Mapping. Encyclopedia of Life Sciences, 2005. doi:10.1038/npg.els.0005353.
  16. ^ Karl, V; et al. (2009). "Next Generation Sequencing: From Basic Research to Diagnostics". Clinical Chemistry. 55 (4): 41–47. doi:10.1373/clinchem.2008.112789. PMID 19246620.
  17. ^ Metzker, Michael L. (2010). "Sequencing technologies - the next generation" (PDF). Nat Rev Genet. 11 (1): 31–46. CiteSeerX 10.1.1.719.3885. doi:10.1038/nrg2626. PMID 19997069. S2CID 205484500.
  18. ^ Roumpeka, Despoina D.; et al. (2017). "A review of bioinformatics tools for bio-prospecting from metagenomic sequence data". Frontiers in Genetics. 8: 23. doi:10.3389/fgene.2017.00023. PMC 5337752. PMID 28321234.
  19. ^ Gu, Wei; et al. (2018). "Clinical Metagenomic Next-Generation Sequencing for Pathogen Detection". Annual Review of Pathology: Mechanisms of Disease. 14: 319–338. doi:10.1146/annurev-pathmechdis-012418-012751. PMC 6345613. PMID 30355154.
  20. ^ Thoendel, Matthew; et al. (2017). "Impact of contaminating DNA in whole genome amplification kits used for metagenomic shotgun sequencing for infection diagnosis". Journal of Clinical Microbiology. 55 (6): 1789–1801. doi:10.1128/JCM.02402-16. PMC 5442535. PMID 28356418.

Dopunska literatura uredi

Vanjski linkovi uredi

Šablon:NCBI-handbook