Označavanje gena

Označavanje gena, obilježavanje gena ili anotacija gena i/ili DNK/genoma je postupak identifikacije lokacije gena i svih kodirajućih regija u genomu i utvrđivanje njihovog djelovanja. Oznaka (bez obzira na kontekst) je dodatak u obliku objašnjenja ili komentara. Jednom kada se genom sekvencira, potrebno ga je označiti da bi to imalo smisla.[1]

Ljudski hromosom X sa označenim genskim lokusima i rasponom ekspresije gena

Za obilježavanje DNK, prethodno nepoznata sekvenca predstavljanja genetičkog materijala obogaćena je informacijama koje se odnose genomski položaj do granica intronegzon, regulacijska sekvenca , ponavljanja, imena gena i proteinskih proizvoda. Ova oznaka pohranjena je u genomskim bazama podataka kao to su Informatika o mišjem genomu, FlyBaza i WormBaza. Obrazovni materijali o nekim aspektima bioloških anotacija iz 2006 Gene Ontology anotacijskog kampa i slični događaji dostupni su na web lokaciji Gene Ontology.[2]

Nacionalni centar za biomedicinsku ontologiju (www.bioontology.org) razvio je alate za automatizirano označavanje[3] oznaka baze podataka na osnovu tekstnih opisa tih zapisa.

Kao općeniti metod, dcGO[4] ima automatiziranu proceduru za statističko zaključivanje asocijacija između pojmova ontologije i proteinskih domena ili kombinacija domena iz postojećih zapisa na nivou gena/proteina.

Proces

uredi

Anotacija genoma sastoji se od tri glavna koraka:[5]

  1. identificiranje dijelova genoma koji ne kodiraju proteine
  2. identificiranje elemenata na genomu, proces koji se naziva predviđanje gena
  3. vezanje bioloških informacija sa ovim elementima.

Alati za automatsko bilježenje pokušavaju izvršiti ove korake računarskom analizom, za razliku od ručne anotacije (tzv. kuracije ili nadgledanja) koja uključuje ljudsku stručnost. U idealnom slučaju, ovi pristupi koegzistiraju i nadopunjuju se u istoj oznaci kanala.

Jednostavan metod anotacije gena oslanja se na alate pretraživanja zasnovane na homologiji, poput BLAST, za traženje homolognih gena u određenim bazama podataka, a rezultirajuće informacije se zatim koriste za označavanje gena i genoma.[6] Međutim, kako se informacije dodaju na platformu za označavanje, ručni bilježnici postaju sposobni ukloniti odstupanja između gena kojima se daje ista bilješka. Neke baze podataka koriste informacije o kontekstu genoma, ocjene sličnosti, eksperimentalne podatke i integracije drugih resursa za pružanje anotacija genoma kroz svoj pristup podsistemima. Ostale baze podataka (npr. Ensembl oslanjaju se na kurirane izvore podataka, kao i na niz različitih softverskih alata u svom automatiziranom kanalu za oznake genoma.[7]

Strukturno označavanje sastoji se od identifikacije genomskih elemenata:

Funkcijske oznake sastoje se od vezanja bioloških informacija o genomskim elementima.

  • Biohemijska funkcija
  • Biološka funkcija
  • Uključene regulacije i interakcije
  • Ekspresija

Ovi koraci mogu uključivati i biološke eksperimente i analizu in silico . Pristupi zasnovani na proteogenomici koriste informacije iz eksprimiranih proteina, često izvedenih iz analize masenom spektrometrijom, za poboljšanje genomskih zapisa.[8]

Razvijeni su razni softverski alati koji omogućavaju da se gledaju i dijele komentari o genomu; naprimjer, MAKER.

Anotacija genoma ostaje glavni izazov za naučnike koji istražuju ljudski genom, sada kada su uglavnom dovršene sekvence genoma više od hiljadu ljudi (The 100.000 Genomes Project, UK) i nekoliko model organizama.[9][10] Identificiranje lokacija gena i drugih genetičkih kontrolnih elemenata često se opisuje kao definiranje biološke "liste dijelova" za sklop i normalan rad organizma.[6] Nauka je još uvijek u ranoj fazi procesa definiranja ovog popisa dijelova i razumijevanja kako se svi dijelovi "uklapaju".[11]

Označavanje genoma aktivno je područje istraživanja i uključuje niz različitih organizacija u zajednici nauka o životu, koje objavljuju rezultate napora u javnim biološkim bazama podataka, dostupnim putem Interneta i drugih elektronskih sredstava. Evo abecednog popisa tekućih projekata relevantnih za označavanje genoma:

Na Wikipediji, anotacije genoma počele su se automatizirati pod pokroviteljstvom portala Gene Wiki kojim upravlja bot koji prikuplja genetičke podatke iz istraživačkih baza podataka i kreira genske isječke na na toj osnovi.[12]

Reference

uredi
  1. ^ "Definition of genome annotation". Arhivirano s originala, 8. 3. 2016. Pristupljeno 15. 3. 2021.
  2. ^ "GO Teaching Resources". Arhivirano s originala, 10. 10. 2006. Pristupljeno 21. 9. 2006.
  3. ^ http://bioontology.stanford.edu/annotator-service
  4. ^ Fang, H; Gough, J (2013). "DcGO: Database of domain-centric ontologies on functions, phenotypes, diseases and more". Nucleic Acids Research. 41 (Database issue): D536–44. doi:10.1093/nar/gks1080. PMC 3531119. PMID 23161684.
  5. ^ Stein, L. (2001). "Genome annotation: from sequence to biology". Nature Reviews Genetics. 2 (7): 493–503. doi:10.1038/35080529. PMID 11433356.
  6. ^ a b Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd izd.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.
  7. ^ "Ensembl's genome annotation pipeline online documentation". Arhivirano s originala, 5. 3. 2016.
  8. ^ Gupta, Nitin; Stephen Tanner; Navdeep Jaitly; Joshua N Adkins; Mary Lipton; Robert Edwards; Margaret Romine; Andrei Osterman; Vineet Bafna; Richard D Smith; Pavel A Pevzner (septembar 2007). "Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation". Genome Research. 17 (9): 1362–1377. doi:10.1101/gr.6427907. ISSN 1088-9051. PMC 1950905. PMID 17690205.
  9. ^ ENCODE Project Consortium (2011). Becker PB (ured.). "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)". PLOS Biology. 9 (4): e1001046. doi:10.1371/journal.pbio.1001046. PMC 3079585. PMID 21526222.  
  10. ^ McVean, G. A.; Abecasis, D. M.; Auton, R. M.; Brooks, G. A. R.; Depristo, D. R.; Durbin, A.; Handsaker, A. G.; Kang, P.; Marth, E. E.; McVean, P.; Gabriel, S. B.; Gibbs, R. A.; Green, E. D.; Hurles, M. E.; Knoppers, B. M.; Korbel, J. O.; Lander, E. S.; Lee, C.; Lehrach, H.; Mardis, E. R.; Marth, G. T.; McVean, G. A.; Nickerson, D. A.; Schmidt, J. P.; Sherry, S. T.; Wang, J.; Wilson, R. K.; Gibbs (Principal Investigator), R. A.; Dinh, H.; et al. (2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. Bibcode:2012Natur.491...56T. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
  11. ^ Dunham, I.; Bernstein, A.; Birney, S. F.; Dunham, P. J.; Green, C. A.; Gunter, F.; Snyder, C. B.; Frietze, S.; Harrow, J.; Kaul, R.; Khatun, J.; Lajoie, B. R.; Landt, S. G.; Lee, B. K.; Pauli, F.; Rosenbloom, K. R.; Sabo, P.; Safi, A.; Sanyal, A.; Shoresh, N.; Simon, J. M.; Song, L.; Trinklein, N. D.; Altshuler, R. C.; Birney, E.; Brown, J. B.; Cheng, C.; Djebali, S.; Dong, X.; et al. (2012). "An integrated encyclopedia of DNA elements in the human genome". Nature. 489 (7414): 57–74. Bibcode:2012Natur.489...57T. doi:10.1038/nature11247. PMC 3439153. PMID 22955616.
  12. ^ Huss, Jon W.; Orozco, C; Goodale, J; Wu, C; Batalov, S; Vickers, TJ; Valafar, F; Su, AI (2008). "A Gene Wiki for Community Annotation of Gene Function". PLOS Biology. 6 (7): e175. doi:10.1371/journal.pbio.0060175. PMC 2443188. PMID 18613750.