Označavanje gena
Označavanje gena, obilježavanje gena ili anotacija gena i/ili DNK/genoma je postupak identifikacije lokacije gena i svih kodirajućih regija u genomu i utvrđivanje njihovog djelovanja. Oznaka (bez obzira na kontekst) je dodatak u obliku objašnjenja ili komentara. Jednom kada se genom sekvencira, potrebno ga je označiti da bi to imalo smisla.[1]
Za obilježavanje DNK, prethodno nepoznata sekvenca predstavljanja genetičkog materijala obogaćena je informacijama koje se odnose genomski položaj do granica intron – egzon, regulacijska sekvenca , ponavljanja, imena gena i proteinskih proizvoda. Ova oznaka pohranjena je u genomskim bazama podataka kao to su Informatika o mišjem genomu, FlyBaza i WormBaza. Obrazovni materijali o nekim aspektima bioloških anotacija iz 2006 Gene Ontology anotacijskog kampa i slični događaji dostupni su na web lokaciji Gene Ontology.[2]
Nacionalni centar za biomedicinsku ontologiju (www.bioontology.org) razvio je alate za automatizirano označavanje[3] oznaka baze podataka na osnovu tekstnih opisa tih zapisa.
Kao općeniti metod, dcGO[4] ima automatiziranu proceduru za statističko zaključivanje asocijacija između pojmova ontologije i proteinskih domena ili kombinacija domena iz postojećih zapisa na nivou gena/proteina.
Proces
urediAnotacija genoma sastoji se od tri glavna koraka:[5]
- identificiranje dijelova genoma koji ne kodiraju proteine
- identificiranje elemenata na genomu, proces koji se naziva predviđanje gena
- vezanje bioloških informacija sa ovim elementima.
Alati za automatsko bilježenje pokušavaju izvršiti ove korake računarskom analizom, za razliku od ručne anotacije (tzv. kuracije ili nadgledanja) koja uključuje ljudsku stručnost. U idealnom slučaju, ovi pristupi koegzistiraju i nadopunjuju se u istoj oznaci kanala.
Jednostavan metod anotacije gena oslanja se na alate pretraživanja zasnovane na homologiji, poput BLAST, za traženje homolognih gena u određenim bazama podataka, a rezultirajuće informacije se zatim koriste za označavanje gena i genoma.[6] Međutim, kako se informacije dodaju na platformu za označavanje, ručni bilježnici postaju sposobni ukloniti odstupanja između gena kojima se daje ista bilješka. Neke baze podataka koriste informacije o kontekstu genoma, ocjene sličnosti, eksperimentalne podatke i integracije drugih resursa za pružanje anotacija genoma kroz svoj pristup podsistemima. Ostale baze podataka (npr. Ensembl oslanjaju se na kurirane izvore podataka, kao i na niz različitih softverskih alata u svom automatiziranom kanalu za oznake genoma.[7]
Strukturno označavanje sastoji se od identifikacije genomskih elemenata:
- ORF-ovi i njihova lokalizacija
- Struktura gena
- Kodirajuće regije
- Lokacija regulacijskih motiva
Funkcijske oznake sastoje se od vezanja bioloških informacija o genomskim elementima.
- Biohemijska funkcija
- Biološka funkcija
- Uključene regulacije i interakcije
- Ekspresija
Ovi koraci mogu uključivati i biološke eksperimente i analizu in silico . Pristupi zasnovani na proteogenomici koriste informacije iz eksprimiranih proteina, često izvedenih iz analize masenom spektrometrijom, za poboljšanje genomskih zapisa.[8]
Razvijeni su razni softverski alati koji omogućavaju da se gledaju i dijele komentari o genomu; naprimjer, MAKER.
Anotacija genoma ostaje glavni izazov za naučnike koji istražuju ljudski genom, sada kada su uglavnom dovršene sekvence genoma više od hiljadu ljudi (The 100.000 Genomes Project, UK) i nekoliko model organizama.[9][10] Identificiranje lokacija gena i drugih genetičkih kontrolnih elemenata često se opisuje kao definiranje biološke "liste dijelova" za sklop i normalan rad organizma.[6] Nauka je još uvijek u ranoj fazi procesa definiranja ovog popisa dijelova i razumijevanja kako se svi dijelovi "uklapaju".[11]
Označavanje genoma aktivno je područje istraživanja i uključuje niz različitih organizacija u zajednici nauka o životu, koje objavljuju rezultate napora u javnim biološkim bazama podataka, dostupnim putem Interneta i drugih elektronskih sredstava. Evo abecednog popisa tekućih projekata relevantnih za označavanje genoma:
- Enciklopedija DNK elemenata (ENCODE)
- Entrez Gene
- Ensembl
- GENCODE
- Gene Ontology konzorcij
- GeneRIF
- RefSeq
- Uniprot
- Projekt anotacija kičmenjaka i genoma (Vega).
Na Wikipediji, anotacije genoma počele su se automatizirati pod pokroviteljstvom portala Gene Wiki kojim upravlja bot koji prikuplja genetičke podatke iz istraživačkih baza podataka i kreira genske isječke na na toj osnovi.[12]
Reference
uredi- ^ "Definition of genome annotation". Arhivirano s originala, 8. 3. 2016. Pristupljeno 15. 3. 2021.
- ^ "GO Teaching Resources". Arhivirano s originala, 10. 10. 2006. Pristupljeno 21. 9. 2006.
- ^ http://bioontology.stanford.edu/annotator-service
- ^ Fang, H; Gough, J (2013). "DcGO: Database of domain-centric ontologies on functions, phenotypes, diseases and more". Nucleic Acids Research. 41 (Database issue): D536–44. doi:10.1093/nar/gks1080. PMC 3531119. PMID 23161684.
- ^ Stein, L. (2001). "Genome annotation: from sequence to biology". Nature Reviews Genetics. 2 (7): 493–503. doi:10.1038/35080529. PMID 11433356.
- ^ a b Pevsner, Jonathan (2009). Bioinformatics and functional genomics (2nd izd.). Hoboken, N.J: Wiley-Blackwell. ISBN 9780470085851.
- ^ "Ensembl's genome annotation pipeline online documentation". Arhivirano s originala, 5. 3. 2016.
- ^ Gupta, Nitin; Stephen Tanner; Navdeep Jaitly; Joshua N Adkins; Mary Lipton; Robert Edwards; Margaret Romine; Andrei Osterman; Vineet Bafna; Richard D Smith; Pavel A Pevzner (septembar 2007). "Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation". Genome Research. 17 (9): 1362–1377. doi:10.1101/gr.6427907. ISSN 1088-9051. PMC 1950905. PMID 17690205.
- ^ ENCODE Project Consortium (2011). Becker PB (ured.). "A User's Guide to the Encyclopedia of DNA Elements (ENCODE)". PLOS Biology. 9 (4): e1001046. doi:10.1371/journal.pbio.1001046. PMC 3079585. PMID 21526222.
- ^ McVean, G. A.; Abecasis, D. M.; Auton, R. M.; Brooks, G. A. R.; Depristo, D. R.; Durbin, A.; Handsaker, A. G.; Kang, P.; Marth, E. E.; McVean, P.; Gabriel, S. B.; Gibbs, R. A.; Green, E. D.; Hurles, M. E.; Knoppers, B. M.; Korbel, J. O.; Lander, E. S.; Lee, C.; Lehrach, H.; Mardis, E. R.; Marth, G. T.; McVean, G. A.; Nickerson, D. A.; Schmidt, J. P.; Sherry, S. T.; Wang, J.; Wilson, R. K.; Gibbs (Principal Investigator), R. A.; Dinh, H.; et al. (2012). "An integrated map of genetic variation from 1,092 human genomes". Nature. 491 (7422): 56–65. Bibcode:2012Natur.491...56T. doi:10.1038/nature11632. PMC 3498066. PMID 23128226.
- ^ Dunham, I.; Bernstein, A.; Birney, S. F.; Dunham, P. J.; Green, C. A.; Gunter, F.; Snyder, C. B.; Frietze, S.; Harrow, J.; Kaul, R.; Khatun, J.; Lajoie, B. R.; Landt, S. G.; Lee, B. K.; Pauli, F.; Rosenbloom, K. R.; Sabo, P.; Safi, A.; Sanyal, A.; Shoresh, N.; Simon, J. M.; Song, L.; Trinklein, N. D.; Altshuler, R. C.; Birney, E.; Brown, J. B.; Cheng, C.; Djebali, S.; Dong, X.; et al. (2012). "An integrated encyclopedia of DNA elements in the human genome". Nature. 489 (7414): 57–74. Bibcode:2012Natur.489...57T. doi:10.1038/nature11247. PMC 3439153. PMID 22955616.
- ^ Huss, Jon W.; Orozco, C; Goodale, J; Wu, C; Batalov, S; Vickers, TJ; Valafar, F; Su, AI (2008). "A Gene Wiki for Community Annotation of Gene Function". PLOS Biology. 6 (7): e175. doi:10.1371/journal.pbio.0060175. PMC 2443188. PMID 18613750.