Projekt konsenzusnog kodiranja sekvenci

Projekt konsenzusnog kodiranja sekvenci (CCDS) zajednički je napor da se održi skup podataka o regionima koje kodiraju proteine koji su identično označeni na skupovima genoma čovjeka i miša. Projekt CCDS prati identične proteinske zapis na referentnom mišjem i ljudskom genomu, sa stabilnim identifikatorom (CCDS ID) i osigurava da ih dosljedno predstavlja (NCBI) , Ensembl i UCSC pretraživač genoma. Integritet CCDS skupa podataka održava se strogim testiranjem sigurnosti kvaliteta i u toku ručnog održavanja.[1]

Projekt CCDS
SkraćenicaCCDS
Datum osnivanja2009.
VrstaStandardizacija genomskih podataka
StatusAktivna, izdanje CCDS 21
CiljKonvergencija prema standardnom skupu zapisa o genima
Glavno sjedišteNacionalni centar za informacije o biotehnologiji
Evropski institut za bioinformatiku
Kalifornijski Univerzitet, Santa Cruz
Institut Wellcome Trust Sanger
JezikEngleski
Br. volonteraNeograničen
Veb-sajthttps://www.ncbi.nlm.nih.gov/projects/CCDS/CcdsBrowse.cgi

Motivacija i podloga uredi

Biološka i biomedicinska istraživanja zasnivaju se na preciznoj i dosljednoj anotaciji gena i njihovih proizvoda na sklopovima genoma. Referentne anotacije genoma dostupne su iz različitih izvora, svaka sa svojim nezavisnim ciljevima i politikama, što rezultira njihovim određenim varijacijama.

Projekt CCDS uspostavljen je kako bi se identificirao zlatni standardni skup genskih anotacija koje kodiraju proteine i koje su identificirane na sklopovima referentnih genoma čovjeka i miša u grupama koje su sudjelovale. Genetički setovi CCDS-a, do kojih se došlo konsenzusom različitih partnera [1] sada se sastoje od preko 18.000 ljudskih i preko 20.000 mišjih gena. CCDS skup podataka sve više predstavlja više događaja alternativni oblici prerade RNK sa svakim novim izdanjem.[2]

Učesnici uredi

Grupe učesnika prikupljanja bilješki koje uključuju:

Ručno bilježenje pruža
  • Referentna sekvenca (RefSeq) na NCBI
  • Analiza i zapisi o genima ljudi i kičmenjaka (HAVANA) na Institutu „Wellcome Trust Sanger“.

Definiranje CCDS genskih setova uredi

Konsenzus je definiran kao regije za kodiranje proteina, koje se slažu na startnom kodonu, stop kodonu i spojnim preradama i za koje predviđanje ispunjava mjerila osiguranja kvaliteta. Kombinaciju ručnih i automatiziranih bilješki genoma napisali su (NCBI) i Ensembl (koji uključuje ručne HAVANA bilješke), koje se uspoređuju, kako bi se identificirale napomene s odgovarajućim genomskim koordinatama.

Testiranje osiguranja kvaliteta uredi

Kako bi se osiguralo da su CDS visokokvalitetni, provode se testovi višestrukog osiguranja kvaliteta (QA) . Svi testovi se izvode prateći korak upoređivanja napomena svake ugradnje u CCDS i neovisni su o pojedinačnim QA testovima grupe zapisa izvršenih prije njihovog upoređivanja.

Primjeri tipova testova CCDS QA, izvedenih prije prihvatanja CCDS kandidatskog podatka[2]
Test QA Svrha testa
Podložno NMD Provjerava transkripte koji mogu biti podložni propadanju zbog besmislica (nonsens-zapisa: NMD
Nizak kvalitet Provjera niske sklonost kodiranju
Neonsenzusni sajtovi za preradu RNK Provjere nekanonskih mjesta prerade
Predviđeni pseudogen Provjera UCSC-a za gena koji su predvivi pseudogeni
Prekratki Provjera transkripata ili proteina koji su neobično kratki, obično <100 aminokiselina
Ortolog nije pronađen/nije konzerviran Provjera gena koji nisu konzervirani i/ili nisu u HomoloGene-klasteru
CDS startuju ili zaustavljaju bez poravnanja Provjera startnih ili stop kodona u referentnoj sekvenci genoma
Unutrašni stop Provjera prisutnost internog stop kodona u genomskoj sekvenci
NCBI: Razliirta dužina Ensembllovog protein Provjera je li protein kodiran NCBI RefSeq iste dužine kao i EBI / WTSI protein
NCBI:Ensembl niskog identiteta Provjera > 99% ukupnog identiteta između NCBI i EBI / WTSI proteina
Diskontinuirani gen Provjera da li GeneID više nije validan

Anotacije koje ne uspiju proći QA testove, ručno se provjeravaju, što može poboljšati rezultate ili donijeti odluku o odbijanju podudaranja zapisa na temelju neuspjeha u QA (provjeri kvaliteta).

Proces recenziranja uredi

Baza podataka CCDS jedinstvena je po tome što postupak recenzija mora provoditi više suradnika, a prije bilo kakvih promjena mora se postići konsenzus. To je omogućeno sistemom koordinacije suradnika koji uključuje tok radnog procesa i forume za analizu i diskusiju. Baza podataka CCDS ima internu web stranicu koja služi u više svrha, uključujući komunikaciju kustosa, glasanje suradnika, pružanje posebnih izvještaja i praćenje statusa CCDS reprezentacija. Kada član CCDS grupe koji surađuje identificira CCDS ID koji će možda trebati pregledati, koristi se postupak glasanja za odlučivanje o konačnom ishodu.

Izazovi nadgledanja i anotacijske smjernice uredi

Nonsens-posredovano propadanje (NMD): NMD je najmoćniji nadzorni proces iRNK. Ono uklanja oštećenu iRNK prije nego što se može prevesti u protein.[3] Ovo je važno jer ako se prevede oštećena iRNK, krnji protein može uzrokovati bolest. Predloženi su različiti mehanizmi za objašnjenje NMD; jedan je model kompleks spojeva egzona (EJC). U ovom modelu, ako je stop kodon > 50 nt uzvodno od posljednjeg spoja egzon-egzon, pretpostavlja se da je transkript kandidat za NMD. Saradnici CCDS-a koristite konzervativni metod, zasnovan na EJC modelu, za pregled transkripata iRNK. Svi transkripti za koje je utvrđeno da su kandidati za NMD, izuzeti su iz CCDS skupa podataka, osim u sljedećim situacijama:

  1. procjenjuje se da su svi transkripti na određenom lokusu kandidati NMD, ali ranije je poznato da je lokus regija koja kodira proteine;
  2. postoje eksperimentalni dokazi koji sugeriraju da se funkcionalni protein proizvodi iz transkripta kandidata NMD.

Prije su RefSeq i HAVANA kandidatski transkripti NMD smatrani transkriptima koji kodiraju proteine, a time su i ovi transkripti kandidata za NMD predstavljeni u CCDS skupu podataka. Grupa RefSeq i projekt HAVANA naknadno su revidirali svoje politike zapisa

Multipla početna stranica u translacijskom okviru : Više inicijatora doprinosi inicijaciji translacije, kao što su uzvodno otvoreni okvir čitanja (uORF), sekundarna struktura i kontekst sekvence oko mjesta inicijacije prijevoda. Uobičajena početna lokacija kod kičmenjaka definirana je u Kozakovom konsenzusnom sekvencom: (GCC) GCCACCAUGG. Sekvenca u zagradama (GCC), motiv je s nepoznatim biološkim uticajem.[4] Unutar Kozakove konsenzusne sekvence ostoje varijacije, kao što su G ili A tri uočena uzvodna nukleotida (na položaju -3) od AUG. Baze između položaja –3 i +4 Kozakove sekvence imaju najznačajniji uticaj na translacijsku efikasnost. Stoga je sekvenca (A/G) NNAUGG definirana kao jak Kozakov signal u projektu CCDS.

Prema mehanizmu skeniranja, mala ribosomska podjedinica može inicirati translaciju od prvog postignutog početnog kodona. Postoje izuzeci od modela skeniranja:

  1. kada mjesto inicijacije nije okruženo jakim Kozakovim signalom, što rezultira propuštanjem skeniranja. Na taj način, ribosom preskače ovaj AUG i započinje translaciju sa početne stranice nizvodno;
  2. kada kraći ORF može dozvoliti da ribosom ponovo pokrene prevođenje nizvodno od ORF-a.

Prema smjernicama za bilježenje CCDS-a, najduži ORF mora biti označen, osim ako postoje eksperimentalni dokazi da se interno početno mjesto koristi za pokretanje prevođenja. Pored toga, drugi tipovi novih podataka, poput onih za profiliranje ribosoma,[5]mogu se koristiti za identifikaciju početnih kodona. CCDS skup podataka bilježi jedno mjesto pokretanja translacije po CCDS ID-u. Bilo koja alternativna početna mjesta može se koristiti za translaciju i bit će navedena u javnom zapisu CCDS-a.

Uzvodni otvoreni okviri čitanja: Inicijacijski kodoni AUG smješteni unutar vođa transkripata poznati su kao uzvodni AUG (uAUG). Ponekad su uAUG povezani s u ORF. U ORF-u nalazi se u približno 50% transkripata ljudi i miša.[6] Postojanja u ORF-u su još jedan izazov za CCDS skup podataka. Mehanizam skeniranja za iniciranje prevođenja sugerira da se male ribosomske podjedinice (40S) vežu na 5 'kraju novonastalog iRNK transkripta i skeniraju za prvi AOD startni kodon. To je moguće ako se prvo prepozna uAUG, a zatim prevede odgovarajući uORF. Prevod u ORF-u mogao bi biti kandidat NMD, iako su studije pokazale da neki u ORF mogu izbjeći NMD. Prosječna granica veličine za u ORF-ove koji će izbjeći NMD je približno 35 aminokiselina.[1][7] Također se sugerira da ORF inhibiraju translaciju gena nizvodno, zarobljavanjem inicijacijskog kompleksa ribosoma i uzrokujući disocijaciju ribosoma od iRNK prije nego što stigne do regija koje kodiraju proteine. Do sada, ni jedna studija nije izvijestila o globalnom uticaju u ORF-u na translacijsku regulaciju.

Sadašnje smjernice za zapise CCDS-a omogućavaju uključivanje transkripata iRNK koji se sadrže u ORF-ovima, ako ispunjavaju sljedeća dva biološka zahtjeva:

  1. Transkript iRNK ima jak Kozakov signal;
  2. Transkript iRNK je ili ≥ 35 aminokiselina ili se preklapa sa primarnim otvorenim okvirom čitanja.

Pročitani transkripti: Pročitani transkripti poznati su i kao spojeni gen ili kotranskribirani geni. Pročitani transkripti definirani su kao transkripti koji kombiniraju barem dio jednog egzona iz svakog od dva ili više različitih poznatih (partnerskih) gena koji na istom hromosomu u istoj orijentaciji.[8] Biološka funkcija pročitanih transkripata i njihovih odgovarajućih molekula proteina ostaje nepoznata. Međutim, definicija čitavog gena u CCDS skupu podataka glasi da pojedinačni partnerski geni moraju biti različiti, a pročitani transkripti moraju dijeliti ≥ 1 egzon (ili ≥ 2 mjesta prerade, osim u slučaju zajedničkog terminalnog egzona) sa svakim od različitih kraćih lokusa. Transkripti se ne smatraju pročitanim u sljedećim okolnostima:

  1. kada se transkripti proizvode iz preklapajućim genima, ali ne dijele iste lokacije za preradu;
  2. kada se transkripti prevode iz gena koji imaju međusobno ugniježđene stukture. U ovom slučaju, saradnici CCDS-a i HGNC složili su se da se pročitani transkript predstavlja kao zasebno mjesto.

Kvalitet referentne sekvence genoma: Kako je CCDS skup podataka izgrađen tako da predstavlja genomske zapisee čovjeka i miša, problemi s kvalitetom sekvenci referentnog genoma čovjeka i miša postaju još jedan izazov. Problemi s kvalitetom nastaju kada se referentni genom pogrešno sklopi. Zato rastavljeni genom može sadržavati preuranjene stop kodone, indeks sa pomicanjem okvira ili vjerovatno polimorfne pseudogene. Kada se utvrde ovi problemi s kvalitetom, saradnici CCDS-a prijavljuju ih referentnom konzorciju za genom, koji istražuje i vrši potrebne ispravke.

Pristup CCDS podacima uredi

Projekt CCDS dostupan je na stranici skupa podataka NCBI CCDS(ovdje), koji pruža FTP veze za preuzimanje i interfejs upita za prikupljanje informacija o CCDS sekvencama i lokacijama. CCDS izvještaji mogu se dobiti korištenjem interfejsa za upit, koje se nalazi na vrhu stranice skupa podataka CCDS-a. Korisnici mogu odabrati različite tipove identifikatora kao što su CCDS ID, ID gena, simbol gena, ID nukleotida i ID proteina za traženje određenih CCDS informacija. Izvještaji CCDS (slika) predstavljeni su u obliku tabele, pružajući veze do određenih resursa, poput izvještaja o povijesti, Entrez gena [9] ili ponovnogo upisa CCDS skupa podataka. Tabela identifikatora sekvence prikazuje informacije o transkriptima u VEGA, Ensembl i Blink. Tabela lokacija na hromosomima uključuje genomske koordinate za svaki pojedinačni egzon određene kodirajuće sekvence. Također nudi veze do nekoliko različitih preglednika genoma, koji omogućavaju vizualiziranje strukture kodirajuće regije. Tačne nukleotidne i proteinske sekvence određene kodirajuće sekvence također su prikazane u odjeljku CCDS za podatke o sekvencama.

 
Snimak zaslona skupa podataka CCDS koji prikazuje izvještaj o proteinu Itm2a (CCDS 30349)

Sadašnje aplikacije uredi

CCDS skup podataka sastavni je dio projekta GENCODE označavanja gena[10] i koristi se kao standard za visokokvalitetno kodiranje definicije egzona u raznim poljima istraživanja, uključujući kliničke studije, velike epigenomske studije, egzomne projekte i dizajn egzonske sekvence. Zbog konsenzusne anotacije CCDS egzona nezavisnih grupa za anotaciju, egzomski projekti su posebno smatrali CCDS kodirajuće egzone pouzdanim ciljevima za nizvodna ispitivanja (npr. za detekciju jednonukleotidnih varijanti), a ovi egzoni korišteni su kao kodirajuća regija ciljeva u komercijalno dostupnim egzomskim setovima.[11]

Historija izdanja CCDS-a uredi

Veličina CCDS skupova podataka nastavila je da se povećava, kako ažuriranjem računarskih zapisa genoma, koje integriraju nove skupove podataka dostavljene u Bazi podataka za međunarodnu saradnju o nukleotidnoj sekvenci (International Nucleotide Sequence Database Collaboration (INSDC), tako i tokom tekuće provjere aktivnosti koje dopunjuju ili poboljšavaju tu anotaciju. Slijedeća tabela sažima ključnu statistiku za svaku izradu CCDS-a, gdje su Javni CCDS ID-ovi svi oni koji nisu bili na pregledu ili na čekanju do ažuriranja ili povlačenja na datum objavljivanja.

Sažetak statističkih podataka za prošla izdanja CCDS-a
Izdanje Vrsta Naziv sklopa Broj javnih CCDS ID-ova Broj ID-ova Sadašnji podatak
1 Homo sapiens NCBI35 13,740 12,950 Mar 14, 2007
2 Mus musculus MGSCv36 13,218 13,012 Nov 28, 2007
3 Homo sapiens NCBI36 17,494 15,805 Maj 1, 2008
4 Mus musculus MGSCv37 17, 082 16,888 Jan 24, 2011
5 Homo sapiens NCBI36 19,393 17,053 Sep 2, 2009
6 Homo sapiens GRCh37 22,912 18,174 Apr 20, 2011
7 Mus musculus MGSCv37 21,874 19,507 Avg 14, 2012
8 Homo sapiens GRCh37.p2 25,354 18,407 Sep 6, 2011
9 Homo sapiens GRCh37.p5 26,254 18,474 Okt 25, 2012
10 Mus musculus GRCm38 22,934 19,945 Avg 5, 2013
11 Homo sapiens GRCh37.p9 27,377 18,535 Apr 29, 2013
12 Homo sapiens GRCh37.p10 27,655 18,607 Okt 24, 2013
13 Mus musculus GRCm38.p1 23,010 19,990 Apr 7, 2014
14 Homo sapiens GRCh37.p13 28,649 18,673 Nov 29, 2013
15 Homo sapiens GRCh37.p13 28,897 18,681 Avg 7, 2014
16 Mus musculus GRCm38.p2 23,835 20,079 Sep 10, 2014
17 Homo sapiens GRCh38 30,461 18,800 Sep 10, 2014
18 Homo sapiens GRCh38.p2 31,371 18,826 Maj 12, 2015
19 Mus musculus GRCm38.p3 24,834 20,215 Juli 30, 2015
20 Homo sapiens GRCh38.p7 32,524 18,892 Sep 8, 2016
21 Mus musculus GRCm38.p4 25,757 20,354 Dec 8, 2016

Kompletna statistika izdanja može se naći na službenoj web stranici CCDS-a na njihovom sajtu Releases & Statistics .

Budući izgledi uredi

Dugoročni ciljevi uključuju dodavanje atributa koji pokazuju gdje je anotacija transkripta također identična (uključujući UTR) i ukazivanje na varijante prerade različitim UTR-ova koji imaju isti CCDS ID . Također se očekuje da će, kako potpuniji i kvalitetniji podaci o sekvencama genoma postaju dostupni za druge organizme, anotacije tih organizama možda biti u opsegu za predstavljanje CCDS-a.

Skup CCDS-a postat će cjelovitiji, kako se neovisne grupe provjerivača dogovore o slučajevima u kojima se u početku razlikuju, kako se javlja dodatna eksperimentalna provjera slabo podržanih gena i kako se metode automatskog bilježenja nastavljaju poboljšavati. Komunikacija između CCDS grupa za suradnju je u toku i riješit će razlike i identificirati usavršavanja između ciklusa ažuriranja CCDS-a. Očekuje se da će se ažuriranja ljudskih gena događati otprilike svakih šest mjeseci, a za miševe se izdaju svake godine.

Također pogledajte uredi

Reference uredi

  1. ^ a b c Harte, RA; Farrell, CM; Loveland, JE; Suner, MM; Wilming, L; Aken, B; Barrell, D; Frankish, A; Wallin, C; Searle, S; Diekhans, M; Harrow, J; Pruitt, KD (2012). "Tracking and coordinating an international curation effort for the CCDS project". Database. 2012: bas008. doi:10.1093/database/bas008. PMC 3308164. PMID 22434842.
  2. ^ a b Farrell, CM; O'Leary, NA; Harte, RA; Loveland, JE; Wilming, LG; Wallin, C; Diehans, M; Barrell, D; Searle, SM; Aken, B; Hiatt, SM; Frankish, A; Suner, MM; Rajput, B; Steward, CA; Brown, GR; Bennet, R; Murphy, M; Wu, W; Kay, MP; Hart, J; Rajan, J; Weber, J; Snow, C; Riddick, LD; Hunt, T; Webb, D; Thomas, M; Tamez, P; Rangwala, SH; McGarvey, KM; Pujar, S; Shkeda, A; Mudge, JM; Gonzale, JM; Gilbert, JG; Trevaion, SJ; Baetsch, R; Harrow, JL; Hubbard, T; Ostell, JM; Haussler, D; Pruitt, KD (2014). "Current status and new features of the Consensus Coding Sequence database". Nucleic Acids Res. 42 (D1): D865–D872. doi:10.1093/nar/gkt1059. PMC 3965069. PMID 24217909.
  3. ^ Alberts, B; Johnson, A; Lewis, J; Raff, M; Roberts, K; Walter, P (2002). Molecular Biology of the Cell 5th edn. New York: Garland Science.
  4. ^ Kozak, M (2002). "Pushing the limits of the scanning mechanism for initiation of translation". Gene. 299 (1–2): 1–34. doi:10.1016/S0378-1119(02)01056-9. PMC 7126118. PMID 12459250.
  5. ^ Ingolia, NT; Brar, GA; Rouskin, S; McGeachy, AM; Weissman, JS (2014). "Genome-wide Annotation and Quantitation of Translation by Ribosome Profiling". Curr. Protoc. Mol. Biol. Chapter 4: Unit–4.18. doi:10.1002/0471142727.mb0418s103. ISBN 9780471142720. PMC 3775365. PMID 23821443.
  6. ^ Calvo, SE; Pagliarni, DJ; Mootha, VK (2009). "Upstream open reading frames cause widespread reduction of protein expression and are polymorphic among humans" (PDF). Proc. Natl. Acad. Sci. U.S.A. 106 (18): 7507–12. Bibcode:2009PNAS..106.7507C. doi:10.1073/pnas.0810916106. PMC 2669787. PMID 19372376.
  7. ^ Silva, AL; Pereira, FJC; Morgado, A; Kong, J; Martins, R; Faustino, P; Liebhaber, SA; Romao, L (2006). "The canonical UPF1-dependent nonsense-mediated mRNA decay is inhibited in transcripts carrying a short open reading frame independent of sequence context". RNA. 12 (12): 2160–70. doi:10.1261/rna.201406. PMC 1664719. PMID 17077274.
  8. ^ Prakash, Tulika; Sharma, Vineet K.; Adati, Naoki; Ozawa, Ritsuko; Kumar, Naveen; Nishida, Yuichiro; Fujikake, Takayoshi; Takeda, Tadayuki; Taylor, Todd D.; Michalak, Pawel (12 October 2010). "Expression of Conjoined Genes: Another Mechanism for Gene Regulation in Eukaryotes". PLOS ONE. 5 (10): e13284. Bibcode:2010PLoSO...513284P. doi:10.1371/journal.pone.0013284. PMC 2953495. PMID 20967262.
  9. ^ Maglott, D.; Ostell, J.; Pruitt, K. D.; Tatusova, T. (28 November 2010). "Entrez Gene: gene-centered information at NCBI". Nucleic Acids Res. 39 (Database): D52–D57. doi:10.1093/nar/gkq1237. PMC 3013746. PMID 21115458.
  10. ^ Harrow, J.; Frankish, A.; Gonzalez, J. M.; Tapanari, E.; Diekhans, M.; Kokocinski, F.; Aken, B. L.; Barrell, D.; Zadissa, A.; Searle, S.; Barnes, I.; Bignell, A.; Boychenko, V.; Hunt, T.; Kay, M.; Mukherjee, G.; Rajan, J.; Despacio-Reyes, G.; Saunders, G.; Steward, C.; Harte, R.; Lin, M.; Howald, C.; Tanzer, A.; Derrien, T.; Chrast, J.; Walters, N.; Balasubramanian, S.; Pei, B.; Tress, M.; Rodriguez, J. M.; Ezkurdia, I.; van Baren, J.; Brent, M.; Haussler, D.; Kellis, M.; Valencia, A.; Reymond, A.; Gerstein, M.; Guigo, R.; Hubbard, T. J. (5 September 2012). "GENCODE: The reference human genome annotation for The ENCODE Project". Genome Res. 22 (9): 1760–1774. doi:10.1101/gr.135350.111. PMC 3431492. PMID 22955987.
  11. ^ Parla, Jennifer S; Iossifov, Ivan; Grabill, Ian; Spector, Mona S; Kramer, Melissa; McCombie, W Richard (2011). "A comparative analysis of exome capture". Genome Biol. 12 (9): R97. doi:10.1186/gb-2011-12-9-r97. PMC 3308060. PMID 21958622.

Vanjski linkovi uredi