Ensembl projekt genomskih podataka

Ensembl projekt baze genomskih podataka je naučni projekt u Evropskom institutu za bioinformatiku, koji je pokrenut 1999., kao odgovor na skori završetak Projekt ljudskog genoma.[2] Cilj Ensembla je osiguravanje centraliziranih resursa iz genetike, molekulske biologije i drugihblasti istraživanja genoma vrsta i modelnih organizama.[3] Ensembl je jedan od nekoliko dobro poznatih pretraživača genoma za pronalaženje genomskih informacija.

Ensembl projekt genomskih podataka
SkraćenicaEnsembl
Datum osnivanja1999.
VrstaBaza genomskih podataka
StatusAktivna
Glavno sjedišteEvropski institut za bioinformatiku
JezikEngleski
Generalni sekretarYates, et al. (2020)[1]
Br. volonteraNeograničen
Veb-sajtwww.ensembl.org

Slična baza podataka i pretraživači mogu se naći u NCBI i Univerzitetu u Kaliforniji, Santa Cruz (UCSC).

Pozadina

uredi

Ljudski genom sastoji se od tri milijarde baznih parova, što kodira približno 20.000–25.000 gena. Međutim, sam genom je od male koristi, osim ako se ne mogu utvrditi lokacije i odnosi pojedinih gena. Jedna od mogućnosti je ručna anotacija, pri čemu tim naučnika pokušava locirati gene koristeći eksperimentalne podatke iz naučnih časopisa i javnih baza podataka. Ipak, ovo je spor, mukotrpan zadatak. Alternativa, poznata kao automatizirana anotacija, je upotreba moći računara da izvrši kompleks obrazaca podudaranja proteina sa DNK.

U projektu Ensembl, podaci o sekvenci unose se u sistem anotacija gena (zbirka softverskih "cjevovoda" napisanih u Perlu) koji stvara skup predviđenih lokacija gena i sprema ih u bazu podataka MySQL za naknadnu analizu i prikaz. Ensembl čini ove podatke slobodno dostupnim svjetskoj istraživačkoj zajednici. Svi podaci i kodovi proizvedeni u projektu Ensembl dostupni su za preuzimanje,[4] and there is also a publicly accessible database server allowing remote access. In addition, the Ensembl website provides computer-generated visual displays of much of the data.

Vremenom se projekt proširio na dodatne vrste (uključujući ključne modelne organizme kao što su miš, Drosophila melanogaster i zebra-riba) kao i šire raspon genomskih podataka, uključujući genetičke varijacije i regulatorne karakteristike. Od aprila 2009. godine, sestrinski projekt, Ensembl Genomes proširio je djelokrug Ensembla na beskičmenjačke metazoa, biljke, gljive, bakterije i protiste, dok se originalni projekt i dalje fokusira na kičmenjake.

Prikazivanje genomskih podataka

uredi
 
Gen SGCB poravnat sa ljudskim genomom

Ključno za koncept Ensembla je sposobnost automatskog generiranja grafičkih prikaza poravnanja gena i drugih genomskih podataka prema referentnom genomu. Oni su prikazani kao podaci, a pojedinačni tragovi se mogu okretati, omogućavajući korisniku da prilagodi prikaz u skladu sa svojim istraživačkim interesima. Interfejs takođe omogućava korisniku da zumira regiju ili se kreće duž genoma u bilo kom smjeru.

Ostali prikazi daju podatke na različitim razinama razlučivosti, od cijelih kariotipova pa sve do tekstovnih prikaza sekvenci DNK i aminokiselina ili predstavljaju druge tipove prikaza, kao što su stablima slični genski (homolozi) u nizu vrsta. Grafiku dopunjuju tabelarni prikazi, a u mnogim slučajevima podaci se mogu izvesti direktno sa stranice u raznim standardnim formatima datoteka, kao što je FASTA.

Vanjski proizvedeni podaci mogu se također dodati na prikaz, prenošenjem odgovarajuće datoteke u jedan od podržanih formata, kao što su BAM, BED ili PSL.

Grafika se generira pomoću skupa prilagođenih Perlovih modula, zasnovanih na GD, standardnoj Perl biblioteci grafičkih prikaza.

Alternativni načini pristupa

uredi

Pored svoje web stranice, Ensembl nudi REST API i Perl API[5] (Interfejs za programiranje aplikacija), koji modelira biološke objekte poput gena i proteina, omogućavajući pisanje jednostavnih skripta za dobijanje podataka od interesa. Isti API interno koristi web interfejs za prikaz podataka. Podijeljen je u odjeljke poput osnovnog API-ja, API-a compara (za uporedne genomske podatke), API-ja varijacije (za pristup SNP-ima, SNV-ima, CNV-ima ...) i funkcionalnom genomičkom API-ju (za pristup regulatornim podacima). Web stranica Ensembl pruža opsežne informacije na linku kako instalirati i koristiti API.

Ovaj softver može se koristiti za pristup javnoj bazi podataka MySQL, izbjegavajući potrebu za preuzimanjem ogromnih skupova podataka. Korisnici čak mogu odabrati i preuzimanje podataka iz MySQL-a, pomoću direktnih SQL upita, ali to zahtijeva opsežno znanje o postojećoj shemi baze podataka.

Veliki skupovi podataka mogu se preuzeti pomoću alata za rudarenje podataka BioMart. Pruža web interfejs za preuzimanje skupova podataka pomoću složenih upita.

Na kraju, postoji FTP server koji se može koristiti za preuzimanje cijelih MySQL baza podataka, kao i nekih odabranih skupova podataka u drugim formatima.

Postojeće vrste

uredi

Anotirani genomi uključuju najpotpunije sekvencirane kičmenjake i odabrane modelne organizme. Svi su oni eukarioti, nema prokariota. Od 2008., uključuje:

Također pogledajte

uredi

Reference

uredi
  1. ^ Yates A. D.; et al. (januar 2020). "Ensembl 2020". Nucleic Acids Res. 48 (D1): D682–D688. doi:10.1093= /nar/gkz966 Provjerite vrijednost parametra |doi= (pomoć). PMC 7145704. PMID 31691826. Pristupljeno 31. 7. 2020.
  2. ^ Flicek P, Amode MR, Barrell D, et al. (novembar 2010). "Ensembl 2011". Nucleic Acids Res. 39 (Database issue): D800–D806. doi:10.1093/nar/gkq1064. PMC 3013672. PMID 21045057.
  3. ^ Flicek P, Aken BL, Ballester B, et al. (januar 2010). "Ensembl's 10th year". Nucleic Acids Res. 38 (Database issue): D557–62. doi:10.1093/nar/gkp972. PMC 2808936. PMID 19906699.
  4. ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Ian; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (januar 2017). "Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation". Database. 2017 (1): bax020. doi:10.1093/database/bax020. PMC 5467575. PMID 28365736.
  5. ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (februar 2004). "The Ensembl Core Software Libraries". Genome Research. 14 (5): 929–933. doi:10.1101/gr.1857204. PMC 479122. PMID 15123588.

Vanjski linkovi

uredi