U jenom istraživanju iz 2004., kao osnovu za ljudski transkriptom i funkcionalnu genomiku, velika grupa autora kreirala je zbirku sekvenciranih ljudskih cDNK duž Japana. Utvrdili su potpunu sekvencu od 21.243 odabrana klona i otkrili da je 14.490 cDNK (10.897 klastera) jedinstveno za japansku kolekciju. Čini se da je otprilike polovica njih (5.416) bila kodirajuća sekvenca za proteine. Od toga 1.999 klastera nije predviđeno računarskim metodima. Distribucija GC sadržaja nepredviđenih cDNK imala je vrhunac od približno 58% u poređenju sa vrhom od približno 42% za predviđene cDNK.
Stoga se čini da postoji mala pristranost prema transkriptima bogatim parom GC u postojećim postupcima predviđanja gena. Ostatak cDNK jedinstvenih za kolekciju (5.481) nije sadržavao očigledne otvorene okvire čitanja (ORF-ove), pa su stoga kandidatne nekodirajuće RNK. Otprilike jedna četvrtina njih (1.378) pokazala je jasan obrazac prerade. Distribucija GC sadržaja nekodirajućih cDNK bila je uska i imala je vrhunac od približno 42%, relativno nisko u poređenju sa distribucijom kodirajuće cDNK.[6]
^Ota T., Suzuki Y., Nishikawa T., Otsuki T., Sugiyama T., Irie R., Wakamatsu A., Hayashi K., Sato H., Nagai K., Kimura K., Makita H., Sekine M., Obayashi M., Nishi T., Shibahara T., Tanaka T., Ishii S., Yamamoto J., Saito K., Kawai Y., Isono Y., Nakamura Y., Nagahari K., Murakami K., Yasuda T., Iwayanagi T., Wagatsuma M., Shiratori A., Sudo H., Hosoiri T., Kaku Y., Kodaira H., Kondo H., Sugawara M., Takahashi M., Kanda K., Yokoi T., Furuya T., Kikkawa E., Omura Y., Abe K., Kamihara K., Katsuta N., Sato K., Tanikawa M., Yamazaki M., Ninomiya K., Ishibashi T., Yamashita H., Murakawa K., Fujimori K., Tanai H., Kimata M., Watanabe M., Hiraoka S., Chiba Y., Ishida S., Ono Y., Takiguchi S., Watanabe S., Yosida M., Hotuta T., Kusano J., Kanehori K., Takahashi-Fujii A., Hara H., Tanase T.-O., Nomura Y., Togiya S., Komai F., Hara R., Takeuchi K., Arita M., Imose N., Musashino K., Yuuki H., Oshima A., Sasaki N., Aotsuka S., Yoshikawa Y., Matsunawa H., Ichihara T., Shiohata N., Sano S., Moriya S., Momiyama H., Satoh N., Takami S., Terashima Y., Suzuki O., Nakagawa S., Senoh A., Mizoguchi H., Goto Y., Shimizu F., Wakebe H., Hishigaki H., Watanabe T., Sugiyama A., Takemoto M., Kawakami B., Yamazaki M., Watanabe K., Kumagai A., Itakura S., Fukuzumi Y., Fujimori Y., Komiyama M., Tashiro H., Tanigami A., Fujiwara T., Ono T., Yamada K., Fujii Y., Ozaki K., Hirao M., Ohmori Y., Kawabata A., Hikiji T., Kobatake N., Inagaki H., Ikema Y., Okamoto S., Okitani R., Kawakami T., Noguchi S., Itoh T., Shigeta K., Senba T., Matsumura K., Nakajima Y., Mizuno T., Morinaga M., Sasaki M., Togashi T., Oyama M., Hata H., Watanabe M., Komatsu T., Mizushima-Sugano J., Satoh T., Shirai Y., Takahashi Y., Nakagawa K., Okumura K., Nagase T., Nomura N., Kikuchi H., Masuho Y., Yamashita R., Nakai K., Yada T., Nakamura Y., Ohara O., Isogai T., Sugano S. (2004): Complete sequencing and characterization of 21,243 full-length human cDNAs. Nat Genet, 36 (1): 40-5; pmid: 14702039; doi: 10.1038/ng1285