GeneMark - GeneMark
Orijinal yazar (lar) | Mark Borodovsky'nin biyoinformatik grubu |
---|---|
Geliştirici (ler) | Gürcistan Teknoloji Enstitüsü |
İlk sürüm | 1993 |
İşletim sistemi | Linux , Windows ve Mac OS |
Lisans | Akademik, kar amacı gütmeyen veya ABD Hükümeti kullanımı için ücretsiz |
İnternet sitesi | opal.biology.gatech.edu/GeneMark |
GENEMARK kişilik bir aile için genel bir isimdir ab initio geliştirilen gen bulma programlarından Georgia Institute of Technology in Atlanta . 1993 yılında geliştirilen orijinal GeneMark, 1995 yılında Haemophilus influenzae'nin tamamen dizilenmiş ilk bakteri genomunun ek açıklaması için birincil gen tahmin aracı olarak ve 1996'da Methanococcus jannaschii'nin ilk archaeal genomu için kullanıldı . Algoritma , gen tahmininde standart hale gelen protein kodlayan DNA dizisinin homojen olmayan üç periyodik Markov zincir modellerini ve aynı anda iki DNA zincirinde gen tahminine Bayesci yaklaşımı tanıttı . Modellerin türe özgü parametreleri, bilinen tipteki (protein kodlayan ve kodlamayan) dizilerin eğitim setlerinden tahmin edildi. Algoritmanın ana adımı, belirli bir DNA parçası için, olası altı okuma çerçevesinin her birinde ( tamamlayıcı DNA dizisindeki üç çerçeve dahil) "protein kodlayan" ( genetik kodu taşıyan ) veya "kodlamayan" olmanın posterior olasılıklarını hesaplar. . Orijinal GeneMark (Biyoinformatikte HMM döneminden önce geliştirilmiştir) HMM benzeri bir algoritmadır; uygun şekilde tanımlanmış HMM için HMM teorisi arka kod çözme algoritmasında bilinen bir yaklaşım olarak görülebilir.
Prokaryotik gen tahmini
GeneMark.hmm algoritması (1998), kısa genleri ve gen başlangıcını bulmada gen tahmini doğruluğunu geliştirmek için tasarlanmıştır. Buradaki fikir, GeneMark'ta kullanılan Markov zincir modellerini , gizli durumlar arasındaki geçişler olarak resmi olarak yorumlanan kodlayan ve kodlamayan bölgeler arasındaki geçişle gizli bir Markov model çerçevesine entegre etmekti . Ek olarak, ribozom bağlanma bölgesi modeli, gen başlangıç tahmininin doğruluğunu artırmak için kullanıldı. Sonraki adım, kendi kendine eğitim gen tahmin aracı GeneMarkS'ın (2001) geliştirilmesi ile yapıldı. GeneMarkS, yeni prokaryotik genomik dizilerde gen tanımlaması için genomik topluluğu tarafından aktif olarak kullanılmaktadır. Homolog proteinler hakkındaki bilgileri gen tahminine entegre eden GeneMarkS uzantısı olan GeneMarkS +, prokaryotik genom açıklamaları için NCBI boru hattında kullanılır; boru hattı günde 2000'e kadar genoma açıklama ekleyebilir ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).
Metagenomlarda ve Metatransciptomlarda Sezgisel Modeller ve Gen Tahmini
GeneMark ve GeneMark.hmm algoritmalarının türe özgü parametrelerinin doğru tanımlanması, doğru gen tahminleri yapmak için anahtar koşuldur. Bununla birlikte, soru, viral genom çalışmaları ile motive edilerek, gen tahmini için parametrelerin geniş genomik bağlamı olmayan oldukça kısa bir dizide nasıl tanımlanacağıyla ortaya çıktı. 1999'da bu soru, G + C içeriği dizisinin fonksiyonları olarak parametrelerin "sezgisel yöntem" hesaplamaları geliştirilerek ele alındı. 2004 yılından beri sezgisel yaklaşımla oluşturulan modeller, metagenomik dizilerde genlerin bulunmasında kullanılmaktadır. Daha sonra, birkaç yüz prokaryotik genomun analizi, 2010'da daha gelişmiş sezgisel yöntemin (MetaGeneMark'ta uygulandı) geliştirilmesine yol açtı.
Ökaryotik gen tahmini
Ökaryotik genomlarda , intronlar ve intergenik bölgeler ile ekson sınırlarının modellenmesi, HMM'lerin kullanımıyla ele alınan büyük bir zorluk sunar. Ökaryotik GeneMark.hmm'nin HMM mimarisi, her iki DNA zincirinde yer alan ilk, iç ve terminal eksonlar, intronlar , intergenik bölgeler ve tek ekson genleri için gizli durumları içerir . İlk ökaryotik GeneMark.hmm, algoritma parametrelerinin tahmini için eğitim setlerine ihtiyaç duyuyordu. 2005 yılında kendi kendine eğitim algoritması GeneMark-ES'nin ilk sürümü geliştirildi. 2008'de GeneMark-ES algoritması, özel bir intron modeli ve daha karmaşık kendi kendine eğitim stratejisi geliştirilerek mantar genomlarını kapsayacak şekilde genişletildi. Daha sonra 2014 yılında GeneMark-ET, eşleştirilenlerden genom birleştirilmemiş RNA-Seq okumalarına kadar olan bilgilerle kendi kendine eğitimi artıran algoritma aileye eklendi. Ökaryotik transkriptlerde gen tahmini, yeni algoritma GeneMarkS-T (2015) ile yapılabilir.
GeneMark Ailesi Gen Tahmin Programları
Bakteriler, Arkeler
- GeneMark
- GeneMarkS
- GeneMarkS +
Metagenomlar ve Metatranscriptomes
- MetaGeneMark
Ökaryotlar
- GeneMark
- GeneMark.hmm
- GeneMark-ES: Ökaryotik genomlar için, denetimsiz ab initio modunda otomatik eğitim gerçekleştiren gen bulma algoritması.
- GeneMark-ET: GeneMark-ES'yi RNA-Seq okuma hizalamalarını kendi kendine eğitim prosedürüne entegre eden yeni bir yöntemle güçlendirir.
- GeneMark-EX: çeşitli boyut, yapı ve kalitedeki girdi verilerinde güçlü performans gösteren, genom notasyonu için tam otomatik entegre bir araçtır. Algoritma, girdi verilerinin hacmi, kalitesi ve özelliklerine, RNA-sekans veri kümesinin boyutuna, türlerin filogenetik konumuna, montaj parçalanma derecesine bağlı olarak parametre tahminine yaklaşımı seçer. HMM mimarisini söz konusu genomun özelliklerine uyacak şekilde otomatik olarak değiştirebilir ve transkript ve protein bilgilerini gen tahmini sürecine entegre edebilir.
Virüsler, fajlar ve plazmitler
- Sezgisel modeller
RNA-Seq okumasından derlenen transkriptler
- GeneMarkS-T
Ayrıca bakınız
Referanslar
- Borodovsky M. ve McIninch J. " GeneMark: her iki DNA zinciri için paralel gen tanıma. " Computers & Chemistry (1993) 17 (2): 123-133.
- Lukashin A. ve Borodovsky M. " GeneMark.hmm: gen bulma için yeni çözümler. " Nucleic Acids Research (1998) 26 (4): 1107-1115. doi : 10.1093 / nar / 26.4.1107
- Besemer J. ve Borodovsky M. " Gen bulgusu için model türetmeye sezgisel yaklaşım. " Nucleic Acids Research (1999) 27 (19): 3911–3920. doi : 10.1093 / nar / 27.19.3911
- Besemer J., Lomsadze A. ve Borodovsky M. " GeneMarkS: mikrobiyal genomlarda gen başlangıçlarının tahmini için kendi kendine eğitim yöntemi. Düzenleyici bölgelerde sekans motiflerini bulmanın çıkarımları. " Nucleic Acids Research (2001) 29 (12): 2607 -2618. doi : 10.1093 / nar / 29.12.2607
- Mills R., Rozanov M., Lomsadze A., Tatusova T. ve Borodovsky M. " Komple viral genomlarda gen açıklamasının iyileştirilmesi. " Nucleic Acids Research (2003) 31 (23): 7041-7055. doi : 10.1093 / nar / gkg878
- Besemer J. ve Borodovsky M. " GeneMark: prokaryotlarda, ökaryotlarda ve virüslerde gen bulmaya yönelik web yazılımı. " Nucleic Acids Research (2005) 33 (Web Sunucusu Yayını): W451-454. doi : 10.1093 / nar / gki487
- Lomsadze A., Ter-Hovhannisyan V., Chernoff Y. ve Borodovsky M. " Kendi kendine eğitim algoritması ile yeni ökaryotik genomlarda gen tanımlama. " Nucleic Acids Research (2005) 33 (20): 6494-6506. doi : 10.1093 / nar / gki937
- Zhu W., Lomsadze A. ve Borodovsky M. " Metagenomik sekanslarda Ab initio gen tanımlaması. " Nucleic Acids Research (2010) 38 (12): e132. doi : 10.1093 / nar / gkq275