GeneMark - GeneMark

GeneMark
Orijinal yazar (lar) Mark Borodovsky'nin biyoinformatik grubu
Geliştirici (ler) Gürcistan Teknoloji Enstitüsü
İlk sürüm 1993
İşletim sistemi Linux , Windows ve Mac OS
Lisans Akademik, kar amacı gütmeyen veya ABD Hükümeti kullanımı için ücretsiz
İnternet sitesi opal.biology.gatech.edu/GeneMark

GENEMARK kişilik bir aile için genel bir isimdir ab initio geliştirilen gen bulma programlarından Georgia Institute of Technology in Atlanta . 1993 yılında geliştirilen orijinal GeneMark, 1995 yılında Haemophilus influenzae'nin tamamen dizilenmiş ilk bakteri genomunun ek açıklaması için birincil gen tahmin aracı olarak ve 1996'da Methanococcus jannaschii'nin ilk archaeal genomu için kullanıldı . Algoritma , gen tahmininde standart hale gelen protein kodlayan DNA dizisinin homojen olmayan üç periyodik Markov zincir modellerini ve aynı anda iki DNA zincirinde gen tahminine Bayesci yaklaşımı tanıttı . Modellerin türe özgü parametreleri, bilinen tipteki (protein kodlayan ve kodlamayan) dizilerin eğitim setlerinden tahmin edildi. Algoritmanın ana adımı, belirli bir DNA parçası için, olası altı okuma çerçevesinin her birinde ( tamamlayıcı DNA dizisindeki üç çerçeve dahil) "protein kodlayan" ( genetik kodu taşıyan ) veya "kodlamayan" olmanın posterior olasılıklarını hesaplar. . Orijinal GeneMark (Biyoinformatikte HMM döneminden önce geliştirilmiştir) HMM benzeri bir algoritmadır; uygun şekilde tanımlanmış HMM için HMM teorisi arka kod çözme algoritmasında bilinen bir yaklaşım olarak görülebilir.

Prokaryotik gen tahmini

GeneMark.hmm algoritması (1998), kısa genleri ve gen başlangıcını bulmada gen tahmini doğruluğunu geliştirmek için tasarlanmıştır. Buradaki fikir, GeneMark'ta kullanılan Markov zincir modellerini , gizli durumlar arasındaki geçişler olarak resmi olarak yorumlanan kodlayan ve kodlamayan bölgeler arasındaki geçişle gizli bir Markov model çerçevesine entegre etmekti . Ek olarak, ribozom bağlanma bölgesi modeli, gen başlangıç ​​tahmininin doğruluğunu artırmak için kullanıldı. Sonraki adım, kendi kendine eğitim gen tahmin aracı GeneMarkS'ın (2001) geliştirilmesi ile yapıldı. GeneMarkS, yeni prokaryotik genomik dizilerde gen tanımlaması için genomik topluluğu tarafından aktif olarak kullanılmaktadır. Homolog proteinler hakkındaki bilgileri gen tahminine entegre eden GeneMarkS uzantısı olan GeneMarkS +, prokaryotik genom açıklamaları için NCBI boru hattında kullanılır; boru hattı günde 2000'e kadar genoma açıklama ekleyebilir ( www.ncbi.nlm.nih.gov/genome/annotation_prok/process ).

Metagenomlarda ve Metatransciptomlarda Sezgisel Modeller ve Gen Tahmini

GeneMark ve GeneMark.hmm algoritmalarının türe özgü parametrelerinin doğru tanımlanması, doğru gen tahminleri yapmak için anahtar koşuldur. Bununla birlikte, soru, viral genom çalışmaları ile motive edilerek, gen tahmini için parametrelerin geniş genomik bağlamı olmayan oldukça kısa bir dizide nasıl tanımlanacağıyla ortaya çıktı. 1999'da bu soru, G + C içeriği dizisinin fonksiyonları olarak parametrelerin "sezgisel yöntem" hesaplamaları geliştirilerek ele alındı. 2004 yılından beri sezgisel yaklaşımla oluşturulan modeller, metagenomik dizilerde genlerin bulunmasında kullanılmaktadır. Daha sonra, birkaç yüz prokaryotik genomun analizi, 2010'da daha gelişmiş sezgisel yöntemin (MetaGeneMark'ta uygulandı) geliştirilmesine yol açtı.

Ökaryotik gen tahmini

Ökaryotik genomlarda , intronlar ve intergenik bölgeler ile ekson sınırlarının modellenmesi, HMM'lerin kullanımıyla ele alınan büyük bir zorluk sunar. Ökaryotik GeneMark.hmm'nin HMM mimarisi, her iki DNA zincirinde yer alan ilk, iç ve terminal eksonlar, intronlar , intergenik bölgeler ve tek ekson genleri için gizli durumları içerir . İlk ökaryotik GeneMark.hmm, algoritma parametrelerinin tahmini için eğitim setlerine ihtiyaç duyuyordu. 2005 yılında kendi kendine eğitim algoritması GeneMark-ES'nin ilk sürümü geliştirildi. 2008'de GeneMark-ES algoritması, özel bir intron modeli ve daha karmaşık kendi kendine eğitim stratejisi geliştirilerek mantar genomlarını kapsayacak şekilde genişletildi. Daha sonra 2014 yılında GeneMark-ET, eşleştirilenlerden genom birleştirilmemiş RNA-Seq okumalarına kadar olan bilgilerle kendi kendine eğitimi artıran algoritma aileye eklendi. Ökaryotik transkriptlerde gen tahmini, yeni algoritma GeneMarkS-T (2015) ile yapılabilir.


GeneMark Ailesi Gen Tahmin Programları

Bakteriler, Arkeler

  • GeneMark
  • GeneMarkS
  • GeneMarkS +

Metagenomlar ve Metatranscriptomes

  • MetaGeneMark

Ökaryotlar

  • GeneMark
  • GeneMark.hmm
  • GeneMark-ES: Ökaryotik genomlar için, denetimsiz ab initio modunda otomatik eğitim gerçekleştiren gen bulma algoritması.
  • GeneMark-ET: GeneMark-ES'yi RNA-Seq okuma hizalamalarını kendi kendine eğitim prosedürüne entegre eden yeni bir yöntemle güçlendirir.
  • GeneMark-EX: çeşitli boyut, yapı ve kalitedeki girdi verilerinde güçlü performans gösteren, genom notasyonu için tam otomatik entegre bir araçtır. Algoritma, girdi verilerinin hacmi, kalitesi ve özelliklerine, RNA-sekans veri kümesinin boyutuna, türlerin filogenetik konumuna, montaj parçalanma derecesine bağlı olarak parametre tahminine yaklaşımı seçer. HMM mimarisini söz konusu genomun özelliklerine uyacak şekilde otomatik olarak değiştirebilir ve transkript ve protein bilgilerini gen tahmini sürecine entegre edebilir.

Virüsler, fajlar ve plazmitler

  • Sezgisel modeller

RNA-Seq okumasından derlenen transkriptler

  • GeneMarkS-T

Ayrıca bakınız

Referanslar

Dış bağlantılar