Binning (metagenomics) - Binning (metagenomics)

Gelen metagenomics , gruplama gruplandırmasıdır okur ya da uzantılar, ve bireysel atayarak genom . Binning yöntemleri, kompozisyon özelliklerine veya hizalamaya (benzerlik) veya her ikisine de dayanabilir .

Tanıtım

Metagenomik örnekler çok sayıda organizmadan okumalar içerebilir. Örneğin, tek bir gram toprakta, her biri kendi genomuna sahip 18000'e kadar farklı organizma türü olabilir. Metagenomik çalışmalar, tüm topluluktan DNA örneği alır ve belirli uzunluktaki nükleotid dizileri olarak kullanılabilir hale getirir . Çoğu durumda, elde edilen dizilerin eksik doğası , her bir organizmanın tam genomunun kurtarılması bir yana, tek tek genlerin birleştirilmesini zorlaştırır . Bu nedenle, binleştirme teknikleri , Metagenom Birleştirilmiş Genom (MAG) olarak bilinen belirli genom içindeki okumaları veya contig'leri tanımlamak için "en iyi çabayı" temsil eder . MAG'lerin taksonomisi, GTDB-Tk gibi algoritmalar kullanılarak referans filogenetik ağacına yerleştirilerek çıkarılabilir.

Birden fazla organizmadan DNA numunesi alan ilk çalışmalar, her numunenin çeşitliliğini ve kökenini değerlendirmek için spesifik genler kullandı. Bu işaretleyici genler daha önce bilinen organizmalardan alınan klonal kültürlerden dizilmişti, bu nedenle, bu tür genlerden biri bir okumada veya metagenomik numuneden bir bitişikte ortaya çıktığında, okunan bilinen bir türe veya o türün OTU'suna atanabilir. Bu yöntemle ilgili sorun, dizilerin yalnızca küçük bir bölümünün bir işaretleyici geni taşıması ve verilerin çoğunu atamadan bırakmasıydı.

Modern gruplama teknikleri, hem numuneden bağımsız olarak önceden mevcut olan bilgileri hem de numunede mevcut olan içsel bilgileri kullanır. Numunenin çeşitliliğine ve karmaşıklığına bağlı olarak, başarı dereceleri değişir: bazı durumlarda dizileri tek tek türlere kadar çözebilirler, bazılarında ise diziler en iyi ihtimalle çok geniş taksonomik gruplarla tanımlanır.

Çeşitli habitatlardan metagenomik verilerin gruplandırılması, hayat ağacını önemli ölçüde uzatabilir. Küresel olarak mevcut metagenomlara yönelik bu yaklaşım, 52 515 bireysel mikrobiyal genomu grupladı ve bakteri ve arke çeşitliliğini %44 oranında artırdı .

algoritmalar

Binning algoritmaları önceki bilgileri kullanabilir ve bu nedenle denetimli sınıflandırıcılar olarak hareket edebilir veya denetimsiz sınıflandırıcılar olarak hareket eden yeni gruplar bulmaya çalışabilirler . Birçoğu, elbette, ikisini de yapıyor. Sınıflandırıcılar, veritabanlarına karşı hizalamalar gerçekleştirerek önceden bilinen dizilerden yararlanır ve diziyi , GC içeriği gibi DNA'nın organizmaya özgü özelliklerine göre ayırmaya çalışır .

Mande ve diğerleri, (2012) av tüfeği sıralama yaklaşımı kullanılarak elde edilen metagenomik veri kümelerinin gruplandırılması için mevcut çeşitli yöntemlerin öncülü, metodolojileri, avantajları, sınırlamaları ve zorluklarının bir incelemesini sunmaktadır. Öne çıkan binning algoritmalarından bazıları aşağıda açıklanmıştır.

TETRA

TETRA, genomik fragmanlarda tetranükleotit kullanım modellerini kullanan istatistiksel bir sınıflandırıcıdır. DNA'da dört olası nükleotit vardır, bu nedenle ardışık dört nükleotidin farklı parçaları olabilir ; bu parçalara tetramer denir. TETRA, belirli bir dizi için her bir tetramerin frekanslarını tablo haline getirerek çalışır. Daha sonra bu frekanslardan z-skorları hesaplanır, bu da tetramerin ne kadar fazla veya az temsil edildiğini, tek tek nükleotit bileşimlerine bakılarak beklenebilecek olanla çelişki içinde olduğunu gösterir. Her tetramer için z-skorları bir vektörde birleştirilir ve farklı dizilere karşılık gelen vektörler, numuneden ne kadar benzer farklı dizilerin olduğunun bir ölçüsünü vermek için ikili olarak karşılaştırılır. En benzer dizilerin aynı OTU'daki organizmalara ait olması beklenir.

MEGAN

DIAMOND+MEGAN yaklaşımında, tüm okumalar önce NCBI-nr gibi bir protein referans veritabanına göre hizalanır ve ardından ortaya çıkan hizalamalar, NCBI taksonomisindeki en düşük taksonomik düğümde bir okuma yerleştiren saf LCA algoritması kullanılarak analiz edilir. Bu, okunanların önemli bir hizaya sahip olduğu tüm taksonların üzerinde yer alır. Burada, bit puanı belirli bir eşiğin üzerindeyse (okumaların uzunluğuna bağlıdır) ve örneğin o okuma için görülen en iyi puanın %10'u dahilindeyse, bir hizalama genellikle "önemli" kabul edilir. DNA referans dizileri yerine protein referans dizilerini kullanmanın mantığı, mevcut DNA referans veritabanlarının çevrede var olan gerçek genom çeşitliliğinin sadece küçük bir kısmını kapsamasıdır.

filopiti

Phylopythia, IBM laboratuvarlarındaki araştırmacılar tarafından geliştirilen bir denetimli sınıflandırıcıdır ve temel olarak bilinen dizilerden DNA-kmers ile eğitilmiş bir destek vektör makinesidir .

Sıralama-ÖĞELER

Sort-ITEMS (Monzoorul ve diğerleri, 2009), Tata Consultancy Services (TCS) Ltd., Hindistan'daki Innovations Labs tarafından geliştirilen hizalamaya dayalı bir gruplama algoritmasıdır. Kullanıcıların, BLASTx aramasını kullanarak nr protein veritabanına karşı giriş metagenomik dizilerinde (okumalarda) bir benzerlik araması yapması gerekir. Üretilen blastx çıkışı daha sonra Sort-ITEMS programı tarafından girdi olarak alınır. Yöntem, ilk önce okumanın atanabileceği uygun bir taksonomik seviyeyi (veya sırayı) belirlemek için bir dizi BLAST hizalama parametresi eşiklerini kullanır. Daha sonra metagenomik okumanın son ataması için ortoloji tabanlı bir yaklaşım benimsenir. Tata Danışmanlık Hizmetlerinin Yenilik Laboratuvarları (TCS) tarafından geliştirilen diğer hizalama tabanlı gruplama algoritmaları arasında DiScRIBinATE, ProViDE ve SPHINX bulunur. Bu algoritmaların metodolojileri aşağıda özetlenmiştir.

AYRIŞTIR

DiScRIBinATE (Ghosh ve diğerleri, 2010), Tata Consultancy Services (TCS) Ltd., Hindistan'ın Innovations Labs tarafından geliştirilen hizalamaya dayalı bir gruplama algoritmasıdır. DiScRIBinATE, Sort-ITEMS'in ortoloji yaklaşımını daha hızlı 'hizalama gerektirmeyen' bir yaklaşımla değiştirir. Bu alternatif stratejinin dahil edilmesinin, atamaların doğruluğunda ve özgüllüğünde önemli bir kayıp olmaksızın binning süresini yarı yarıya azalttığı gözlemlendi. Ayrıca, DiScRIBinATE'e dahil edilen yeni bir yeniden sınıflandırma stratejisinin genel yanlış sınıflandırma oranını azalttığı görülüyordu.

Sağlamak

ProViDE (Ghosh ve diğerleri, 2011), metagenomik örneklerde viral çeşitliliğin tahmini için Tata Consultancy Services (TCS) Ltd.'nin Innovation Labs tarafından geliştirilen hizalamaya dayalı bir gruplama yaklaşımıdır. ProViDE, virome veri setlerinden elde edilen metagenomik dizilerin taksonomik sınıflandırması için Sort-ITEMS'e benzer ters ortoloji tabanlı yaklaşımı benimser. Viral metagenomik diziler için özel olarak uygun, özelleştirilmiş bir BLAST parametre eşikleri seti. Bu eşikler, viral krallığın çeşitli taksonomik grupları içinde/arasında gözlemlenen dizi farklılığı modelini ve tek tip olmayan taksonomik hiyerarşiyi yakalar.

PCAHİER

Georgia Institute of Technology tarafından geliştirilen bir başka gruplama algoritması olan PCAHIER (Zheng ve diğerleri, 2010), özellikler olarak n-mer oligonükleotit frekanslarını kullanır ve kısa metagenomik parçaları gruplamak için hiyerarşik bir sınıflandırıcıyı (PCAHIER) benimser. Özellik uzayının yüksek boyutluluğunu azaltmak için temel bileşen analizi kullanıldı. PCAHIER'in etkinliği, hiyerarşik olmayan bir sınıflandırıcı ve mevcut iki gruplama algoritması (TETRA ve Phylopythia) ile karşılaştırmalar yoluyla gösterildi.

SFENKS

Tata Consultancy Services (TCS) Ltd.'nin İnovasyon Laboratuvarları tarafından geliştirilen başka bir bindirme algoritması olan SPHINX (Mohammed ve diğerleri, 2011), hem 'kompozisyon' hem de 'hizalama' ilkelerini kullanarak yüksek gruplama verimliliği sağlayan bir hibrit strateji benimser. ' tabanlı binning algoritmaları. Yaklaşım, metagenomik veri kümelerini kompozisyon temelli yaklaşımlar kadar hızlı analiz etmek amacıyla, ancak yine de hizalama tabanlı algoritmaların doğruluğu ve özgüllüğü ile tasarlanmıştır. SPHINX'in metagenomik dizileri kompozisyon tabanlı algoritmalar kadar hızlı bir şekilde sınıflandırdığı gözlemlendi. Ek olarak, SPHINX'in gruplama verimliliğinin (atamaların doğruluğu ve özgüllüğü açısından), hizalamaya dayalı algoritmalar kullanılarak elde edilen sonuçlarla karşılaştırılabilir olduğu gözlemlendi.

INDUS ve TWARIT

Tata Danışmanlık Hizmetleri (TCS) Ltd.'nin Yenilik Laboratuvarları tarafından geliştirilen diğer bileşim tabanlı gruplama algoritmalarını temsil eder. Bu algoritmalar, sınıflandırma süresini iyileştirmek için bir dizi oligonükleotit bileşimsel (istatistiksel olduğu kadar) parametre kullanır ve aynı zamanda taksonomik atamaların doğruluğunu ve özgüllüğünü korur.

Diğer algoritmalar

Bu liste ayrıntılı değil:

  • TACOA (Diaz ve diğerleri, 2009)
  • Paralel-META (Su ve diğerleri, 2011)
  • PhyloPythiaS (Patil ve diğerleri, 2011)
  • RITA (MacDonald ve diğerleri, 2012)
  • BiMeta (Le ve diğerleri, 2015)
  • MetaPhlAn (Segata ve diğerleri, 2012)
  • SeMeta (Le ve diğerleri, 2016)
  • Quikr (Koslicki ve diğerleri, 2013)
  • Taksoncu (Pongor ve diğerleri, 2014)
  • MaxBin (Wu ve diğerleri, 2014)
  • MetaBAT 2 (Kang ve diğerleri, 2019)
  • CONCOCT (Alneberg ve diğerleri, 2014)
  • Anvi'o (Eren ve diğerleri, 2015)
  • DAS Aracı (Sieber ve diğerleri, 2018) - çoklu gruplama algoritmalarını birleştiren sarmalayıcı

Tüm bu algoritmalar, hiyerarşik sınıflandırma gibi sıralama dizileri için farklı şemalar kullanır ve denetimli veya denetimsiz bir şekilde çalışır. Bu algoritmalar, örneklerin ne kadar çeşitli olduğuna dair küresel bir görünüm sağlar ve topluluk kompozisyonunu ve metagenomlardaki işlevi potansiyel olarak birbirine bağlayabilir.

Referanslar