Sıra motifi - Sequence motif

LexA bağlama motifi için bir dizi logosu olarak temsil edilen bir DNA dizisi motifi.

Biyolojide, bir dizi motifi , yaygın olan ve genellikle makromolekülün biyolojik işleviyle ilgili olduğu varsayılan bir nükleotit veya amino asit dizi modelidir . Örneğin, bir N- glikosilasyon bölgesi motifi Asn, ardından Pro dışında herhangi bir şey, ardından Ser veya Thr ve ardından Pro kalıntısı dışında herhangi bir şey olarak tanımlanabilir .

genel bakış

Bir dizi motifi içinde göründüğünde ekson a geni , bu olabilir kodlayan " bir yapısal motifi içinde bir" protein ; bu, proteinin genel yapısının basmakalıp bir öğesidir . Bununla birlikte, motiflerin ayırt edici bir ikincil yapı ile ilişkilendirilmesine gerek yoktur . " Kodlayıcı olmayan " diziler proteinlere çevrilmez ve bu tür motiflere sahip nükleik asitlerin tipik şekilden (örneğin "B-form" DNA çift sarmalı ) sapmaları gerekmez .

Gen eksonlarının dışında, uydu DNA gibi " çöp " içinde düzenleyici dizi motifleri ve motifleri vardır . Bunlardan bazılarının nükleik asitlerin şeklini etkilediğine inanılmaktadır (örneğin bakınız RNA self-splicing ), ancak bu sadece bazen böyledir. Örneğin, spesifik DNA bağlanma bölgelerine afinitesi olan birçok DNA bağlama proteini , DNA'yı yalnızca çift sarmal biçiminde bağlar. Motifleri çift sarmalın büyük veya küçük oluğuyla temas yoluyla tanıyabilirler.

İkincil yapıdan yoksun gibi görünen kısa kodlama motifleri, proteinleri bir hücrenin belirli bölümlerine teslim edilmek üzere etiketleyenleri veya fosforilasyon için işaretleyenleri içerir .

Bir dizi veya dizi veri tabanında araştırmacılar , BLAST gibi bilgisayar tabanlı dizi analizi tekniklerini kullanarak motifleri arar ve bulur . Bu tür teknikler biyoinformatik disiplinine aittir . Ayrıca bkz . konsensüs dizisi .

Motif Temsil

Yukarıda bahsedilen N- glikosilasyon bölgesi motifini düşünün :

Asn, ardından Pro dışında herhangi bir şey, ardından Ser veya Thr, ardından Pro dışında herhangi bir şey gelir

Bu kalıp N{P}[ST]{P}burada N= Asn, P= Pro, S= Ser, T= Thr; {X}dışında herhangi bir amino asit anlamına gelir X; ve [XY]ya Xveya anlamına gelir Y.

Gösterim , desende meydana [XY]gelme olasılığına Xveya Ymeydana gelme olasılığına dair herhangi bir gösterge vermez . Gözlenen olasılıklar, dizi logoları kullanılarak grafiksel olarak gösterilebilir . Bazen modeller, gizli bir Markov modeli gibi olasılıksal bir model açısından tanımlanır .

Motifler ve konsensüs dizileri

Gösterim [XYZ], Xveya Yveya anlamına gelir Z, ancak herhangi bir belirli eşleşmenin olasılığını göstermez. Bu nedenle, iki veya daha fazla desen genellikle tek bir motifle ilişkilendirilir: tanımlayıcı desen ve çeşitli tipik desenler.

Örneğin, IQ motifi için tanımlayıcı sıralama şu şekilde alınabilir:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

burada xherhangi bir amino asidi belirtir ve köşeli parantezler bir alternatifi gösterir (gösterim hakkında daha fazla ayrıntı için aşağıya bakın).

Ancak genellikle ilk harf 'dir Ive her iki [RK]seçenek de R. Son seçenek çok geniş olduğu için, model IQxxxRGxxxRbazen IQ motifinin kendisiyle eşitlenir, ancak daha doğru bir açıklama IQ motifi için bir konsensüs dizisi olacaktır .

Desen açıklama notları

Motifleri tanımlamak için çeşitli gösterimler kullanılmaktadır, ancak bunların çoğu düzenli ifadeler için standart gösterimlerin çeşitleridir ve bu kuralları kullanır:

  • her biri belirli bir amino asidi veya bir dizi amino asidi ifade eden tek karakterli bir alfabe vardır;
  • alfabeden çizilen bir karakter dizisi, karşılık gelen amino asitlerin bir dizisini belirtir;
  • köşeli parantez içine alınmış alfabeden çizilen herhangi bir karakter dizisi, karşılık gelen amino asitlerden herhangi biriyle eşleşir; örneğin [abc], aveya bveya ile temsil edilen amino asitlerden herhangi biriyle eşleşir c.

Tüm bu notasyonların arkasındaki temel fikir, desen notasyonundaki bir dizi öğeye bir anlam veren eşleştirme ilkesidir:

model gösteriminin elemanlarının bir dizisi, ancak ve ancak son dizilim, her bir model elemanının karşılık gelen alt diziyle eşleşeceği şekilde alt dizilere bölünebiliyorsa, bir amino asit dizisiyle eşleşir.

Böylece model , , , , , ve [AB] [CDE] Föğelerine karşılık gelen altı amino asit dizisiyle eşleşir . ACFADFAEFBCFBDFBEF

Farklı desen tanımlama gösterimleri, desen öğeleri oluşturmanın başka yollarına sahiptir. Bu gösterimlerden biri, aşağıdaki alt bölümde açıklanan PROSITE gösterimidir.

PROSITE desen gösterimi

PROSITE notasyonu kullanan IUPAC bir birleştirme sembolü 'olduğu dışında yukarıda açıklamaya tek harfli kodları ve uyan, -', desen elemanları arasında kullanılır, ancak genellikle desen alfabenin harfleri arasına düşürülür.

PROSITE, daha önce açıklananlara ek olarak aşağıdaki desen öğelerine izin verir:

  • Küçük harf ' x', herhangi bir amino asidi belirtmek için bir model elemanı olarak kullanılabilir.
  • Alfabeden çizilen ve parantezler (kıvrımlı parantezler) içine alınmış bir karakter dizisi, dizedekiler dışında herhangi bir amino asidi belirtir. Örneğin, veya {ST}dışında herhangi bir amino asidi belirtir .ST
  • Bir model, bir dizinin N-terminaliyle sınırlandırılmışsa, modelin önüne ' <' eklenir .
  • Bir model, bir dizinin C-terminali ile sınırlandırılmışsa, modelin sonuna ' >' eklenir .
  • ' >' karakteri , S[T>]hem " ST" hem de " " ile eşleşecek şekilde bir sonlandırıcı köşeli parantez içinde de bulunabilir S>.
  • Eğer ebir model öğesiyse ve mve <= nile iki ondalık tamsayı ise , o zaman: mn
    • e(m)etam olarak mzamanların tekrarına eşdeğerdir ;
    • e(m,n)aşağıdakileri karşılayan herhangi bir tamsayı için etam kkez tekrarlamaya eşdeğerdir k: m<= k<= n.

Bazı örnekler:

  • x(3)eşdeğerdir x-x-x.
  • x(2,4)eşleşen herhangi bir dizisi ile eşleşen x-xya da x-x-xya da x-x-x-x.

C2H2 tipi çinko parmak alanının imzası :

  • C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

matrisler

Sabit uzunlukta bir motifin her pozisyonundaki her kalıntı veya nükleotit için puanları içeren bir sayı matrisi. İki tür ağırlık matrisi vardır.

  • Bir konum frekans matrisi (PFM), her kalıntının veya nükleotidin konuma bağlı frekansını kaydeder. PFM'ler, SELEX deneylerinden deneysel olarak belirlenebilir veya gizli Markov modelleri kullanılarak MEME gibi araçlar tarafından hesaplamalı olarak keşfedilebilir.
  • Bir konum ağırlık matrisi (PWM), bir eşleşme puanı hesaplamak için günlük oran ağırlıklarını içerir. Bir giriş dizisinin motifle eşleşip eşleşmediğini belirtmek için bir kesme gereklidir. PWM'ler, PFM'lerden hesaplanır.

Transkripsiyon faktörü AP-1 için TRANSFAC veri tabanından bir PFM örneği :

konum A C G T IUPAC
01 6 2 8 1 r
02 3 5 9 0 S
03 0 0 0 17 T
04 0 0 17 0 G
05 17 0 0 0 A
06 0 16 0 1 C
07 3 2 3 9 T
08 4 7 2 4 n
09 9 6 1 1 m
10 4 3 7 3 n
11 6 3 1 7 W

İlk sütun konumu belirtir, ikinci sütun A'nın o konumdaki oluşum sayısını, üçüncü sütun o konumdaki C'nin oluşum sayısını, dördüncü sütun o konumdaki G'nin oluşum sayısını, beşinci sütun, o konumda T'nin oluşum sayısını içerir ve son sütun, o konum için IUPAC gösterimini içerir. Her satır için A, C, G ve T oluşumlarının toplamının eşit olması gerektiğine dikkat edin, çünkü PFM birkaç konsensüs dizisinin toplanmasından türetilmiştir.

Motif Keşfi

genel bakış

Dizi motifi keşfi 1990'lardan beri iyi gelişmiştir. Özellikle, mevcut motif keşif araştırmalarının çoğu, DNA motiflerine odaklanmaktadır. Yüksek verimli dizilemedeki ilerlemelerle, bu tür motif keşif sorunları, hem dizi deseni dejenerasyonu sorunları hem de veri yoğun hesaplama ölçeklenebilirliği sorunları tarafından zorlanmaktadır.

De novo motif keşfi

Birden fazla giriş dizisi verildiğinde bir veya daha fazla aday motifi tanımlamaya çalışan yazılım programları vardır. Bir örnek, her aday için istatistiksel bilgi üreten Motif Çıkarma (MEME) algoritması için Çoklu EM'dir. Motif keşif algoritmalarını detaylandıran 100'den fazla yayın var; Weirauch et al . 2013 yılındaki bir kıyaslamada birçok ilgili algoritmayı değerlendirdi. Ekili motifi arama kombinasyon yaklaşımı temel alan başka bir motif bulma yöntemidir.

Filogenetik motif keşfi

Motifler, filogenetik bir yaklaşım benimsenerek ve farklı türlerdeki benzer genler üzerinde çalışılarak da keşfedilmiştir . Örneğin, insan, fare ve D. melanogaster'da GCM ( glial hücreler eksik ) geni tarafından belirtilen amino asit dizilerini hizalayarak , Akiyama ve diğerleri 1996'da GCM motifi adını verdikleri bir model keşfettiler . Yaklaşık 150 amino asit kalıntısını kapsar. , ve şu şekilde başlar:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Burada her biri .tek bir amino asidi veya bir boşluğu *belirtir ve her biri yakından ilişkili bir amino asit ailesinin bir üyesini belirtir. Yazarlar, motifin DNA bağlama aktivitesine sahip olduğunu gösterebildiler.

Benzer bir yaklaşım, Pfam gibi modern protein alanı veritabanları tarafından yaygın olarak kullanılmaktadır : insan küratörler, ilişkili olduğu bilinen bir dizi havuzu seçecek ve bunları hizalamak ve diğer ilgili proteinleri tanımlamak için kullanılabilecek motif profilini üretmek için bilgisayar programlarını kullanacaklardır. PhyloGibbs'in bir örnek olduğu de novo MEME algoritmasını geliştirmek için filogenik bir yaklaşım da kullanılabilir .

De novo motif çifti keşfi

2017 yılında MotifHyades, eşleştirilmiş dizilere doğrudan uygulanabilen bir motif keşif aracı olarak geliştirildi.

Proteinden de novo motif tanıma

2018'de, proteinlerin DNA'ya bağlanan alanlarından DNA motiflerini çıkarmak için bir Markov rastgele alan yaklaşımı önerildi .

Motifli Kılıflar

Üç boyutlu zincir kodları

E.coli laktoz operonu represör LacI ( PDB : 1lcc zinciri A) ve E coli katabolit gen aktivatör ( PDB : 3gap zincir A) hem de sahip sarmal dönüşlü-helis motifi, ancak amino asit sekansları çok gösterme benzerlik, aşağıdaki tabloda gösterildiği gibi. 1997 yılında Matsuda ve ark. protein yapısını bir harf dizisi olarak temsil etmek için "üç boyutlu zincir kodu" olarak adlandırdıkları bir kod geliştirdiler. Bu kodlama şeması, proteinler arasındaki benzerliği amino asit dizisinden çok daha net bir şekilde ortaya koymaktadır (makaleden örnek): Kod , protein omurgasının alfa-karbonları arasındaki burulma açılarını kodlar . "W" her zaman bir alfa sarmalına karşılık gelir.

3D zincir kodu amino asit dizisi
1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV
3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL

Ayrıca bakınız

Referanslar

İkincil ve üçüncül kaynaklar

Birincil kaynaklar

daha fazla okuma

İkincil ve üçüncül kaynaklar

Birincil kaynaklar