Sıra motifi - Sequence motif
Biyolojide, bir dizi motifi , yaygın olan ve genellikle makromolekülün biyolojik işleviyle ilgili olduğu varsayılan bir nükleotit veya amino asit dizi modelidir . Örneğin, bir N- glikosilasyon bölgesi motifi Asn, ardından Pro dışında herhangi bir şey, ardından Ser veya Thr ve ardından Pro kalıntısı dışında herhangi bir şey olarak tanımlanabilir .
genel bakış
Bir dizi motifi içinde göründüğünde ekson a geni , bu olabilir kodlayan " bir yapısal motifi içinde bir" protein ; bu, proteinin genel yapısının basmakalıp bir öğesidir . Bununla birlikte, motiflerin ayırt edici bir ikincil yapı ile ilişkilendirilmesine gerek yoktur . " Kodlayıcı olmayan " diziler proteinlere çevrilmez ve bu tür motiflere sahip nükleik asitlerin tipik şekilden (örneğin "B-form" DNA çift sarmalı ) sapmaları gerekmez .
Gen eksonlarının dışında, uydu DNA gibi " çöp " içinde düzenleyici dizi motifleri ve motifleri vardır . Bunlardan bazılarının nükleik asitlerin şeklini etkilediğine inanılmaktadır (örneğin bakınız RNA self-splicing ), ancak bu sadece bazen böyledir. Örneğin, spesifik DNA bağlanma bölgelerine afinitesi olan birçok DNA bağlama proteini , DNA'yı yalnızca çift sarmal biçiminde bağlar. Motifleri çift sarmalın büyük veya küçük oluğuyla temas yoluyla tanıyabilirler.
İkincil yapıdan yoksun gibi görünen kısa kodlama motifleri, proteinleri bir hücrenin belirli bölümlerine teslim edilmek üzere etiketleyenleri veya fosforilasyon için işaretleyenleri içerir .
Bir dizi veya dizi veri tabanında araştırmacılar , BLAST gibi bilgisayar tabanlı dizi analizi tekniklerini kullanarak motifleri arar ve bulur . Bu tür teknikler biyoinformatik disiplinine aittir . Ayrıca bkz . konsensüs dizisi .
Motif Temsil
Yukarıda bahsedilen N- glikosilasyon bölgesi motifini düşünün :
- Asn, ardından Pro dışında herhangi bir şey, ardından Ser veya Thr, ardından Pro dışında herhangi bir şey gelir
Bu kalıp N{P}[ST]{P}
burada N
= Asn, P
= Pro, S
= Ser, T
= Thr; {X}
dışında herhangi bir amino asit anlamına gelir X
; ve [XY]
ya X
veya anlamına gelir Y
.
Gösterim , desende meydana [XY]
gelme olasılığına X
veya Y
meydana gelme olasılığına dair herhangi bir gösterge vermez . Gözlenen olasılıklar, dizi logoları kullanılarak grafiksel olarak gösterilebilir . Bazen modeller, gizli bir Markov modeli gibi olasılıksal bir model açısından tanımlanır .
Motifler ve konsensüs dizileri
Gösterim [XYZ]
, X
veya Y
veya anlamına gelir Z
, ancak herhangi bir belirli eşleşmenin olasılığını göstermez. Bu nedenle, iki veya daha fazla desen genellikle tek bir motifle ilişkilendirilir: tanımlayıcı desen ve çeşitli tipik desenler.
Örneğin, IQ motifi için tanımlayıcı sıralama şu şekilde alınabilir:
[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]
burada x
herhangi bir amino asidi belirtir ve köşeli parantezler bir alternatifi gösterir (gösterim hakkında daha fazla ayrıntı için aşağıya bakın).
Ancak genellikle ilk harf 'dir I
ve her iki [RK]
seçenek de R
. Son seçenek çok geniş olduğu için, model IQxxxRGxxxR
bazen IQ motifinin kendisiyle eşitlenir, ancak daha doğru bir açıklama IQ motifi için bir konsensüs dizisi olacaktır .
Desen açıklama notları
Motifleri tanımlamak için çeşitli gösterimler kullanılmaktadır, ancak bunların çoğu düzenli ifadeler için standart gösterimlerin çeşitleridir ve bu kuralları kullanır:
- her biri belirli bir amino asidi veya bir dizi amino asidi ifade eden tek karakterli bir alfabe vardır;
- alfabeden çizilen bir karakter dizisi, karşılık gelen amino asitlerin bir dizisini belirtir;
- köşeli parantez içine alınmış alfabeden çizilen herhangi bir karakter dizisi, karşılık gelen amino asitlerden herhangi biriyle eşleşir; örneğin
[abc]
,a
veyab
veya ile temsil edilen amino asitlerden herhangi biriyle eşleşirc
.
Tüm bu notasyonların arkasındaki temel fikir, desen notasyonundaki bir dizi öğeye bir anlam veren eşleştirme ilkesidir:
- model gösteriminin elemanlarının bir dizisi, ancak ve ancak son dizilim, her bir model elemanının karşılık gelen alt diziyle eşleşeceği şekilde alt dizilere bölünebiliyorsa, bir amino asit dizisiyle eşleşir.
Böylece model , , , , , ve [AB] [CDE] F
öğelerine karşılık gelen altı amino asit dizisiyle eşleşir .
ACF
ADF
AEF
BCF
BDF
BEF
Farklı desen tanımlama gösterimleri, desen öğeleri oluşturmanın başka yollarına sahiptir. Bu gösterimlerden biri, aşağıdaki alt bölümde açıklanan PROSITE gösterimidir.
PROSITE desen gösterimi
PROSITE notasyonu kullanan IUPAC bir birleştirme sembolü 'olduğu dışında yukarıda açıklamaya tek harfli kodları ve uyan, -
', desen elemanları arasında kullanılır, ancak genellikle desen alfabenin harfleri arasına düşürülür.
PROSITE, daha önce açıklananlara ek olarak aşağıdaki desen öğelerine izin verir:
- Küçük harf '
x
', herhangi bir amino asidi belirtmek için bir model elemanı olarak kullanılabilir. - Alfabeden çizilen ve parantezler (kıvrımlı parantezler) içine alınmış bir karakter dizisi, dizedekiler dışında herhangi bir amino asidi belirtir. Örneğin, veya
{ST}
dışında herhangi bir amino asidi belirtir .S
T
- Bir model, bir dizinin N-terminaliyle sınırlandırılmışsa, modelin önüne '
<
' eklenir . - Bir model, bir dizinin C-terminali ile sınırlandırılmışsa, modelin sonuna '
>
' eklenir . - '
>
' karakteri ,S[T>]
hem "ST
" hem de " " ile eşleşecek şekilde bir sonlandırıcı köşeli parantez içinde de bulunabilirS>
. - Eğer
e
bir model öğesiyse vem
ve <=n
ile iki ondalık tamsayı ise , o zaman:m
n
-
e(m)
e
tam olarakm
zamanların tekrarına eşdeğerdir ; -
e(m,n)
aşağıdakileri karşılayan herhangi bir tamsayı içine
tamk
kez tekrarlamaya eşdeğerdirk
:m
<=k
<=n
.
-
Bazı örnekler:
-
x(3)
eşdeğerdirx-x-x
. -
x(2,4)
eşleşen herhangi bir dizisi ile eşleşenx-x
ya dax-x-x
ya dax-x-x-x
.
C2H2 tipi çinko parmak alanının imzası :
C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H
matrisler
Sabit uzunlukta bir motifin her pozisyonundaki her kalıntı veya nükleotit için puanları içeren bir sayı matrisi. İki tür ağırlık matrisi vardır.
- Bir konum frekans matrisi (PFM), her kalıntının veya nükleotidin konuma bağlı frekansını kaydeder. PFM'ler, SELEX deneylerinden deneysel olarak belirlenebilir veya gizli Markov modelleri kullanılarak MEME gibi araçlar tarafından hesaplamalı olarak keşfedilebilir.
- Bir konum ağırlık matrisi (PWM), bir eşleşme puanı hesaplamak için günlük oran ağırlıklarını içerir. Bir giriş dizisinin motifle eşleşip eşleşmediğini belirtmek için bir kesme gereklidir. PWM'ler, PFM'lerden hesaplanır.
Transkripsiyon faktörü AP-1 için TRANSFAC veri tabanından bir PFM örneği :
konum | A | C | G | T | IUPAC |
---|---|---|---|---|---|
01 | 6 | 2 | 8 | 1 | r |
02 | 3 | 5 | 9 | 0 | S |
03 | 0 | 0 | 0 | 17 | T |
04 | 0 | 0 | 17 | 0 | G |
05 | 17 | 0 | 0 | 0 | A |
06 | 0 | 16 | 0 | 1 | C |
07 | 3 | 2 | 3 | 9 | T |
08 | 4 | 7 | 2 | 4 | n |
09 | 9 | 6 | 1 | 1 | m |
10 | 4 | 3 | 7 | 3 | n |
11 | 6 | 3 | 1 | 7 | W |
İlk sütun konumu belirtir, ikinci sütun A'nın o konumdaki oluşum sayısını, üçüncü sütun o konumdaki C'nin oluşum sayısını, dördüncü sütun o konumdaki G'nin oluşum sayısını, beşinci sütun, o konumda T'nin oluşum sayısını içerir ve son sütun, o konum için IUPAC gösterimini içerir. Her satır için A, C, G ve T oluşumlarının toplamının eşit olması gerektiğine dikkat edin, çünkü PFM birkaç konsensüs dizisinin toplanmasından türetilmiştir.
Motif Keşfi
genel bakış
Dizi motifi keşfi 1990'lardan beri iyi gelişmiştir. Özellikle, mevcut motif keşif araştırmalarının çoğu, DNA motiflerine odaklanmaktadır. Yüksek verimli dizilemedeki ilerlemelerle, bu tür motif keşif sorunları, hem dizi deseni dejenerasyonu sorunları hem de veri yoğun hesaplama ölçeklenebilirliği sorunları tarafından zorlanmaktadır.
De novo motif keşfi
Birden fazla giriş dizisi verildiğinde bir veya daha fazla aday motifi tanımlamaya çalışan yazılım programları vardır. Bir örnek, her aday için istatistiksel bilgi üreten Motif Çıkarma (MEME) algoritması için Çoklu EM'dir. Motif keşif algoritmalarını detaylandıran 100'den fazla yayın var; Weirauch et al . 2013 yılındaki bir kıyaslamada birçok ilgili algoritmayı değerlendirdi. Ekili motifi arama kombinasyon yaklaşımı temel alan başka bir motif bulma yöntemidir.
Filogenetik motif keşfi
Motifler, filogenetik bir yaklaşım benimsenerek ve farklı türlerdeki benzer genler üzerinde çalışılarak da keşfedilmiştir . Örneğin, insan, fare ve D. melanogaster'da GCM ( glial hücreler eksik ) geni tarafından belirtilen amino asit dizilerini hizalayarak , Akiyama ve diğerleri 1996'da GCM motifi adını verdikleri bir model keşfettiler . Yaklaşık 150 amino asit kalıntısını kapsar. , ve şu şekilde başlar:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Burada her biri .
tek bir amino asidi veya bir boşluğu *
belirtir ve her biri yakından ilişkili bir amino asit ailesinin bir üyesini belirtir. Yazarlar, motifin DNA bağlama aktivitesine sahip olduğunu gösterebildiler.
Benzer bir yaklaşım, Pfam gibi modern protein alanı veritabanları tarafından yaygın olarak kullanılmaktadır : insan küratörler, ilişkili olduğu bilinen bir dizi havuzu seçecek ve bunları hizalamak ve diğer ilgili proteinleri tanımlamak için kullanılabilecek motif profilini üretmek için bilgisayar programlarını kullanacaklardır. PhyloGibbs'in bir örnek olduğu de novo MEME algoritmasını geliştirmek için filogenik bir yaklaşım da kullanılabilir .
De novo motif çifti keşfi
2017 yılında MotifHyades, eşleştirilmiş dizilere doğrudan uygulanabilen bir motif keşif aracı olarak geliştirildi.
Proteinden de novo motif tanıma
2018'de, proteinlerin DNA'ya bağlanan alanlarından DNA motiflerini çıkarmak için bir Markov rastgele alan yaklaşımı önerildi .
Motifli Kılıflar
Üç boyutlu zincir kodları
E.coli laktoz operonu represör LacI ( PDB : 1lcc zinciri A) ve E coli katabolit gen aktivatör ( PDB : 3gap zincir A) hem de sahip sarmal dönüşlü-helis motifi, ancak amino asit sekansları çok gösterme benzerlik, aşağıdaki tabloda gösterildiği gibi. 1997 yılında Matsuda ve ark. protein yapısını bir harf dizisi olarak temsil etmek için "üç boyutlu zincir kodu" olarak adlandırdıkları bir kod geliştirdiler. Bu kodlama şeması, proteinler arasındaki benzerliği amino asit dizisinden çok daha net bir şekilde ortaya koymaktadır (makaleden örnek): Kod , protein omurgasının alfa-karbonları arasındaki burulma açılarını kodlar . "W" her zaman bir alfa sarmalına karşılık gelir.
3D zincir kodu | amino asit dizisi | |
---|---|---|
1lccA | TWWWWWWWKCLKWWWWWWG |
LYDVAEYAGVSYQTVSRVV
|
3gapA | KWWWWWWGKCFKWWWWWWW |
RQEIGQIVGCSRETVGRIL
|
Ayrıca bakınız
Referanslar
İkincil ve üçüncül kaynaklar
Birincil kaynaklar
daha fazla okuma
İkincil ve üçüncül kaynaklar
- Kadaveru K, Vyas J, Schiller MR (Mayıs 2008). "Viral enfeksiyon ve insan hastalığı - mini motiflerden içgörüler" . Biyobilimde Sınırlar . 13 (13): 6455-71. doi : 10.2741/3166 . PMC 2628544 . PMID 18508672 .
- Stormo GD (Ocak 2000). "DNA bağlama siteleri: temsil ve keşif" . Biyoinformatik . 16 (1): 16–23. doi : 10.1093/biyoinformatik/16.1.16 . PMID 10812473 .
Birincil kaynaklar
-
Altarawy D, İsmail MA, Ghanem S (2009). "MProfiller: DNA Motif Keşfi için Profil Tabanlı Bir Yöntem". Biyoinformatikte Örüntü Tanıma . Bilgisayar Bilimleri Ders Notları. 5780 . s. 13–23. doi : 10.1007/978-3-642-04031-3_2 . ISBN'si 978-3-642-04030-6. Eksik veya boş
|title=
( yardım ) - Schiller MR (2007). Minimotif madenci: protein fonksiyonunu, hastalığı ve genetik çeşitliliği araştırmak için bir hesaplama aracı . Curr Protoc Protein Sci . bölüm 2. s. 2.12.1–2.12.14. doi : 10.1002/0471140864.ps0212s48 . ISBN'si 978-0471140863. PMID 18429315 . S2CID 10406520 .
- Balla S, Thapar V, Verma S, Luong T, Faghri T, Huang CH, et al. (Mart 2006). "Minimotif Miner: protein fonksiyonunu araştırmak için bir araç" . Doğa Yöntemleri . 3 (3): 175–7. doi : 10.1038/nmeth856 . PMID 16489333 . S2CID 15571142 .