Nicel yapı-aktivite ilişkisi - Quantitative structure–activity relationship

Nicel yapı-aktivite ilişkisi modelleri ( QSAR modelleri) , kimya ve biyolojik bilimler ve mühendislikte kullanılan regresyon veya sınıflandırma modelleridir. Diğer regresyon modelleri gibi, QSAR regresyon modelleri de bir dizi "tahmin edici" değişkeni (X) yanıt değişkeninin (Y) gücüyle ilişkilendirirken, sınıflandırma QSAR modelleri, öngörücü değişkenleri yanıt değişkeninin kategorik bir değeriyle ilişkilendirir.

QSAR modellemesinde, öngörücüler kimyasalların fiziko-kimyasal özelliklerinden veya teorik moleküler tanımlayıcılarından oluşur; QSAR yanıt değişkeni , kimyasalların biyolojik bir aktivitesi olabilir . QSAR modelleri ilk önce bir kimyasal veri setindeki kimyasal yapılar ve biyolojik aktivite arasındaki varsayılan ilişkiyi özetler . İkincisi, QSAR modelleri yeni kimyasalların aktivitelerini tahmin eder.

İlgili terimler, bir kimyasal özellik yanıt değişkeni olarak modellendiğinde nicel yapı-özellik ilişkilerini ( QSPR ) içerir. "QSPR alanında kimyasal moleküllerin farklı özellikleri veya davranışları araştırılmıştır. Bazı örnekler nicel yapı-reaktivite ilişkileri (QSRR'ler), nicel yapı-kromatografi ilişkileri (QSCR'ler) ve nicel yapı-toksisite ilişkileri (QSTR'ler), nicel yapıdır. – elektrokimya ilişkileri (QSER'ler) ve kantitatif yapı – biyolojik olarak parçalanabilirlik ilişkileri (QSBR'ler)."

Örnek olarak, biyolojik aktivite, belirli bir biyolojik tepki vermek için gereken bir maddenin konsantrasyonu olarak nicel olarak ifade edilebilir. Ek olarak, fizikokimyasal özellikler veya yapılar sayılarla ifade edildiğinde, ikisi arasında matematiksel bir ilişki veya nicel yapı-aktivite ilişkisi bulunabilir. Matematiksel ifade, eğer dikkatli bir şekilde doğrulanırsa, diğer kimyasal yapıların modellenmiş tepkisini tahmin etmek için kullanılabilir.

Bir QSAR, matematiksel bir model biçimine sahiptir :

  • Aktivite = f (fizyokimyasal özellikler ve/veya yapısal özellikler) + hata

Hata, model hatasını ( yanlılık ) ve gözlemsel değişkenliği, yani doğru bir modelde bile gözlemlerdeki değişkenliği içerir.

QSAR çalışmalarında temel adımlar

(i) Veri kümesinin seçilmesi ve yapısal/deneysel tanımlayıcıların çıkarılması (ii) değişken seçimi, (iii) model oluşturma ve (iv) doğrulama değerlendirmesi dahil olmak üzere QSAR/QSPR'nin temel adımları.

SAR ve SAR paradoksu

Tüm molekül temelli hipotezler için temel varsayım , benzer moleküllerin benzer aktivitelere sahip olmasıdır. Bu ilke aynı zamanda Yapı-Etkinlik İlişkisi ( SAR ) olarak da adlandırılır . Bu nedenle, temel problem moleküler düzeyde küçük bir farkın nasıl tanımlanacağıdır , çünkü her tür aktivite, örneğin reaksiyon kabiliyeti, biyo- dönüşüm kabiliyeti, çözünürlük , hedef aktivite, vb., başka bir farklılığa bağlı olabilir. Örnekler, Patanie/LaVoie ve Brown tarafından yapılan biyoizosterizm incelemelerinde verilmiştir .

Genel olarak, kişi güçlü eğilimleri bulmakla daha fazla ilgilenir . Oluşturulan hipotezler genellikle sınırlı sayıda kimyasala dayanır , bu nedenle fazla uydurmadan kaçınmak için özen gösterilmelidir : eğitim verilerine çok yakın olan ancak yeni verilere uygulandığında düşük performans gösteren hipotezlerin oluşturulması.

SAR paradoks hepsi benzer moleküller benzer aktivitelere sahip olduğu durum olmadığı gerçeği ifade eder.

Türler

Parça bazlı (grup katkısı)

Benzer şekilde, " bölüm katsayısı " - diferansiyel çözünürlüğün bir ölçümü ve kendisi QSAR tahminlerinin bir bileşenidir - ya atomik yöntemlerle ("XLogP" veya "ALogP" olarak bilinir ) veya kimyasal parça yöntemleriyle ("CLogP" olarak bilinir ) tahmin edilebilir. ve diğer varyasyonlar). Bileşiğin logP'sinin parçalarının toplamı ile belirlenebileceği gösterilmiştir ; Parça tabanlı yöntemler genellikle atomik tabanlı yöntemlerden daha iyi tahmin ediciler olarak kabul edilir. Parçalı değerler, bilinen logP değerleri için deneysel verilere dayalı olarak istatistiksel olarak belirlenmiştir. Bu yöntem, karışık sonuçlar verir ve genellikle ±0,1 birimden fazla doğrulukta güvenilir değildir.

Grup veya Parça tabanlı QSAR, GQSAR olarak da bilinir. GQSAR, biyolojik yanıttaki varyasyonla ilgili olarak, ilgilenilen çeşitli moleküler fragmanları incelemek için esneklik sağlar. Moleküler fragmanlar, türdeş moleküller kümesinde çeşitli ikame bölgelerinde ikame ediciler olabilir veya türdeş olmayan kümeler durumunda önceden tanımlanmış kimyasal kurallar temelinde olabilir. GQSAR ayrıca, aktivite varyasyonunun belirlenmesinde anahtar parça etkileşimlerinin tanımlanmasında yardımcı olabilecek çapraz terimli parça tanımlayıcılarını da dikkate alır. Fragnomics kullanarak öncü keşif, gelişmekte olan bir paradigmadır. Bu bağlamda FB-QSAR, parça kitaplığı tasarımı ve parçadan uça tanımlama çabalarında umut verici bir strateji olduğunu kanıtlamaktadır.

Farmakofor benzerliği kavramına dayalı olarak parça veya grup bazlı QSAR'a ilişkin gelişmiş bir yaklaşım geliştirilmiştir. Bu yöntem, farmakofor benzerliğine dayalı QSAR (PS-QSAR), QSAR modelleri geliştirmek için topolojik farmakoforik tanımlayıcıları kullanır. Bu aktivite tahmini, ilgili fragmanlar tarafından kodlanan belirli farmakofor özelliklerinin aktivite iyileştirmesine ve/veya zararlı etkilere katkısına yardımcı olabilir.

3D-QSAR

3D-QSAR veya 3-D QSAR kısaltması , bilinen aktivitelere (eğitim seti) sahip belirli bir küçük moleküller setinin üç boyutlu yapılarını gerektiren kuvvet alanı hesaplamalarının uygulanmasını ifade eder . Eğitim setinin ya deneysel verilerle (örneğin ligand-protein kristalografisine dayalı olarak ) ya da molekül bindirme yazılımıyla üst üste bindirilmesi (hizalanması) gerekir . Deneysel sabitler yerine hesaplanmış potansiyelleri, örneğin Lennard-Jones potansiyelini kullanır ve tek bir ikameden ziyade genel molekülle ilgilidir. İlk 3-D QSAR, Cramer ve diğerleri tarafından Karşılaştırmalı Moleküler Alan Analizi (CoMFA) olarak adlandırıldı. Kısmi en küçük kareler regresyonu (PLS) aracılığıyla ilişkilendirilen sterik alanları (molekülün şekli) ve elektrostatik alanları inceledi .

Oluşturulan veri alanı daha sonra genellikle aşağıdaki özellik çıkarımı ile azaltılır (ayrıca bkz . boyutsallık azaltma ). Aşağıdaki öğrenme yöntemi, daha önce bahsedilen makine öğrenme yöntemlerinden herhangi biri olabilir , örneğin destek vektör makineleri . Alternatif bir yaklaşım, molekülleri her biri olası bir moleküler yapıyı temsil eden veri örnekleri kümeleri olarak kodlayarak çoklu örnekli öğrenmeyi kullanır . Her kümeye, kümedeki en az bir örnek tarafından belirlendiği varsayılan molekülün aktivitesine karşılık gelen bir etiket veya yanıt atanır (yani, molekülün bazı konformasyonları).

18 Haziran 2011'de Karşılaştırmalı Moleküler Alan Analizi (CoMFA) patenti, GRID ve kısmi en küçük kareler (PLS) teknolojilerinin kullanımına ilişkin herhangi bir kısıtlamayı kaldırdı.

Kimyasal tanımlayıcı bazlı

Bu yaklaşımda, bir molekülün çeşitli elektronik, geometrik veya sterik özelliklerini ölçen tanımlayıcılar hesaplanır ve bir QSAR geliştirmek için kullanılır. Bu yaklaşım, tanımlayıcıların tek tek parçaların özelliklerinden ziyade sistem için bütün olarak hesaplanması bakımından parça (veya grup katkısı) yaklaşımından farklıdır. Bu yaklaşım, tanımlayıcıların 3B alanlardan ziyade skaler niceliklerden (örneğin, enerjiler, geometrik parametreler) hesaplanması bakımından 3B-QSAR yaklaşımından farklıdır.

Bu yaklaşımın bir örneği, yarım sandviç bileşiklerle olefin polimerizasyonu için geliştirilen QSAR'lardır .

modelleme

Literatürde , öznitelik çıkarma ve tümevarımı tek adımda uyguladığı için kimyagerlerin kısmi en küçük kareler (PLS) yöntemlerini tercih ettikleri sıklıkla bulunabilir .

Veri madenciliği yaklaşımı

Bilgisayar SAR modelleri tipik olarak nispeten çok sayıda özelliği hesaplar. Bunlar yapısal yorumlama yeteneğinden yoksun olduklarından, ön işleme adımları bir öznitelik seçme sorunuyla karşı karşıyadır (yani, yapı-aktivite ilişkisini belirlemek için hangi yapısal özelliklerin yorumlanması gerektiği). Özellik seçimi görsel inceleme ile gerçekleştirilebilir (bir insan tarafından niteliksel seçim); veri madenciliği ile; veya molekül madenciliği ile.

Tipik bir veri madenciliğine dayalı tahmin, tahmine dayalı bir öğrenme modeli oluşturmak için örneğin destek vektör makineleri , karar ağaçları , yapay sinir ağları kullanır .

Molekül maden özel bir durum, yaklaşımlar yapılandırılmış veri madenciliği benzerlik matrisi esaslı tahmini ya da moleküler alt yapı içine otomatik bir parçalanma şemasını uygulamak, yaklaşır. Ayrıca, maksimum ortak alt graf aramaları veya graf çekirdeklerini kullanan yaklaşımlar da vardır .

QSAR protokolü

Uyumlu moleküler çift analizi

Tipik olarak doğrusal olmayan makine öğreniminden türetilen QSAR modelleri , tıbbi kimyagerlere rehberlik etmekte başarısız olan bir "kara kutu" olarak görülür. Son zamanlarda, aktivite uçurumlarını tanımlamak için QSAR modeli ile birleştirilen, nispeten yeni bir eşleşen moleküler çift analizi veya tahmine dayalı MMPA kavramı vardır.

QSAR modellerinin kalitesinin değerlendirilmesi

QSAR modellemesi, biyolojik aktivite (istenen terapötik etki ve istenmeyen yan etkiler dahil) veya kimyasalların QSPR modellerindeki fiziko-kimyasal özellikleri (ilaçlar/toksik maddeler/çevre kirleticileri) moleküler yapı veya özellikleri temsil eden tanımlayıcılarla ilişkilendiren istatistiksel araçların uygulanmasından türetilen tahmine dayalı modeller üretir . . QSAR'lar birçok disiplinde uygulanmaktadır, örneğin: ilaç keşfi ve kurşun optimizasyonuna ek olarak risk değerlendirmesi , toksisite tahmini ve düzenleyici kararlar . İyi kalitede bir QSAR modeli elde etmek, girdi verilerinin kalitesi, tanımlayıcıların seçimi ve modelleme ve doğrulama için istatistiksel yöntemler gibi birçok faktöre bağlıdır. Herhangi bir QSAR modellemesi, nihayetinde, yeni bileşiklerin modellenmiş yanıtının doğru ve güvenilir tahminlerini yapabilen istatistiksel olarak sağlam ve tahmine dayalı modellere yol açmalıdır.

QSAR modellerinin doğrulanması için genellikle çeşitli stratejiler benimsenir:

  1. dahili doğrulama veya çapraz doğrulama (aslında, veri ayıklanırken çapraz doğrulama, model sağlamlığının bir ölçüsüdür, bir model ne kadar sağlamsa (daha yüksek q2) orijinal modeli daha az veri çıkarma rahatsız eder);
  2. mevcut veri setini model geliştirme için eğitim setine ve model tahmin kontrolü için tahmin setine bölerek harici doğrulama;
  3. Modelin yeni harici verilere uygulanmasıyla kör harici doğrulama ve
  4. yanıt ve modelleme tanımlayıcıları arasında şans korelasyonunun olmadığını doğrulamak için veri rastgeleleştirme veya Y-karıştırma.

Herhangi bir QSAR modelinin başarısı, girdi verilerinin doğruluğuna, uygun tanımlayıcıların ve istatistiksel araçların seçimine ve en önemlisi geliştirilen modelin doğrulanmasına bağlıdır. Validasyon, belirli bir amaç için bir prosedürün güvenilirliğinin ve uygunluğunun belirlendiği süreçtir; QSAR modelleri için doğrulama esas olarak modellerin sağlamlığı, tahmin performansları ve uygulanabilirlik alanı (AD) için olmalıdır.

Bazı doğrulama metodolojileri sorunlu olabilir. Örneğin, tek seferlik çapraz doğrulama genellikle tahmin kapasitesinin fazla tahmin edilmesine yol açar. Harici doğrulama ile bile, yayınlanan modelin tahmin kapasitesini en üst düzeye çıkarmak için eğitim ve test setlerinin seçiminin değiştirilip değiştirilmediğini belirlemek zordur.

QSAR modellerinin doğrulanmasının dikkat edilmesi gereken farklı yönleri, eğitim seti bileşiklerinin seçim yöntemlerini, eğitim seti boyutunu ayarlamayı ve tahminin kalitesini belirlemek için eğitim seti modelleri için değişken seçiminin etkisini içerir. QSAR modellerinin kalitesini değerlendirmek için yeni doğrulama parametrelerinin geliştirilmesi de önemlidir.

Başvuru

Kimyasal

İlk tarihsel QSAR uygulamalarından biri kaynama noktalarını tahmin etmekti .

Örneğin, belirli bir kimyasal bileşik ailesi içinde , özellikle organik kimyada , yapı ile gözlenen özellikler arasında güçlü korelasyonlar olduğu iyi bilinmektedir . Basit bir örnek olarak karbon sayısı arasındaki ilişki alkanlar ve bunların kaynama noktalarının . Karbon sayısındaki artışla kaynama noktasındaki artışta açık bir eğilim vardır ve bu, daha yüksek alkanların kaynama noktalarını tahmin etmek için bir araç olarak hizmet eder .

Hala çok ilginç bir uygulama, Hammett denklemi , Taft denklemi ve pKa tahmin yöntemleridir.

Biyolojik

Moleküllerin biyolojik aktivitesi genellikle belirli sinyal iletimi veya metabolik yolların inhibisyon seviyesini belirlemek için tahlillerde ölçülür . İlaç keşfi, genellikle, belirli hedefler üzerinde iyi inhibitör etkileri olabilecek ve düşük toksisiteye sahip (spesifik olmayan aktivite) kimyasal yapıları tanımlamak için QSAR kullanımını içerir . Lipinski'nin Beşli Kuralı'na göre " uyuşturucuya benzerliği " belirlemede kullanılan önemli bir ölçü olan bölme katsayısı log P'nin tahmini özellikle ilgi çekicidir .

Birçok kantitatif yapı aktivite ilişkisi analizi, bir molekül ailesinin bir enzim veya reseptör bağlanma bölgesi ile etkileşimlerini içerirken , QSAR proteinlerin yapısal alanları arasındaki etkileşimleri incelemek için de kullanılabilir . Protein-protein etkileşimleri, bölgeye yönelik mutajenezden kaynaklanan yapısal varyasyonlar için nicel olarak analiz edilebilir .

SAR paradoksu riskini azaltmak, özellikle yalnızca sınırlı miktarda verinin mevcut olduğu dikkate alındığında , makine öğrenimi yönteminin bir parçasıdır (ayrıca bkz . MVUE ). Genel olarak, tüm QSAR problemleri kodlama ve öğrenme olarak ikiye ayrılabilir .

Uygulamalar

(Q)SAR modelleri risk yönetimi için kullanılmıştır . QSARS, düzenleyici makamlar tarafından önerilmektedir; içinde Avrupa Birliği , QSARlar tarafından önerilmektedir REACH düzenlenmesi, burada "REACH" abbreviates "Kimyasalların Kaydı, Değerlendirilmesi, İzni ve Kısıtlanması". QSAR yöntemlerinin düzenleyici uygulaması, genotoksik safsızlıkların siliko toksikolojik değerlendirmesini içerir. DEREK veya CASE Ultra (MultiCASE) gibi yaygın olarak kullanılan QSAR değerlendirme yazılımı, ICH M7'ye göre safsızlığın genotoksisitesi için kullanılır .

Dışbükey gövdesi belirli bir kimyasal eğitim seti tarafından üretilen kimyasal tanımlayıcı uzay , eğitim setinin uygulanabilirlik alanı olarak adlandırılır . Uygulanabilirlik alanının dışında bulunan yeni kimyasalların özelliklerinin tahmini , ekstrapolasyon kullanır ve bu nedenle (ortalama olarak) uygulanabilirlik alanı içindeki tahminden daha az güvenilirdir. QSAR tahminlerinin güvenilirliğinin değerlendirilmesi bir araştırma konusu olmaya devam etmektedir.

QSAR denklemleri, daha yeni moleküllerin sentezlerinden önce biyolojik aktivitelerini tahmin etmek için kullanılabilir.

QSAR modellemesi için makine öğrenimi araçlarına örnekler:

S.No. İsim algoritmalar Dış bağlantı
1. r RF,SVM, Naif Bayesian ve ANN "R: İstatistiksel Hesaplama için R Projesi" .
2. libSVM DVM "LIBSVM -- Destek Vektör Makineleri için Bir Kitaplık" .
3. turuncu RF, SVM ve Naif Bayesian "Turuncu Veri Madenciliği" .
4. RapidMiner SVM, RF, Naive Bayes, DT, ANN ve k-NN "RapidMiner | 1 Numaralı Açık Kaynak Tahmine Dayalı Analitik Platformu" .
5. Weka RF, SVM ve Naive Bayes "Weka 3 - Java'da Açık Kaynaklı Makine Öğrenimi Yazılımı ile Veri Madenciliği" .
6. bıçak DT, Naive Bayes ve SVM "KNIME | Yeniliğe Açık" .
7. AZTuruncu RT, SVM, YSA ve RF "AZCompTox/AZOrange: Orange'a AstraZeneca eklentileri" . GitHub . 2018-09-19.
8. tanagra SVM, RF, Naive Bayes ve DT "TANAGRA - Öğretim ve araştırma için ücretsiz bir VERİ MADENCİLİĞİ yazılımı" .
9. Elki k-NN "ELKI Veri Madenciliği Çerçevesi" . Arşivlenmiş orijinal 2016-11-19 tarihinde.
10. MALLET "MALLET ana sayfası" .
11. MOA "MOA Büyük Çevrimiçi Analiz | Veri Akışları için Gerçek Zamanlı Analitik" . Arşivlenmiş orijinal 2017-06-19 tarihinde.
12. derin kimya Lojistik Regresyon, Naive Bayes, RF, ANN ve diğerleri "DeepChem" . deepchem.io . 20 Ekim 2017'de alındı .
13. alvaModel OLS , k-NN "alvaModel: QSAR/QSPR modelleri oluşturmak için bir yazılım aracı" . alvascience.com .

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar