Toplam korelasyon - Total correlation

Gelen olasılık teorisi ve özellikle enformasyon teorisi , toplam korelasyon (Watanabe 1960) çeşitli genellemeler biridir karşılıklı bilgi . Ayrıca olarak bilinen çok değişkenli kısıtlaması (Garner 1962) ya da multiinformation (Studený ve Vejnarová 1999). Bir dizi n rastgele değişken arasındaki fazlalığı veya bağımlılığı nicelendirir .

Tanım

Belirli bir dizi için , n rastgele değişkenler toplam bağıntı olarak tanımlanır Kullback-Leibler sapma ortak dağılımından bağımsız dağıtım ,

Bu ıraksama, entropilerin daha basit farkına indirgenir,

nerede olduğu bilgisi entropi değişkenin ve bir ortak entropi değişken kümesinin . Değişkenler üzerindeki kesikli olasılık dağılımları açısından , toplam korelasyon şu şekilde verilir:

Toplam korelasyon, setteki değişkenler arasında paylaşılan bilgi miktarıdır . Toplam , değişkenlerin birbirlerinden tamamen bağımsız olmaları (yedeksiz) olsaydı sahip olacakları bilgi miktarını bit cinsinden (temel 2 günlükleri varsayarak) veya eşdeğer olarak tüm değişkenlerin değerlerini iletmek için ortalama kod uzunluğunu temsil eder. her değişken bağımsız olarak (optimal olarak) kodlandıysa. Terim , değişken kümesinin içerdiği gerçek bilgi miktarı veya eşdeğer olarak, değişkenler kümesi (optimal olarak) birlikte kodlandıysa tüm değişkenlerin değerlerini iletmek için ortalama kod uzunluğudur. Bu terimler arasındaki fark, bu nedenle, verilen değişkenler setinde mevcut olan mutlak fazlalığı (bit cinsinden) temsil eder ve bu nedenle, değişkenler setinde yer alan yapı veya organizasyonun genel bir nicel ölçüsünü sağlar (Rothstein 1952). Toplam korelasyon aynı zamanda gerçek dağılım ile maksimum entropi çarpımı yaklaşımı arasındaki Kullback-Leibler ayrışmasıdır .

Toplam korelasyon, bir grup değişken arasındaki bağımlılık miktarını ölçer. Sıfıra yakın bir toplam korelasyon, gruptaki değişkenlerin temelde istatistiksel olarak bağımsız olduğunu gösterir; Bir değişkenin değerini bilmenin diğer değişkenlerin değerlerine ilişkin herhangi bir ipucu sağlamaması anlamında tamamen ilgisizdirler. Öte yandan, maksimum toplam korelasyon (sabit bir bireysel entropi kümesi için ) şu şekilde verilir:

ve değişkenlerden biri diğer tüm değişkenleri belirlediğinde ortaya çıkar . Değişkenler daha sonra, bir değişkenin değerini bilmenin diğer tüm değişkenlerin değerleri hakkında tam bilgi sağlaması anlamında en üst düzeyde ilişkilidir ve değişkenler mecazi olarak bir çarkın pozisyonunun tümünün konumlarını belirlediği çark dişleri olarak kabul edilebilir . diğerleri (Rothstein 1952).

Toplam korelasyonun bir dizi değişken arasındaki tüm fazlalıkları saydığına dikkat etmek önemlidir , ancak bu fazlalıklar değişken kümesi boyunca çeşitli karmaşık yollarla dağıtılabilir (Garner 1962). Örneğin, kümedeki bazı değişkenler tamamen birbirleri arasında yedekli olabilirken, kümedeki diğerleri tamamen bağımsız olabilir. Belki daha da önemlisi, artıklık, çeşitli derecelerde etkileşimlerde taşınabilir: Bir grup değişken, herhangi bir ikili fazlalığa sahip olmayabilir, ancak parite işlevi tarafından örneklenen türden daha yüksek dereceli etkileşim fazlalıklarına sahip olabilir . Toplam korelasyonun bileşen fazlalıklarına ayrışması çeşitli kaynaklarda incelenmiştir (Mcgill 1954, Watanabe 1960, Garner 1962, Studeny & Vejnarova 1999, Jakulin & Bratko 2003a, Jakulin & Bratko 2003b, Nemenman 2004, Margolin ve diğerleri 2008, Han 1978, Han 1980).

Koşullu toplam korelasyon

Koşullu toplam korelasyon, toplam korelasyona benzer şekilde tanımlanır, ancak her terime bir koşul eklenir. Koşullu toplam korelasyon, benzer şekilde, iki koşullu olasılık dağılımı arasındaki Kullback-Leibler sapması olarak tanımlanır,

Yukarıdakine benzer şekilde, koşullu toplam korelasyon, koşullu entropi farkına indirgenir,

Toplam korelasyon kullanımları

Toplam korelasyona dayalı kümeleme ve özellik seçme algoritmaları Watanabe tarafından araştırılmıştır. Alfonso vd. (2010) su izleme ağlarının optimizasyonuna toplam korelasyon kavramını uygulamıştır.

Ayrıca bakınız

Referanslar

  • Alfonso, L., Lobbrecht, A. ve Price, R. (2010). Bilgi Teorisi Kullanılarak Polder Sistemlerinde Su Seviyesi İzleme Ağının Optimizasyonu , Su Kaynakları Araştırması , 46, W12553, 13 PP., 2010, doi : 10.1029 / 2009WR008953 .
  • Garner WR (1962). Psikolojik Kavramlar Olarak Belirsizlik ve Yapı , John Wiley & Sons, New York.
  • Han TS (1978). Çok değişkenli simetrik korelasyonların negatif olmayan entropi ölçümleri, Bilgi ve Kontrol 36 , 133–156.
  • Han TS (1980). Çoklu karşılıklı bilgi ve frekans verilerinde çoklu etkileşim, Bilgi ve Kontrol 46 , 26–45.
  • Jakulin A ve Bratko I (2003a). Nitelik Bağımlılıklarını Analiz Etme, N Lavra \ quad {c}, D Gamberger, L Todorovski ve H Blockeel, eds, 7. Avrupa Veritabanlarında Bilgi Keşfi İlkeleri ve Uygulaması Konferansı Bildirileri , Springer, Cavtat-Dubrovnik, Hırvatistan, s. 229–240.
  • Jakulin A ve Bratko I (2003b). Nitelik etkileşimlerinin nicelendirilmesi ve görselleştirilmesi [1] .
  • Margolin A, Wang K, Califano A ve Nemenman I (2010). Çok değişkenli bağımlılık ve genetik ağ çıkarımı. IET Syst Biol 4 , 428.
  • McGill WJ (1954). Çok değişkenli bilgi iletim, Psychometrika 19 , 97-116.
  • Nemenman I (2004). Bilgi teorisi, çok değişkenli bağımlılık ve genetik ağ çıkarımı [2] .
  • Rothstein J (1952). Organizasyon ve entropi, Journal of Applied Physics 23 , 1281–1282.
  • Studený M ve Vejnarová J (1999). MI Jordan, ed., Learning in Graphical Models , MIT Press, Cambridge, MA, s. 261–296'da, stokastik bağımlılığı ölçmek için bir araç olarak çoklu bilgi işlevi.
  • Watanabe S (1960). Çok değişkenli korelasyonun bilgi teorik analizi, IBM Araştırma ve Geliştirme Dergisi 4 , 66–82.