Kanonik korelasyon - Canonical correlation

Gelen istatistik , kanonik korelasyon analizi ( CCA da denir), kanonik analiz dağılımı özellikleri , bilgi çıkarım bir yoludur çapraz kovaryans matrisleri . İki vektörleri ise X  = ( X 1 , ...,  x , n ) ve Y  = ( E 1 , ...,  Y, m ) ve rastgele değişkenler ve orada korelasyonlar değişkenler arasında, daha sonra standart-korelasyon analizi olacak X ve Y'nin birbirleriyle maksimum korelasyona sahip lineer kombinasyonlarını bulun . TR Knapp, "hemen hemen tüm yaygın olarak karşılaşılan parametrik önem testlerinin , iki değişken kümesi arasındaki ilişkileri araştırmak için genel prosedür olan kanonik korelasyon analizinin özel durumları olarak ele alınabileceğini" belirtiyor. Yöntem ilk olarak 1936'da Harold Hotelling tarafından tanıtıldı , ancak daireler arasındaki açılar bağlamında matematiksel kavram 1875'te Jordan tarafından yayınlandı.

Tanım

İki verilen sütun vektörlerinin ve bir rastgele değişken ile sonlu ikinci anlar , tek bir tanımlayabilir çapraz kovaryans için matris olan giriştir kovaryans . Pratikte, kovaryans matrisini ve (yani bir çift veri matrisinden) örneklenmiş verilere dayanarak tahmin ederiz .

Kanonik korelasyon analizi, ( ) ve ( ) vektörlerini , rastgele değişkenleri ve korelasyonu maksimize edecek şekilde arar . Rastgele değişkenler ve vardır kanonik değişkenlerin birinci çift . Daha sonra, birinci kanonik değişken çifti ile ilişkisiz olmaları kısıtlamasına tabi olarak aynı korelasyonu maksimize eden vektörler aranır; bu, ikinci kurallı değişken çiftini verir . Bu prosedür defalarca devam ettirilebilir .

Hesaplama

türetme

Let olmak çapraz kovaryans matrisi herhangi bir rasgele değişkenler için ve . Maksimize edilecek hedef fonksiyon

İlk adım, bir temel değişikliği tanımlamak ve

Ve böylece biz varız

By Cauchy-Schwarz eşitsizliği , elimizdeki

Vektörler ve doğrusal ise eşitlik vardır . Buna ek olarak, maksimum korelasyon halinde elde edilir olduğunu özvektör matrisi için maksimum özdeğer ile (bakınız , Rayleigh bölüm ). Sonraki çiftler, azalan büyüklüklerin özdeğerleri kullanılarak bulunur . Ortogonallik, korelasyon matrislerinin simetrisi ile garanti edilir.

Bu hesaplama görüntüleme başka bir yolu olduğunu ve sol ve sağ olan tekil vektörler X ve Y en tekil değerine karşılık gelen bağıntı matrisinin.

Çözüm

Çözüm bu nedenle:

  • bir özvektördür
  • Orantılıdır

Karşılıklı olarak da var:

  • bir özvektördür
  • Orantılıdır

Koordinat değişimini tersine çevirdiğimizde,

  • özvektörüdür ,
  • Orantılıdır
  • bir özvektördür
  • ile orantılıdır .

Kanonik değişkenler şu şekilde tanımlanır:

uygulama

CCA, bir korelasyon matrisi üzerinde tekil değer ayrıştırması kullanılarak hesaplanabilir . içinde bir fonksiyon olarak mevcuttur.

Kullanılarak CCA hesaplama tekil değer ayrışımı korelasyon matriks üzerinde ilgilidir kosinüs ait daireler arasında açılar . Kosinüs fonksiyonu olan kötü durumdaki sonlu olarak yüksek korelasyon başlıca vektörler çok yanlış hesaplamasına yol açan küçük açılar için hassas bir bilgisayar aritmetik . Bu sorunu gidermek için alternatif algoritmalar şurada mevcuttur:

Hipotez testi

Her satır, aşağıdaki yöntemle anlamlılık açısından test edilebilir. Korelasyonlar sıralandığından, satırın sıfır olduğunu söylemek, diğer tüm korelasyonların da sıfır olduğu anlamına gelir. Bir örneklemde bağımsız gözlemlerimiz varsa ve bunun için tahmin edilen korelasyon ise . İçin inci sıranın, Test istatistiği:

büyük için serbestlik dereceleri ile ki-kare olarak asimptotik olarak dağıtılır . Tüm korelasyonların yana üzere mantıksal olarak sıfıra (ve aynı zamanda yolu olduğu tahmin) Bu noktadan sonra terimler için ürün önemsizdir.

O zaman ile küçük örneklem boyutu limitinde , üst korelasyonların aynı şekilde 1 olacağının garanti edildiğini ve dolayısıyla testin anlamsız olduğunu unutmayın.

pratik kullanımlar

Kanonik bağıntının deneysel bağlamda tipik bir kullanımı, iki değişken kümesi almak ve iki küme arasında neyin ortak olduğunu görmektir. Örneğin, psikolojik testlerde, Minnesota Çok Yönlü Kişilik Envanteri (MMPI-2) ve NEO gibi iyi kurulmuş iki çok boyutlu kişilik testi yapılabilir . MMPI-2 faktörlerinin NEO faktörleriyle nasıl ilişkili olduğunu görerek, testler arasında hangi boyutların ortak olduğu ve ne kadar varyansın paylaşıldığı hakkında fikir sahibi olunabilir. Örneğin, bir dışadönüklük veya nevrotiklik boyutunun, iki test arasında önemli miktarda paylaşılan varyanstan sorumlu olduğu bulunabilir.

Kanonik korelasyon analizi, örneğin bir dizi performans ölçüsü ve bir dizi açıklayıcı değişken veya bir dizi çıktı ve girdi seti gibi iki değişken grubunu ilişkilendiren bir model denklemi üretmek için de kullanılabilir. Teorik gereksinimleri veya sezgisel olarak açık koşulları yansıtmasını sağlamak için böyle bir modele kısıtlama kısıtlamaları getirilebilir. Bu tür bir model, maksimum korelasyon modeli olarak bilinir.

Kanonik korelasyon sonuçlarının görselleştirilmesi, genellikle, önemli korelasyon gösteren kanonik değişken çiftleri için iki değişken kümesinin katsayılarının çubuk grafikleri aracılığıyla yapılır. Bazı yazarlar, bunların en iyi şekilde, her bir yarının iki değişken grubunu temsil ettiği, ışın benzeri çubuklara sahip dairesel bir format olan heliograflar olarak çizilerek görselleştirilebileceğini öne sürüyorlar.

Örnekler

Let sıfır ile beklenen değer , yani . Eğer , yani ve mükemmel bir şekilde bağıntılıysa, o zaman örn. ve , böylece ilk (ve yalnızca bu örnekte) kurallı değişken çifti ve olur . Eğer , ie ve mükemmel bir şekilde korelasyonluysa, o zaman örn. ve , böylece ilk (ve yalnızca bu örnekte) kurallı değişken çifti and olur . Her iki durumda da , kanonik korelasyon analizinin korelasyonlu ve antikorelasyonlu değişkenleri benzer şekilde ele aldığını gösterir.

Asal açılara bağlantı

Varsayılarak ve sıfır olması beklenen değerler , yani , bunların kovaryans matrisi ve şekilde izlenebilir gram matrisleri bir in iç çarpım ait girişler için ve buna uygun olarak,. Bu yorumlama, rasgele değişkenler, girişler arasında ve içinde verilen bir iç ürün ile bir vektör alan elemanlar olarak kabul edilir kovaryans ; bkz. Kovaryans#İç çarpımlarla ilişki .

Kanonik değişkenlerin tanımı ve daha sonra bu iç çarpım ve girişleri tarafından yayılan alt uzay çifti için ana vektörlerin tanımına eşdeğerdir . Kanonik korelasyonlar eşittir kosinüs ve ana açıları .

Beyazlatma ve olasılıksal kanonik korelasyon analizi

CCA da özel olarak görülebilir beyazlatma dönüşümü burada rasgele vektörler ve eş zamanlı olarak beyazlatılmış vektörleri arasındaki çapraz korelasyon bu şekilde transforme edilir ve köşegendir. Kanonik korelasyonlar sonra regresyon katsayısı bağlama olarak yorumlanır ve hem de negatif olabilir. CCA'nın regresyon görünümü ayrıca, paylaşılan ve paylaşılmayan değişkenliği temsil eden ilişkisiz gizli değişkenler ile CCA için bir gizli değişken olasılıklı üretici model oluşturmanın bir yolunu sağlar.

Ayrıca bakınız

Referanslar

Dış bağlantılar

  1. ^ Haghighat, Mohammad; Abdel-Mottaleb, Mohamed; Alhalabi, Wadee (2016). "Ayrımcı Korelasyon Analizi: Multimodal Biyometrik Tanıma için Gerçek Zamanlı Özellik Düzeyinde Füzyon" . Adli Bilgi ve Güvenliğine İlişkin IEEE İşlemleri . 11 (9): 1984–1996. doi : 10.1109/TIFS.2016.2569061 .