Mahalanobis mesafesi - Mahalanobis distance

Mahalanobis mesafe noktası arasındaki mesafenin bir ölçüsüdür P ve dağıtım D tarafından ortaya P.C. Mahalanobis Bu kaç ölçme fikrinin çok boyutlu bir genellemedir 1936 yılında standart sapmaları uzaklıkta p ila ortalama bir D . Bu mesafe için sıfırdır P ortalama en D gibi büyür p her biri boyunca uzakta ortalama hareket eder temel komponent ekseni. Bu eksenlerin her biri birim varyansa sahip olacak şekilde yeniden ölçeklenirse, Mahalanobis mesafesi dönüştürülmüş uzayda standart Öklid mesafesine karşılık gelir . Mahalanobis mesafe böylece bir birimsiz , ölçek değişmez ve göz önünde korelasyon arasında veri seti .

Tanım ve özellikler

Ortalama ve kovaryans matrisi S olan bir gözlem kümesinden bir gözlemin Mahalanobis uzaklığı şu şekilde tanımlanır:

Mahalanobis mesafe (ya da karesi değeri için "genel kare Interpoint mesafesi") iki arasında bir farklılık ölçüsü olarak tanımlanabilir rasgele vektörler ve bunların dağılımı ile kovaryans matrisi :

Olarak kovaryans matrisidir, bunun yarı tanımlı pozitif ve pozitif yarı tanımlı matrisin tersi de pozitif yarı tanımlı olduğu için, buna sahip pozitif yarı kesin. Bu, tüm değerler pozitif olduğu için neden karekök alınabileceğini açıklar.

Kovaryans matrisi birim matris ise, Mahalanobis mesafesi Öklid mesafesine düşer . Kovaryans matrisi köşegen ise , elde edilen mesafe ölçüsüne standartlaştırılmış Öklid mesafesi denir :

burada s i olan standart sapması ve x ı ve y ı örnek kümesi üzerinde.

Mahalanobis mesafesi, verilerin kapsadığı uzayın tam sıralı doğrusal dönüşümleri altında korunur . Bu, verinin önemsiz bir boş uzaya sahip olması durumunda, veriyi (dejenere olmayan bir şekilde) veri için uygun boyutun herhangi bir alanına yansıttıktan sonra Mahalanobis mesafesinin hesaplanabileceği anlamına gelir .

Kare Mahalanobis mesafesinin, çok değişkenli gözlemlerin aykırılığının bazı nedenlerini açıklamaya yardımcı olan ve ayrıca aykırı değerleri belirlemek için grafiksel bir araç sağlayan faydalı ayrıştırmalarını bulabiliriz.

Sezgisel açıklama

N -boyutlu Öklid uzayındaki bir test noktasının , bize kesinlikle o kümeye ait olan örnek noktaların verildiği bir kümeye ait olma olasılığını tahmin etme problemini ele alalım . İlk adımımız , numune noktalarının ağırlık merkezini veya kütle merkezini bulmak olacaktır . Sezgisel olarak, söz konusu nokta bu kütle merkezine ne kadar yakınsa, kümeye ait olma olasılığı o kadar yüksektir.

Bununla birlikte, kümenin geniş bir aralığa mı yoksa küçük bir aralığa mı dağıldığını da bilmemiz gerekir, böylece merkezden verilen bir uzaklığın kayda değer olup olmadığına karar verebiliriz. Basit yaklaşım, numune noktalarının kütle merkezinden uzaklıklarının standart sapmasını tahmin etmektir . Test noktası ile kütle merkezi arasındaki mesafe bir standart sapmadan az ise, test noktasının kümeye ait olma olasılığının yüksek olduğu sonucuna varabiliriz. Ne kadar uzaksa, test noktasının kümeye ait olarak sınıflandırılmaması daha olasıdır.

Bu sezgisel yaklaşım, test noktası ile olacak set arasındaki normalleştirilmiş mesafeyi tanımlayarak nicel hale getirilebilir , şöyle ki: . Bunu normal dağılıma bağlayarak, test noktasının kümeye ait olma olasılığını türetebiliriz.

Yukarıdaki yaklaşımın dezavantajı, örnek noktaların kütle merkezi etrafında küresel bir şekilde dağıldığını varsaymamızdı. Dağılım kesinlikle küresel değilse, örneğin elipsoidal olsaydı, kümeye ait test noktasının olasılığının yalnızca kütle merkezinden uzaklığa değil, aynı zamanda yöne de bağlı olmasını beklerdik. Elipsoidin ekseninin kısa olduğu yönlerde test noktası daha yakın olmalıdır, eksenin uzun olduğu yönlerde ise test noktası merkezden daha uzakta olabilir.

Bunu matematiksel bir temele oturtarak, kümenin olasılık dağılımını en iyi temsil eden elipsoid, örneklerin kovaryans matrisi oluşturularak tahmin edilebilir. Mahalanobis mesafesi, test noktasının kütle merkezinden olan mesafesinin, test noktası yönünde elipsoidin genişliğine bölümüdür.

Normal dağılımlar

Bir için normal dağılım boyutlarının herhangi bir sayıda, bir gözlem olasılık yoğunluk benzersiz Mahalanobis mesafe ile belirlenir :

Spesifik olarak, aşağıdaki ki-kare dağılımı ile serbestlik derecesini normal dağılım boyutları sayısıdır. Boyut sayısı 2 ise, örneğin, belirli bir hesaplanan olasılığı az bir eşikten bir varlık değildir . Belirli bir olasılığa ulaşmak için bir eşik belirlemek için 2 boyut için , kullanın . 2 dışındaki boyut sayısı için kümülatif ki-kare dağılımına başvurulmalıdır.

Normal bir dağılımda, Mahalanobis mesafesinin birden küçük olduğu bölge (yani elipsoidin içinde bir mesafedeki bölge) tam olarak olasılık dağılımının içbükey olduğu bölgedir .

Mahalanobis mesafesi, normal bir dağılım için, negatif log olasılığının kareköküyle orantılıdır (bir sabit eklendikten sonra, böylece minimum sıfırda olur).

Normal rastgele değişkenlerle ilişki

Genel olarak, varyans ve ortalama ile normal ( Gauss ) bir rastgele değişken verildiğinde , herhangi bir diğer normal rastgele değişken (ortalama ve varyans ile ) denklem ile tanımlanabilir Tersine, herhangi bir normal rastgele değişkenden normalleştirilmiş bir rastgele değişkeni kurtarmak için, bir genellikle için çözebilir . Her iki tarafın karesini alırsak ve karekökünü alırsak, Mahalanobis mesafesine çok benzeyen bir metrik için bir denklem elde ederiz:

Ortaya çıkan büyüklük her zaman negatif değildir ve veriler için bir model tanımlamaya çalışırken uygun nitelikler olan verilerin ortalamadan uzaklığına göre değişir.

Kaldıraç ilişkisi

Mahalanobis mesafe yakından ilişkilidir kaldıraç istatistiğinin , ancak farklı bir ölçeğe sahip:

Uygulamalar

Mahalanobis'in tanımı, 1927'de yapılan ölçümlere dayalı olarak kafataslarının benzerliklerini belirleme problemi tarafından harekete geçirildi.

Mahalanobis uzaklığı, küme analizi ve sınıflandırma tekniklerinde yaygın olarak kullanılmaktadır . Çok değişkenli istatistiksel testler için kullanılan Hotelling'in T-kare dağılımı ve denetimli sınıflandırma için kullanılan Fisher's Lineer Diskriminant Analizi ile yakından ilişkilidir .

Bir test noktasını N sınıflarından birine ait olarak sınıflandırmak için Mahalanobis mesafesini kullanmak için , genellikle her sınıfa ait olduğu bilinen örneklere dayalı olarak her sınıfın kovaryans matrisi tahmin edilir. Daha sonra, bir test örneği verildiğinde, her sınıfa Mahalanobis mesafesi hesaplanır ve test noktası, Mahalanobis mesafesinin minimum olduğu o sınıfa ait olarak sınıflandırılır.

Mahalanobis mesafesi ve kaldıraç , özellikle doğrusal regresyon modellerinin geliştirilmesinde, aykırı değerleri tespit etmek için sıklıkla kullanılır . Örnek popülasyonun geri kalanından daha büyük bir Mahalanobis mesafesine sahip olan bir noktanın, regresyon denkleminin eğimi veya katsayıları üzerinde daha büyük bir etkisi olduğu için daha yüksek kaldıraca sahip olduğu söylenir. Mahalanobis uzaklığı ayrıca çok değişkenli aykırı değerleri belirlemek için kullanılır. Regresyon teknikleri, iki veya daha fazla değişken puanın kombinasyonu yoluyla bir örneklem popülasyonundaki belirli bir durumun aykırı değer olup olmadığını belirlemek için kullanılabilir. Normal dağılımlar için bile, herhangi bir değişken için tek değişkenli bir aykırı değer olmasa bile bir nokta çok değişkenli bir aykırı değer olabilir ( örneğin , çizgi boyunca yoğunlaşmış bir olasılık yoğunluğunu düşünün ), Mahalanobis mesafesini boyutları tek tek kontrol etmekten daha hassas bir ölçü haline getirir.

Yazılım uygulamaları

R , Python vb. gibi birçok program ve istatistik paketi Mahalanobis mesafesinin uygulamalarını içerir.

Dil/program İşlev Referans
r mahalanobis(x, center, cov, inverted = FALSE, ...) [1]
SciPy ( Python ) mahalanobis(u, v, VI) [2]
Julia mahalanobis(x, y, Q) [3]

Ayrıca bakınız

  • Bregman sapması (Maalanobis mesafesi, Bregman sapmasına bir örnektir)
  • Bhattacharyya mesafesi ile ilgili, veri kümeleri arasındaki benzerliği ölçmek için (bir nokta ile bir veri kümesi arasında değil)
  • Hamming mesafesi , farkı iki dizenin parça parça tanımlar
  • Hellinger mesafesi , aynı zamanda veri kümeleri arasındaki mesafenin bir ölçüsüdür.
  • Benzerlik öğrenme , diğer yaklaşımlar için örneklerden bir mesafe metriği öğrenmek.

Referanslar

Dış bağlantılar