Heteroskedastisite - Heteroscedasticity

Değişen varyansı gösteren rastgele verilerle arsa

Olarak istatistik , bir vektör rastgele değişken olan varyans (veya heteroskedastic ; gelen eski Yunanca heteroatom "farklı" ve skedasis "dispersiyon") değişkenliği halinde rastgele rahatsızlık vektörünün unsurları arasında farklıdır. Burada değişkenlik, varyans veya istatistiksel dağılımın herhangi bir başka ölçüsü ile nicelleştirilebilir . Dolayısıyla değişen varyans, homoskedastisitenin olmamasıdır . Tipik bir örnek, farklı şehirlerdeki gelir gözlemleridir.

Değişen varyansın varlığı , modelleme hatalarının hepsinin aynı varyansa sahip olduğunu varsayan istatistiksel anlamlılık testlerini geçersiz kıldığı için, regresyon analizinde ve varyans analizinde önemli bir endişe kaynağıdır . İken sıradan en küçük kareler tahmincisi hala varyans varlığında tarafsız, o verimsiz ve bir genelleştirilmiş en küçük kareler yerine kullanılmalıdır.

Değişen varyans , hataların ikinci momentinin beklentileriyle ilgili olduğundan , varlığına ikinci dereceden yanlış tanımlama denir .

Ekonometricinin Robert Engle 2003 kazandı Ekonomi Nobel Ödülü'nü üzerine yaptığı çalışmalar için regresyon analizi yaptığı formülasyonuna yol açan varyans varlığında Koşullu Değişen Varyans tekniğini modelleme (ARCH).

Tanım

Bağımlı rasgele değişkenin , deterministik değişken çarpı katsayı artı ortalama sıfır olan bir rasgele bozulma terimine eşit olduğu regresyon denklemini düşünün . 'nin varyansı bir sabit ise , bozulmalar homoskedastiktir ; aksi halde heteroskedastiktirler. Özellikle, 'nin varyansı i'ye veya 'nin değerine bağlıysa, bozulmalar heteroskedastiktir . Değişken varyanslı olabilmelerinin bir yolu if (bir skedastik fonksiyon örneği ), yani varyans x'in değeriyle orantılıdır.

Daha genel olarak, i boyunca bozulmanın varyans-kovaryans matrisinin sabit olmayan bir köşegeni varsa, bozulma heteroskedastiktir. Aşağıdaki matrisler, zaman içinde yalnızca üç gözlem olduğunda kovaryanslardır. A matrisindeki bozulma homoskedastiktir; Bu, OLS'nin en iyi doğrusal yansız tahmin edici olduğu basit durumdur. B ve C matrislerindeki bozulmalar heteroskedastiktir. B matrisinde, varyans zamanla değişmekte olup, zaman içinde istikrarlı bir şekilde artmaktadır; C matrisinde, varyans x'in değerine bağlıdır. D matrisindeki bozulma homoskedastiktir, çünkü köşegen dışı kovaryanslar sıfır olmasa bile köşegen varyanslar sabittir ve sıradan en küçük kareler farklı bir nedenden dolayı verimsizdir: seri korelasyon.

Sonuçlar

Klasik lineer regresyon modelinin varsayımlarından biri değişen varyans olmamasıdır. Bu varsayımı kırmak, Gauss-Markov teoreminin geçerli olmadığı anlamına gelir, yani OLS tahmin edicileri En İyi Doğrusal Tarafsız Tahminciler (MAVİ) değildir ve bunların varyansı diğer tüm yansız tahmin edicilerin en düşük değeri değildir. Varyans yapar değil sıradan en küçük kareler katsayı tahminleri önyargılı olmak neden bu katsayılar Varyans (ve dolayısıyla, standart hataları) sıradan en küçük kareler tahminleri muhtemelen üstünde veya nüfus varyans gerçek aşağıda, önyargılı neden rağmen. Bu nedenle, değişen varyans verilerini kullanan regresyon analizi, tahmin değişkeni ile sonuç arasındaki ilişki için yine de yansız bir tahmin sağlayacaktır, ancak standart hatalar ve dolayısıyla veri analizinden elde edilen çıkarımlar şüphelidir. Önyargılı standart hatalar, yanlı çıkarsamaya yol açar, bu nedenle hipotez testlerinin sonuçları muhtemelen yanlıştır. Örneğin, OLS bir heteroskedastik veri seti üzerinde gerçekleştirilirse ve yanlı standart hata tahmini verirse, bir araştırmacı , bu boş hipotez aslında gerçek popülasyonun karakteristik özelliği olmadığında (bir tip II yaparak) belirli bir anlamlılık düzeyinde bir boş hipotezi reddetmede başarısız olabilir. hata ).

Belirli varsayımlar altında, OLS tahmincisi, uygun şekilde normalleştirildiğinde ve merkezlendiğinde (veriler normal dağılımdan gelmese bile) normal bir asimptotik dağılıma sahiptir . Bu sonuç, bir hipotez testi yapılırken normal bir dağılım veya bir ki kare dağılımı ( test istatistiğinin nasıl hesaplandığına bağlı olarak) kullanarak doğrulamak için kullanılır . Bu, heteroskedastisite altında bile geçerlidir. Daha kesin olarak, değişen varyans varlığında OLS tahmincisi, uygun şekilde normalleştirildiğinde ve merkezlendiğinde, homoskedastisite durumundan farklı bir varyans-kovaryans matrisi ile asimptotik olarak normaldir . 1980'de White , OLS tahmincisinin asimptotik dağılımının varyans-kovaryans matrisi için tutarlı bir tahmin edici önerdi . Bu, değişen varyans altında OLS tahmincileri ve White'ın varyans-kovaryans tahmincisi kullanılarak hipotez testinin kullanımını doğrular.

Heteroskedastisite aynı zamanda ANOVA problemlerinde karşılaşılan önemli bir pratik sorundur . F testi hala bazı durumlarda kullanılabilir.

Ancak ekonometrideki öğrencilerin değişen varyansa aşırı tepki vermemeleri gerektiği söylenmiştir . Bir yazar, "eşit olmayan hata varyansı, yalnızca sorun ciddi olduğunda düzeltmeye değerdir" diye yazdı. Buna ek olarak, başka bir uyarı kelimesi, "heteroskedastisite hiçbir zaman aksi halde iyi bir modeli atmak için bir neden olmamıştır" şeklindeydi. Hata teriminin koşullu ikinci momentini belirtmeden çıkarsamaya izin veren değişen varyansla tutarlı standart hataların ortaya çıkmasıyla birlikte, koşullu homoskedastisiteyi test etmek geçmişte olduğu kadar önemli değildir.

Bununla birlikte, doğrusal olmayan herhangi bir model için (örneğin Logit ve Probit modelleri), değişen varyanslılığın daha ciddi sonuçları vardır: parametrelerin maksimum olabilirlik tahminleri (MLE), tutarsız olduğu kadar yanlı olacaktır (olabilirlik fonksiyonu doğru şekilde değiştirilmediği sürece). değişen varyansın kesin biçimini hesaba katın). Yine de, ikili seçim modelleri ( Logit veya Probit ) bağlamında , değişen varyans yalnızca yanlış tanımlanmış MLE'nin (yani değişen varyansı göz ardı eden model) asimptotik ortalaması üzerinde pozitif bir ölçekleme etkisi ile sonuçlanacaktır. Sonuç olarak, yanlış tanımlanmış MLE'ye dayanan tahminler doğru kalacaktır. Ek olarak, yanlış tanımlanmış Probit ve Logit MLE, olağan anlamlılık testlerinin (uygun varyans-kovaryans matrisi ile) gerçekleştirilmesine izin verecek şekilde asimptotik olarak normal olarak dağıtılacaktır. Bununla birlikte, genel hipotez testi ile ilgili olarak, Greene tarafından belirtildiği gibi , “başka türlü tutarsız bir tahmin edici için sadece sağlam bir kovaryans matrisi hesaplamak, onu kurtarmaz. Sonuç olarak, bu ortamda sağlam bir kovaryans matrisinin erdemi belirsizdir.”

Tespit etme

Simüle edilmiş birinci dereceden değişen varyans verileri için artıkların mutlak değeri

Değişen varyansın varlığını test etmek için birkaç yöntem vardır. Gruplar arası değişen varyans testleri resmi olarak regresyon modelleri içinde özel bir test durumu olarak kabul edilebilse de, bazı testler bu duruma özgü yapılara sahiptir.

Regresyondaki testler
Gruplandırılmış veriler için testler

Bu testler, bir test istatistiğinden (verinin bir fonksiyonu olarak sayısal bir değer veren matematiksel bir ifade), test edilecek bir hipotezden ( boş hipotez ), alternatif bir hipotezden ve istatistiğin altında dağılımı hakkında bir ifadeden oluşur. boş hipotez.

Pek çok tanıtıcı istatistik ve ekonometri kitabı, pedagojik nedenlerle bu testleri, eldeki veri setinin normal bir dağılımdan geldiği varsayımı altında sunar. Büyük bir yanılgı, bu varsayımın gerekli olduğu düşüncesidir. Yukarıda özetlenen değişen varyans tespit yöntemlerinin çoğu, veriler normal bir dağılımdan gelmese bile kullanım için değiştirilebilir. Çoğu durumda, bu varsayım, aynı veya benzer test istatistiklerine dayanan ancak alternatif yollarla değerlendirilen sıfır hipotezi altındaki dağılımla birlikte bir test prosedürü vererek gevşetilebilir: örneğin, asimptotik teoriden elde edilebilen asimptotik dağılımlar kullanılarak , veya yeniden örnekleme kullanarak .

Düzeltmeler

Değişen varyans için beş yaygın düzeltme vardır. Onlar:

  • Logaritmik verileri görüntüleyin . Üstel olarak büyüyen logaritmikleştirilmemiş seriler, zaman içinde seri arttıkça artan değişkenliğe sahip gibi görünmektedir. Bununla birlikte, yüzde cinsinden değişkenlik oldukça kararlı olabilir.
  • Model (çeşitli farklı özellikleri kullanarak X- belki de değişkenleri ya da doğrusal olmayan dönüşümler X değişkenler).
  • OLS'nin X ve Y'nin dönüştürülmüş veya ağırlıklı değerlerine uygulandığı ağırlıklı bir en küçük kareler tahmin yöntemi uygulayın . Ağırlıklar, genellikle değişen hata varyanslarına bağlı olarak gözlemlere göre değişir. Bir varyasyonda, ağırlıklar doğrudan bağımlı değişkenin büyüklüğü ile ilgilidir ve bu, en küçük kareler yüzdesi regresyonuna karşılık gelir.
  • Değişken varyansla tutarlı standart hatalar (HCSE), hala önyargılı olsa da, OLS tahminlerini iyileştirmektedir. HCSE, değişen varyanslı regresyon modellerinde standart hataların tutarlı bir tahmincisidir. Bu yöntem, katsayıların değerlerini değiştirmeden değişen varyansı düzeltir. Bu yöntem normal OLS'den daha üstün olabilir, çünkü değişen varyans varsa onu düzeltir, ancak veriler homoskedastik ise standart hatalar OLS tarafından tahmin edilen geleneksel standart hatalara eşdeğerdir. Değişken varyansla tutarlı standart hataları hesaplamak için White yönteminin çeşitli modifikasyonları, üstün sonlu örnek özelliklerine sahip düzeltmeler olarak önerilmiştir.
  • Kullanım MINQUE ya da bilinen tahmin için ( bağımsız numune olan verim kaybı numune başına gözlem sayısı (büyük olduğunda önemli değildir gözlemler her biri), özellikle bağımsız numune az sayıda).

Örnekler

Heteroskedastisite genellikle gözlemlerin boyutları arasında büyük bir fark olduğunda ortaya çıkar.

  • Değişen varyansın klasik bir örneği, gelire karşı yemek harcamasıdır. Kişinin geliri arttıkça, gıda tüketiminin değişkenliği artacaktır. Daha fakir bir insan, her zaman ucuz yiyecekler yiyerek oldukça sabit bir miktar harcayacaktır; daha zengin bir kişi ara sıra ucuz yiyecekler satın alabilir ve diğer zamanlarda pahalı yemekler yiyebilir. Daha yüksek gelire sahip olanlar, gıda tüketiminde daha fazla değişkenlik gösterirler.
  • Yakınlarda bir roketin kalkışını izlediğinizi ve her saniyede bir kat ettiği mesafeyi ölçtüğünüzü hayal edin. İlk birkaç saniyede ölçümleriniz, örneğin en yakın santimetreye kadar doğru olabilir. Bununla birlikte, roket uzaya geri çekilirken 5 dakika sonra, artan mesafe, atmosferik bozulma ve çeşitli diğer faktörler nedeniyle ölçümlerinizin doğruluğu yalnızca 100 m'ye kadar iyi olabilir. Topladığınız veriler değişen varyans sergileyecektir.

çok değişkenli durum

Değişen varyans çalışması, skaler gözlemlerin varyansı yerine vektör gözlemlerinin kovaryanslarıyla ilgilenen çok değişkenli duruma genelleştirilmiştir. Bunun bir versiyonu, çok değişkenli dağılım ölçüsü olarak kovaryans matrislerini kullanmaktır. Bazı yazarlar, hem regresyon hem de gruplandırılmış veri durumları için testleri bu bağlamda değerlendirmiştir. Bartlett'in tek değişkenli durumda en yaygın olarak kullanılan gruplanmış veriler arasındaki değişen varyans testi , çok değişkenli durum için de genişletilmiştir, ancak izlenebilir bir çözüm yalnızca 2 grup için mevcuttur. İkiden fazla grup için yaklaşıklık vardır ve her ikisi de Box's M testi olarak adlandırılır .

Notlar

Referanslar

daha fazla okuma

Çoğu istatistik ders kitabı, değişen varyansla ilgili en azından bazı materyalleri içerecektir. Bazı örnekler:

Dış bağlantılar