Oran tahmincisi - Ratio estimator
Oranı tahmin a, istatistiksel parametre ve olarak tanımlanır oranı arasında vasıtasıyla iki rasgele değişkenlerin. Oran tahminleri taraflıdır ve deneysel veya anket çalışmasında kullanıldığında düzeltmeler yapılmalıdır. Oran tahminleri asimetriktir ve t testi gibi simetrik testler güven aralıkları oluşturmak için kullanılmamalıdır.
Önyargı O (1/ n ) düzeyindedir ( büyük O notasyonuna bakın ), bu nedenle örnek boyutu ( n ) arttıkça önyargı asimptotik olarak 0'a yaklaşacaktır. Bu nedenle, tahmin edici büyük örnek boyutları için yaklaşık olarak tarafsızdır.
Tanım
Veri setinde örneklenen her bir öğe için gözlemlenebilen iki özellik ( x ve y) olduğunu varsayalım . Oranı R, olduğu
y değişkeninin ( θ y ) bir değerinin oran tahmini
burada θ x , x değişkeninin karşılık gelen değeridir . θ y'nin asimptotik olarak normal dağıldığı bilinmektedir.
istatistiksel özellikler
Örnek oranı ( r ) örnekten tahmin edilir
Oranın taraflı olduğu, Jensen eşitsizliği ile aşağıdaki gibi gösterilebilir (x ve y arasındaki bağımsızlığı varsayarak):
Basit rastgele örnekleme altında önyargı O ( n -1 ) düzeyindedir . Üst tahmin nispi sapma üzerine bağlanmış bir tarafından sağlanan varyasyon katsayısı (oranı standart sapma için ortalama ). Basit rastgele örnekleme altında göreli sapma O'dur ( n −1/2 ).
Ortalamanın önyargısının düzeltilmesi
Düzeltme yöntemleri, x ve y değişkenlerinin dağılımlarına bağlı olarak, verimlilikleri bakımından farklılık gösterir ve bu da genel olarak en iyi yöntemin önerilmesini zorlaştırır. r'nin tahminleri taraflı olduğundan, sonraki tüm hesaplamalarda düzeltilmiş bir versiyon kullanılmalıdır.
Birinci mertebeye göre doğru bir önyargı düzeltmesi
burada m, X değişkenin ortalama olup X ve s ab olan kovaryans arasında bir ve b .
Gösterimi basitleştirmek için, daha sonra a ve b değişkenleri arasındaki kovaryansı belirtmek için s ab kullanılacaktır .
Taylor açılımına dayalı başka bir tahmin edici ,
burada , n , numune boyutu olan N popülasyonunun büyüklüğü olan m x değişken ortalamasıdır x , s x 2 ve s y 2 örneği olan sapmalar ve x ve y , sırasıyla dağılımı özellikleri ve ρ arasında numune korelasyon olduğunu x ve y değişkendir.
Bu tahmin edicinin hesaplama açısından daha basit fakat biraz daha az doğru bir versiyonu,
burada , N popülasyon boyutu, n , örnek boyutu m x ortalamasıdır X , değişkenin s x 2 ve s y 2 örneği olan sapmalar ve x ve y , sırasıyla dağılımı özellikleri ve ρ arasında numune korelasyon olduğunu x ve y değişkendir. Bu sürümler yalnızca paydadaki ( N - 1 ) faktörde farklılık gösterir . Büyük bir N için fark önemsizdir.
İkinci dereceden bir düzeltme
Önyargı düzeltmenin başka yöntemleri de önerilmiştir. Gösterimi basitleştirmek için aşağıdaki değişkenler kullanılacaktır.
Pascual'ın tahmincisi:
Beale'nin tahmincisi:
Tin tahmincisi:
Sahoo'nun tahmincisi:
Sahoo ayrıca bir dizi ek tahmin edici önermiştir:
Eğer m x ve m y 10 göre hem daha büyük olan, daha sonra aşağıdaki yaklaşım sırası O (doğru n -3 ).
Asimptotik olarak doğru bir tahmin edici
Jackknife tahmini
Oranın bir jackknife tahmini , saf formdan daha az önyargılıdır. Oranın bir jackknife tahmincisi
burada n, numune boyutu ve r, i aynı anda değişkenlerin bir çift çıkartılması ile tahmin edilmiştir.
Alternatif bir yöntem, numuneyi n = pg ile her biri p büyüklüğünde g gruplarına bölmektir . Let r ı tahmini olarak i inci grup. Daha sonra tahminci
en fazla O ( n −2 ) bir önyargıya sahiptir .
Numunenin g gruplarına bölünmesine dayanan diğer tahminciler şunlardır:
burada oranların ortalamasıdır r g arasında gr grupları ve
burada r ı ' numune oran değeri i inci atlanmıştır.
Diğer tahmin yöntemleri
Bir oran tahmincisini tahmin etmenin diğer yöntemleri arasında maksimum olabilirlik ve önyükleme bulunur .
Toplamın tahmini
y değişkeninin ( τ y ) tahmini toplamı
burada ( τ x ) x değişkeninin toplamıdır .
varyans tahminleri
Örnek oranının varyansı yaklaşık olarak:
burada s x 2 ve s y 2 varyansları olan x ve y , sırasıyla, dağılımı özellikleri m x ve m y aracı olan x ve y , sırasıyla dağılımı özellikleri ve s ab kovaryans olan bir ve b .
Aşağıda verilen oranın yaklaşık varyans tahmincisi yanlı olmasına rağmen, örneklem büyüklüğü büyükse bu tahmin edicideki sapma ihmal edilebilir.
burada N popülasyon büyüklüğü, n örneklem büyüklüğü ve m x , x değişkeninin ortalamasıdır .
Taylor açılımına dayalı varyansın başka bir tahmincisi ,
burada n örneklem büyüklüğü, N popülasyon büyüklüğü ve ρ x ve y değişkenleri arasındaki korelasyon katsayısıdır .
O( n −2 ) için doğru bir tahmin
Olasılık dağılımı Poissonian ise, O( n −3 ) için doğru bir tahmin edici
Varyansın bir jackknife tahmincisi
burada r ı ile oranı i inci ihmal değişkenlerin çift ve r J oranının jackknife tahminidir.
toplamın varyansı
Tahmini toplamın varyansı
ortalamanın varyansı
y değişkeninin tahmini ortalamasının varyansı
burada m x , x değişkeninin ortalamasıdır , s x 2 ve s y 2 , sırasıyla x ve y değişkenlerinin örnek varyanslarıdır ve ρ , x ve y değişkenleri arasındaki örnek korelasyondur .
çarpıklık
Çarpıklık ve basıklık oranı dağılımları bağlıdır x ve y dağılımı özellikleri. Normal dağılım gösteren x ve y değişkenleri için bu parametreler için tahminler yapılmıştır, ancak diğer dağılımlar için henüz hiçbir ifade türetilmemiştir. Genel olarak oran değişkenlerinin sağa çarpık olduğu, leptokurtik olduğu ve paydanın varyasyon katsayısının büyüklüğü arttıkça normal olmamalarının arttığı bulunmuştur.
Normal dağılmış x ve y değişkenleri için oranın çarpıklığı yaklaşık olarak
nerede
Güven aralıkları üzerindeki etkisi
Oran tahmini genellikle çarpık olduğundan varyansla oluşturulan güven aralıkları ve t testi gibi simetrik testler yanlıştır. Bu güven aralıkları, sol güven aralığının boyutunu olduğundan fazla, sağın boyutunu ise olduğundan daha az tahmin etme eğilimindedir.
Oran tahmincisi tek modluysa (ki bu genellikle böyledir), o zaman Vysochanskiï–Petunin eşitsizliği ile %95 güven aralığının muhafazakar bir tahmini yapılabilir .
Alternatif sapma azaltma yöntemleri
Oran tahmin edicisindeki yanlılığı azaltmanın veya ortadan kaldırmanın alternatif bir yöntemi, örnekleme yöntemini değiştirmektir. Bu yöntemlerin kullanıldığı oranın varyansı, daha önce verilen tahminlerden farklıdır. Lohr'daki tartışmalar gibi birçok uygulamanın örnek gruplarının boyutları gibi yalnızca pozitif tam sayılarla sınırlandırılması amaçlanırken , Midzuno-Sen yönteminin, integral olsun veya olmasın herhangi bir pozitif sayı dizisi için çalıştığını unutmayın. Önyargılı bir sonuç döndürdüğü için Lahiri'nin yönteminin işe yaramasının ne anlama geldiği açık değil .
Lahiri'nin yöntemi
Bu örnekleme şemalarından ilki, 1951'de Lahiri tarafından tanıtılan bir örnekleme yönteminin çift kullanımıdır. Buradaki algoritma, Lohr tarafından yapılan açıklamaya dayanmaktadır.
- Bir sayı seçin M = max( x 1 , ..., x N ) burada N popülasyon büyüklüğüdür.
- [1, N ] üzerindeki düzgün dağılımdan i'yi rastgele seçin .
- [1, M ] üzerindeki düzgün dağılımdan rastgele k seçin .
- Eğer k ≤ x i , daha sonra x i numunede korunur. Değilse, reddedilir.
- Bu işlemi 2. adımdan istenen numune boyutu elde edilene kadar tekrarlayın.
Aynı istenen örnek boyutu için aynı prosedür y değişkeni ile gerçekleştirilir .
Lohr tarafından açıklanan Lahiri'nin şeması yüksek taraflıdır ve bu nedenle yalnızca tarihsel nedenlerle ilginçtir. Bunun yerine aşağıda açıklanan Midzuno-Sen tekniği önerilir.
Midzuno-Sen'in yöntemi
1952'de Midzuno ve Sen bağımsız olarak, oranın yansız bir tahmin edicisini sağlayan bir örnekleme şeması tanımladılar.
İlk örnek, x değişkeninin boyutuyla orantılı olasılıkla seçilir . Kalan n - 1 numune , popülasyondaki kalan N - 1 üyeden değiştirilmeden rastgele seçilir . Bu şemaya göre seçim olasılığı
burada X , N x değişkenlerinin toplamıdır ve x i , örneğin n üyesidir. O halde , bu şekilde seçilen y değişkenlerinin toplamının ve x değişkenlerinin toplamının oranı, oran tahmin edicisinin yansız bir tahminidir.
Sahip olduğumuz sembollerde
burada x ben ve y ben yukarıda açıklanan şemaya göre seçilir.
Bu şema tarafından verilen oran tahmincisi yansızdır.
Särndal, Swensson ve Wretman, bu yönteme yol açan içgörüler için Lahiri, Midzuno ve Sen'e teşekkür eder, ancak Lahiri'nin tekniği yüksek önyargılıdır.
Diğer oran tahmin edicileri
Tin (1965), Beale (1962) ve Quenouille (1956) tarafından önerilen oran tahmin edicilerini tanımlamış ve karşılaştırmış ve değiştirilmiş bir yaklaşım önermiştir (şimdi Tin yöntemi olarak anılmaktadır). Bu oran tahmin edicileri, özellikle akışın su kalitesinden daha sık ölçüldüğü yerlerde, su yollarından numune alınmasından kaynaklanan kirletici yükleri hesaplamak için yaygın olarak kullanılır. Örneğin bkz. Quilbe ve diğerleri, (2006)
Sıradan en küçük kareler regresyonu
Eğer x ve y değişkenleri arasında doğrusal bir ilişki varsa ve regresyon denklemi orijinden geçiyorsa , regresyon denkleminin tahmin edilen varyansı her zaman oran tahmin edicisinden daha küçüktür. Varyanslar arasındaki kesin ilişki, x ve y değişkenleri arasındaki ilişkinin doğrusallığına bağlıdır : ilişki doğrusaldan farklı olduğunda, oran tahmini, regresyonla tahmin edilenden daha düşük bir varyansa sahip olabilir.
kullanır
Oran tahmincisi bir dizi ayarda kullanılabilse de, özellikle iki durumda kullanışlıdır:
- x ve y değişkenleri orijin üzerinden yüksek oranda ilişkili olduğunda .
- Gelen anket metodolojisi bir tahmin edilirken ağırlıklı ortalama paydası toplam nüfusu büyüklüğünü yansıtan ağırlıkları toplamı işaret ettiği, ancak toplam nüfus büyüklüğü bilinmemektedir.
Tarih
Oranı tahmincisine bilinen ilk kullanımı oldu John Graunt içinde İngiltere 1662 yılında tahmin etmek için ilk kim oranı Y / X burada Y toplam nüfus temsil x önceki yıl boyunca aynı yerlerde kayıtlı doğumların bilinen sayısı .
Daha sonra Messance (~1765) ve Moheau (1778) , belirli bölgelerdeki nüfus sayımına ve tüm ülke için bildirilen doğum, ölüm ve evlilik sayılarına dayanarak Fransa için çok dikkatli hazırlanmış tahminler yayınladı . Nüfusun doğuma oranının belirlendiği ilçeler sadece bir örneklem oluşturmuştur.
1802'de Laplace , Fransa'nın nüfusunu tahmin etmek istedi. Hiçbir nüfus sayımı yapılmamıştı ve Laplace her bireyi sayacak kaynaklardan yoksundu. Bunun yerine 30 örneklenmiş iþletmek olan toplam sayısı sakinlerinin 2037615 idi. Cemaat vaftiz kayıtları, canlı doğum sayısının güvenilir tahminleri olarak kabul edildi, bu nedenle üç yıllık bir süre boyunca toplam doğum sayısını kullandı. Örneklem tahmini, her 28.35 kişi için bir kayıtlı vaftiz oranı vererek, bu dönem boyunca yılda 71.866.333 vaftiz olmuştur. Fransa için vaftiz kayıtlarının toplam sayısı da kendisine mevcuttu ve canlı doğumların nüfusa oranının sabit olduğunu varsayıyordu. Daha sonra Fransa'nın nüfusunu tahmin etmek için örneğindeki oranı kullandı.
Karl Pearson , 1897'de, oran tahminlerinin önyargılı olduğunu ve kullanımlarına karşı uyarıldığını söyledi.
Ayrıca bakınız
- İşaretle ve yeniden yakala , bir oran kullanarak nüfusu tahmin etmenin başka bir yolu.
- oran dağılımı