Oran tahmincisi - Ratio estimator

Oranı tahmin a, istatistiksel parametre ve olarak tanımlanır oranı arasında vasıtasıyla iki rasgele değişkenlerin. Oran tahminleri taraflıdır ve deneysel veya anket çalışmasında kullanıldığında düzeltmeler yapılmalıdır. Oran tahminleri asimetriktir ve t testi gibi simetrik testler güven aralıkları oluşturmak için kullanılmamalıdır.

Önyargı O (1/ n ) düzeyindedir ( büyük O notasyonuna bakın ), bu nedenle örnek boyutu ( n ) arttıkça önyargı asimptotik olarak 0'a yaklaşacaktır. Bu nedenle, tahmin edici büyük örnek boyutları için yaklaşık olarak tarafsızdır.

Tanım

Veri setinde örneklenen her bir öğe için gözlemlenebilen iki özellik ( x ve y) olduğunu varsayalım . Oranı R, olduğu

R={\bar {\mu }}_{y}/{\bar {\mu }}_{x}

y değişkeninin ( θ _y ) bir değerinin oran tahmini

\teta _{y}=R\teta _{x}

burada θ _x , x değişkeninin karşılık gelen değeridir . θ _y'nin asimptotik olarak normal dağıldığı bilinmektedir.

istatistiksel özellikler

Örnek oranı ( r ) örnekten tahmin edilir

r={\frac {\bar {y}}{\bar {x}}}={\frac {\sum _{i=1}^{n}y}{\sum _{i=1 }^{n}x}}

Oranın taraflı olduğu, Jensen eşitsizliği ile aşağıdaki gibi gösterilebilir (x ve y arasındaki bağımsızlığı varsayarak):

E\sol({\frac {y}{x}}\sağ)=E\sol(y{\frac {1}{x}}\sağ)=E(y)E\sol({\ frac {1}{x}}\sağ)\geq E(y){\frac {1}{E(x)}}={\frac {E(y)}{E(x)}}

Basit rastgele örnekleme altında önyargı O ( n ^-1 ) düzeyindedir . Üst tahmin nispi sapma üzerine bağlanmış bir tarafından sağlanan varyasyon katsayısı (oranı standart sapma için ortalama ). Basit rastgele örnekleme altında göreli sapma O'dur ( n ^−1/2 ).

Ortalamanın önyargısının düzeltilmesi

Düzeltme yöntemleri, x ve y değişkenlerinin dağılımlarına bağlı olarak, verimlilikleri bakımından farklılık gösterir ve bu da genel olarak en iyi yöntemin önerilmesini zorlaştırır. r'nin tahminleri taraflı olduğundan, sonraki tüm hesaplamalarda düzeltilmiş bir versiyon kullanılmalıdır.

Birinci mertebeye göre doğru bir önyargı düzeltmesi

r_{\mathrm {düzeltme} }=r-{\frac {s_{[y/x]x}}{m_{x}}}

burada m, _X değişkenin ortalama olup X ve s _ab olan kovaryans arasında bir ve b .

Gösterimi basitleştirmek için, daha sonra a ve b değişkenleri arasındaki kovaryansı belirtmek için s _ab kullanılacaktır .

Taylor açılımına dayalı başka bir tahmin edici ,

r_{\mathrm {corr} }=r+{\frac {1}{n}}(1-{\frac {n-1}{N-1}}){\frac {rs_{x}^ {2}-\rho s_{x}s_{y}}{m_{x}^{2}}}

burada , n , numune boyutu olan N popülasyonunun büyüklüğü olan m _x değişken ortalamasıdır x , s _x² ve s _y² örneği olan sapmalar ve x ve y , sırasıyla dağılımı özellikleri ve ρ arasında numune korelasyon olduğunu x ve y değişkendir.

Bu tahmin edicinin hesaplama açısından daha basit fakat biraz daha az doğru bir versiyonu,

r_{\mathrm {düzeltme} }=r-{\frac {Nn}{N}}{\frac {(rs_{x}^{2}-\rho s_{x}s_{y})} {nm_{x}^{2}}}

burada , N popülasyon boyutu, n , örnek boyutu m _x ortalamasıdır X , değişkenin s _x² ve s _y² örneği olan sapmalar ve x ve y , sırasıyla dağılımı özellikleri ve ρ arasında numune korelasyon olduğunu x ve y değişkendir. Bu sürümler yalnızca paydadaki ( N - 1 ) faktörde farklılık gösterir . Büyük bir N için fark önemsizdir.

İkinci dereceden bir düzeltme

r_{\mathrm {corr} }=r\left[1+{\frac {1}{n}}\left({\frac {1}{m_{x}}}-{\frac {s_) {xy}}{m_{x}m_{y}}}\sağ)+{\frac {1}{n^{2}}}\left({\frac {2}{m_{x}^{2 }}}-{\frac {s_{xy}}{m_{x}m_{y}}}\sol[2+{\frac {3}{m_{x}}}\sağ]+{\frac { s_{x^{2}y}}{m_{x}^{2}m_{y}}}\sağ)\sağ]

Önyargı düzeltmenin başka yöntemleri de önerilmiştir. Gösterimi basitleştirmek için aşağıdaki değişkenler kullanılacaktır.

\theta ={\frac {1}{n}}-{\frac {1}{N}}

c_{x}^{2}={\frac {s_{x}^{2}}{m_{x}^{2}}}

c_{xy}={\frac {s_{xy}}{m_{x}m_{y}}}

Pascual'ın tahmincisi:

r_{\mathrm {düzeltme} }=r+{\frac {N-1}{N}}{\frac {m_{y}-rm_{x}}{n-1}}

Beale'nin tahmincisi:

r_{\mathrm {düzeltme} }=r{\frac {1+\theta c_{xy}}{1+\theta c_{x}^{2}}}

Tin tahmincisi:

r_{\mathrm {düzeltme} }=r\left(1+\theta \left(c_{xy}-c_{x}^{2}\sağ)\sağ)

Sahoo'nun tahmincisi:

r_{\mathrm {corr} }={\frac {r}{1+\theta (c_{x}^{2}-c_{xy})}}

Sahoo ayrıca bir dizi ek tahmin edici önermiştir:

r_{\mathrm {düzeltme} }=r(1+\theta c_{xy})(1-\theta c_{x}^{2})

r_{\mathrm {düzeltme} }={\frac {r(1-\theta c_{x}^{2})}{1-\theta c_{xy}}}

r_{\mathrm {corr} }={\frac {r}{(1+\theta c_{xy})(1+\theta c_{x}^{2})}}

Eğer m _x ve m _y 10 göre hem daha büyük olan, daha sonra aşağıdaki yaklaşım sırası O (doğru n ^-3 ).

r_{\mathrm {corr} }=r\left[1-{\frac {2}{n^{2}m_{x}}}\left({\frac {1}{m_{x} }}-{\frac {s_{xy}}{m_{x}m_{y}}}\sağ)\sol(1+{\frac {13}{2n}}+{\frac {8}{nm_) {x}}}\sağ)\sağ]

Asimptotik olarak doğru bir tahmin edici

r_{\mathrm {corr} }=r+c_{x}^{2}{\frac {m_{y}}{m_{x}}}-{\frac {s_{xy}}{m_ {x}^{2}}}

Jackknife tahmini

Oranın bir jackknife tahmini , saf formdan daha az önyargılıdır. Oranın bir jackknife tahmincisi

r_{\mathrm {corr} }=nr-{\frac {n-1}{n}}\sum _{i\neq j=1}^{n}r_{i}

burada n, numune boyutu ve r, _i aynı anda değişkenlerin bir çift çıkartılması ile tahmin edilmiştir.

Alternatif bir yöntem, numuneyi n = pg ile her biri p büyüklüğünde g gruplarına bölmektir . Let r _ı tahmini olarak i ^inci grup. Daha sonra tahminci

r_{\mathrm {corr} }=gr-{\frac {g-1}{g}}\sum _{i=1}^{g}r_{i}

en fazla O ( n ⁻² ) bir önyargıya sahiptir .

Numunenin g gruplarına bölünmesine dayanan diğer tahminciler şunlardır:

r_{\mathrm {düzeltme} }={\frac {g}{g+1}}r-{\frac {1}{g(g-1)}}\sum _{i=1}^ {g}r_{i}

r_{\mathrm {corr} }={\bar {r}}+{\frac {n}{n-1}}{\frac {m_{y}-{\bar {r}}m_{ x}}{m_{x}}}

r_{\mathrm {corr}}={\bar {r_{g}}}+{\frac {g(m_{y}-{\bar {r_{g}}}m_{x})} {m_{x}}}

burada oranların ortalamasıdır r _g arasında gr grupları ve ${\görüntüleme stili {\bar {r}}}$

{\bar {r_{g}}}=\sum {\frac {r_{i}'}{g}}

burada r _ı^' numune oran değeri i ^inci atlanmıştır.

Diğer tahmin yöntemleri

Bir oran tahmincisini tahmin etmenin diğer yöntemleri arasında maksimum olabilirlik ve önyükleme bulunur .

Toplamın tahmini

y değişkeninin ( τ _y ) tahmini toplamı

\tau _{y}=r\tau _{x}

burada ( τ _x ) x değişkeninin toplamıdır .

varyans tahminleri

Örnek oranının varyansı yaklaşık olarak:

\operatöradı {var} (r)={\frac {1}{s_{x}^{2}+m_{x}^{2}}}\left[(s_{y}^{2} -s_{x^{2}[y^{2}/x^{2}]})-(s_{x[y/x]})^{2}+2m_{y}s_{x[y/ x]}-{\frac {s_{x}^{2}}{m_{x}^{2}}}(m_{y}-s_{x[y/x]}^{2})\sağ ]

burada s _x² ve s _y² varyansları olan x ve y , sırasıyla, dağılımı özellikleri m _x ve m _y aracı olan x ve y , sırasıyla dağılımı özellikleri ve s _ab kovaryans olan bir ve b .

Aşağıda verilen oranın yaklaşık varyans tahmincisi yanlı olmasına rağmen, örneklem büyüklüğü büyükse bu tahmin edicideki sapma ihmal edilebilir.

\operatöradı {var} (r)={\frac {Nn}{N}}{\frac {1}{m_{x}^{2}}}{\frac {\sum _{i=1 }^{n}(y_{i}-rx_{i})^{2}}{n-1}}

burada N popülasyon büyüklüğü, n örneklem büyüklüğü ve m _x , x değişkeninin ortalamasıdır .

Taylor açılımına dayalı varyansın başka bir tahmincisi ,

\operatöradı {var} (r)={\frac {1}{n}}(1-{\frac {n-1}{N-1}}){\frac {r^{2}s_ {x}^{2}+s_{y}^{2}-2r\rho s_{x}s_{y}}{m_{x}^{2}}}

burada n örneklem büyüklüğü, N popülasyon büyüklüğü ve ρ x ve y değişkenleri arasındaki korelasyon katsayısıdır .

O( n ⁻² ) için doğru bir tahmin

\operatöradı {var} (r)={\frac {1}{n}}\left[{\frac {s_{y}^{2}}{m_{x}^{2}}}+ {\frac {m_{y}^{2}s_{x}^{2}}{m_{x}^{4}}}-{\frac {2m_{y}s_{xy}}{m_{x }^{3}}}\sağ]

Olasılık dağılımı Poissonian ise, O( n ⁻³ ) için doğru bir tahmin edici

\operatorname {var} (r)=r^{2}\left[{\frac {1}{n}}\left({\frac {1}{m_{x}}}+{\frac) {1}{m_{y}}}-{\frac {2s_{xy}}{m_{x}m_{y}}}\sağ)+{\frac {1}{n^{2}}}\ sol({\frac {6}{m_{x}^{2}}}+{\frac {3}{m_{x}m_{y}}}+s_{xy}\left[{\frac {4 }{m_{y}^{2}}}-{\frac {8}{m_{x}m_{y}}}-{\frac {16}{m_{x}^{2}m_{y} }}+{\frac {5s_{xy}}{m_{x}^{2}m_{y}^{2}}}\right]+{\frac {4s_{x^{2}y}}{ m_{x}^{2}m_{y}}}-{\frac {2s_{xy^{2}}}{m_{x}m_{y}^{2}}}\sağ)\sağ]

Varyansın bir jackknife tahmincisi

\operatöradı {var} (r)={\frac {(n-1)}{n}}\sum _{i=1}^{n}(r_{i}-r_{J})^ {2}

burada r _ı ile oranı i ^inci ihmal değişkenlerin çift ve r _J oranının jackknife tahminidir.

toplamın varyansı

Tahmini toplamın varyansı

\operatöradı {var} (\tau _{y})=\tau _{y}^{2}\operatöradı {var} (r)

ortalamanın varyansı

y değişkeninin tahmini ortalamasının varyansı

\operatöradı {var} ({\bar {y}})=m_{x}^{2}\operatöradı {var} (r)={\frac {Nn}{N}}{\frac {\ toplam _{i=1}^{n}(y_{i}-rx_{i})^{2}}{n-1}}={\frac {Nn}{N}}{\frac {(s_) {y}^{2}+r^{2}s_{x}^{2}-2r\rho s_{x}s_{y})}{n}}

burada m _x , x değişkeninin ortalamasıdır , s _x² ve s _y² , sırasıyla x ve y değişkenlerinin örnek varyanslarıdır ve ρ , x ve y değişkenleri arasındaki örnek korelasyondur .

çarpıklık

Çarpıklık ve basıklık oranı dağılımları bağlıdır x ve y dağılımı özellikleri. Normal dağılım gösteren x ve y değişkenleri için bu parametreler için tahminler yapılmıştır, ancak diğer dağılımlar için henüz hiçbir ifade türetilmemiştir. Genel olarak oran değişkenlerinin sağa çarpık olduğu, leptokurtik olduğu ve paydanın varyasyon katsayısının büyüklüğü arttıkça normal olmamalarının arttığı bulunmuştur.

Normal dağılmış x ve y değişkenleri için oranın çarpıklığı yaklaşık olarak

\gamma =\left({\frac {m_{y}\omega }{\sqrt {nm_{x}m_{y}\omega ^{2}+m_{x}^{2}m_{y) }}}}\sağ)\left(6+{\frac {1}{nm_{x}}}\left[44+{\frac {1}{1+\omega ^{2}m_{y}/ m_{x}}}\sağ]\sağ)

nerede

\omega =1-m_{x}\operatöradı {cov} (x,y)

Güven aralıkları üzerindeki etkisi

Oran tahmini genellikle çarpık olduğundan varyansla oluşturulan güven aralıkları ve t testi gibi simetrik testler yanlıştır. Bu güven aralıkları, sol güven aralığının boyutunu olduğundan fazla, sağın boyutunu ise olduğundan daha az tahmin etme eğilimindedir.

Oran tahmincisi tek modluysa (ki bu genellikle böyledir), o zaman Vysochanskiï–Petunin eşitsizliği ile %95 güven aralığının muhafazakar bir tahmini yapılabilir .

Alternatif sapma azaltma yöntemleri

Oran tahmin edicisindeki yanlılığı azaltmanın veya ortadan kaldırmanın alternatif bir yöntemi, örnekleme yöntemini değiştirmektir. Bu yöntemlerin kullanıldığı oranın varyansı, daha önce verilen tahminlerden farklıdır. Lohr'daki tartışmalar gibi birçok uygulamanın örnek gruplarının boyutları gibi yalnızca pozitif tam sayılarla sınırlandırılması amaçlanırken , Midzuno-Sen yönteminin, integral olsun veya olmasın herhangi bir pozitif sayı dizisi için çalıştığını unutmayın. Önyargılı bir sonuç döndürdüğü için Lahiri'nin yönteminin işe yaramasının ne anlama geldiği açık değil .

Lahiri'nin yöntemi

Bu örnekleme şemalarından ilki, 1951'de Lahiri tarafından tanıtılan bir örnekleme yönteminin çift kullanımıdır. Buradaki algoritma, Lohr tarafından yapılan açıklamaya dayanmaktadır.

Bir sayı seçin M = max( x ₁ , ..., x _N ) burada N popülasyon büyüklüğüdür.
[1, N ] üzerindeki düzgün dağılımdan i'yi rastgele seçin .
[1, M ] üzerindeki düzgün dağılımdan rastgele k seçin .
Eğer k ≤ x _i , daha sonra x _i numunede korunur. Değilse, reddedilir.
Bu işlemi 2. adımdan istenen numune boyutu elde edilene kadar tekrarlayın.

Aynı istenen örnek boyutu için aynı prosedür y değişkeni ile gerçekleştirilir .

Lohr tarafından açıklanan Lahiri'nin şeması yüksek taraflıdır ve bu nedenle yalnızca tarihsel nedenlerle ilginçtir. Bunun yerine aşağıda açıklanan Midzuno-Sen tekniği önerilir.

Midzuno-Sen'in yöntemi

1952'de Midzuno ve Sen bağımsız olarak, oranın yansız bir tahmin edicisini sağlayan bir örnekleme şeması tanımladılar.

İlk örnek, x değişkeninin boyutuyla orantılı olasılıkla seçilir . Kalan n - 1 numune , popülasyondaki kalan N - 1 üyeden değiştirilmeden rastgele seçilir . Bu şemaya göre seçim olasılığı

{\displaystyle P={\frac {\sum x_{i}}{{N-1 \n-1}X}}} seçin

burada X , N x değişkenlerinin toplamıdır ve x _i , örneğin n üyesidir. O halde , bu şekilde seçilen y değişkenlerinin toplamının ve x değişkenlerinin toplamının oranı, oran tahmin edicisinin yansız bir tahminidir.

Sahip olduğumuz sembollerde

r={\frac {\toplam y_{i}}{\toplam x_{i}}}

burada x _ben ve y _ben yukarıda açıklanan şemaya göre seçilir.

Bu şema tarafından verilen oran tahmincisi yansızdır.

Särndal, Swensson ve Wretman, bu yönteme yol açan içgörüler için Lahiri, Midzuno ve Sen'e teşekkür eder, ancak Lahiri'nin tekniği yüksek önyargılıdır.

Diğer oran tahmin edicileri

Tin (1965), Beale (1962) ve Quenouille (1956) tarafından önerilen oran tahmin edicilerini tanımlamış ve karşılaştırmış ve değiştirilmiş bir yaklaşım önermiştir (şimdi Tin yöntemi olarak anılmaktadır). Bu oran tahmin edicileri, özellikle akışın su kalitesinden daha sık ölçüldüğü yerlerde, su yollarından numune alınmasından kaynaklanan kirletici yükleri hesaplamak için yaygın olarak kullanılır. Örneğin bkz. Quilbe ve diğerleri, (2006)

Sıradan en küçük kareler regresyonu

Eğer x ve y değişkenleri arasında doğrusal bir ilişki varsa ve regresyon denklemi orijinden geçiyorsa , regresyon denkleminin tahmin edilen varyansı her zaman oran tahmin edicisinden daha küçüktür. Varyanslar arasındaki kesin ilişki, x ve y değişkenleri arasındaki ilişkinin doğrusallığına bağlıdır : ilişki doğrusaldan farklı olduğunda, oran tahmini, regresyonla tahmin edilenden daha düşük bir varyansa sahip olabilir.

kullanır

Oran tahmincisi bir dizi ayarda kullanılabilse de, özellikle iki durumda kullanışlıdır:

x ve y değişkenleri orijin üzerinden yüksek oranda ilişkili olduğunda .
Gelen anket metodolojisi bir tahmin edilirken ağırlıklı ortalama paydası toplam nüfusu büyüklüğünü yansıtan ağırlıkları toplamı işaret ettiği, ancak toplam nüfus büyüklüğü bilinmemektedir.

Tarih

Oranı tahmincisine bilinen ilk kullanımı oldu John Graunt içinde İngiltere 1662 yılında tahmin etmek için ilk kim oranı Y / X burada Y toplam nüfus temsil x önceki yıl boyunca aynı yerlerde kayıtlı doğumların bilinen sayısı .

Daha sonra Messance (~1765) ve Moheau (1778) , belirli bölgelerdeki nüfus sayımına ve tüm ülke için bildirilen doğum, ölüm ve evlilik sayılarına dayanarak Fransa için çok dikkatli hazırlanmış tahminler yayınladı . Nüfusun doğuma oranının belirlendiği ilçeler sadece bir örneklem oluşturmuştur.

1802'de Laplace , Fransa'nın nüfusunu tahmin etmek istedi. Hiçbir nüfus sayımı yapılmamıştı ve Laplace her bireyi sayacak kaynaklardan yoksundu. Bunun yerine 30 örneklenmiş iþletmek olan toplam sayısı sakinlerinin 2037615 idi. Cemaat vaftiz kayıtları, canlı doğum sayısının güvenilir tahminleri olarak kabul edildi, bu nedenle üç yıllık bir süre boyunca toplam doğum sayısını kullandı. Örneklem tahmini, her 28.35 kişi için bir kayıtlı vaftiz oranı vererek, bu dönem boyunca yılda 71.866.333 vaftiz olmuştur. Fransa için vaftiz kayıtlarının toplam sayısı da kendisine mevcuttu ve canlı doğumların nüfusa oranının sabit olduğunu varsayıyordu. Daha sonra Fransa'nın nüfusunu tahmin etmek için örneğindeki oranı kullandı.

Karl Pearson , 1897'de, oran tahminlerinin önyargılı olduğunu ve kullanımlarına karşı uyarıldığını söyledi.

Ayrıca bakınız

İşaretle ve yeniden yakala , bir oran kullanarak nüfusu tahmin etmenin başka bir yolu.
oran dağılımı

Languages

In other projects