Poisson regresyonu - Poisson regression

Olarak istatistik , Poisson regresyon a, genel lineer model şekli regresyon analizi modeli için kullanılan sayım verileri ve acil durum tablolar . Poisson regresyonu, Y yanıt değişkeninin bir Poisson dağılımına sahip olduğunu varsayar ve beklenen değerinin logaritmasının , bilinmeyen parametrelerin doğrusal bir kombinasyonu ile modellenebileceğini varsayar . Bir Poisson regresyon modeli , özellikle beklenmedik durum tablolarını modellemek için kullanıldığında , bazen log-lineer model olarak bilinir .

Negatif iki terimli regresyon , varyansın Poisson modeli tarafından yapılan ortalamaya eşit olduğu şeklindeki oldukça kısıtlayıcı varsayımı gevşettiği için Poisson regresyonunun popüler bir genellemesidir. Yaygın olarak NB2 olarak bilinen geleneksel negatif binom regresyon modeli, Poisson-gama karışımı dağılımına dayanmaktadır. Bu model popülerdir çünkü Poisson heterojenliğini bir gama dağılımı ile modeller.

Poisson regresyon modelleri , logaritmanın (kanonik) bağlantı işlevi ve Poisson dağılım işlevinin yanıtın varsayılan olasılık dağılımı olduğu genelleştirilmiş doğrusal modellerdir .

Regresyon modelleri

Eğer bir vektördür bağımsız değişkenler , model şeklini alır

nerede ve . Bazen bu daha kompakt olarak yazılır

burada x artık bir numaraya  bağlı n bağımsız değişkenden oluşan ( n + 1) boyutlu bir vektördür . Burada θ basitçe α ile β ile birleştirilmiştir .

Bu nedenle, bir Poisson regresyon modeli θ ve bir girdi vektörü x verildiğinde, ilişkili Poisson dağılımının tahmin edilen ortalaması şu şekilde verilir:

Eğer Y i olan bağımsız karşılık gelen değerler ile gözlemler x i belirleyici değişkenlerin, daha sonra θ tahmin edilebilir maksimum olasılık . Maksimum olabilirlik tahminleri, kapalı biçimli bir ifadeden yoksundur ve sayısal yöntemlerle bulunmalıdır. Maksimum olabilirlik Poisson regresyonu için olasılık yüzeyi her zaman içbükeydir, bu da Newton-Raphson veya diğer gradyan tabanlı yöntemleri uygun tahmin teknikleri haline getirir.

Maksimum olabilirliğe dayalı parametre tahmini

Bir dizi parametre θ ve bir girdi vektörü x verildiğinde, yukarıda belirtildiği gibi tahmin edilen Poisson dağılımının ortalaması şu şekilde verilir:

ve böylece Poisson dağılımının olasılık kütle fonksiyonu şu şekilde verilir:

Şimdi , m değerinden oluşan bir kümeyle birlikte m vektörlerden oluşan bir veri kümesi verildiğini varsayalım . Daha sonra, belirli bir parametre kümesi θ için , bu belirli veri kümesine ulaşma olasılığı şu şekilde verilir:

Maksimum olabilirlik yöntemiyle, bu olasılığı mümkün olduğunca büyük yapan θ parametre kümesini bulmak istiyoruz. Bunu yapmak için, denklem önce θ cinsinden bir olabilirlik fonksiyonu olarak yeniden yazılır :

Sağ taraftaki ifadenin aslında değişmediğine dikkat edin. Bu formdaki bir formülle çalışmak genellikle zordur; bunun yerine, log-olasılığı kullanılır :

θ parametrelerinin toplamda sadece her terimin ilk iki teriminde göründüğüne dikkat edin . Bu nedenle, yalnızca θ için en iyi değeri bulmakla ilgilendiğimize göre , y i ! ve basitçe yaz

Maksimumu bulmak için kapalı form çözümü olmayan bir denklemi çözmemiz gerekir . Bununla birlikte, negatif log olasılığı, dışbükey bir fonksiyondur ve bu nedenle , θ'nin optimal değerini bulmak için gradyan inişi gibi standart dışbükey optimizasyon teknikleri uygulanabilir .

Pratikte Poisson regresyonu

Poisson regresyonu, bağımlı değişken bir sayı olduğunda, örneğin bir çağrı merkezine bir telefon çağrısının gelmesi gibi olaylar olduğunda uygun olabilir . Olaylar, bir çağrının gelişinin diğerini az ya da çok olası kılmayacağı anlamında bağımsız olmalıdır, ancak olayların birim zaman başına olasılığının, günün saati gibi ortak değişkenlerle ilişkili olduğu anlaşılmalıdır.

"Pozlama" ve ofset

Poisson regresyonu, hızın, o birimin maruziyetinin bir ölçüsüne (belirli bir gözlem birimi) bölünen olayların sayısı olduğu hız verileri için de uygun olabilir . Örneğin, biyologlar bir ormandaki ağaç türlerinin sayısını sayabilir: olaylar ağaç gözlemleri, maruz kalma birim alan ve oran birim alan başına tür sayısı olacaktır. Demograflar coğrafi bölgelerdeki ölüm oranlarını ölümlerin kişi-yıllara bölünmesiyle modelleyebilirler. Daha genel olarak, olay oranları, gözlem penceresinin her birime göre değişmesine izin veren, birim zaman başına olay olarak hesaplanabilir. Bu örneklerde maruziyet sırasıyla birim alan, kişi-yıl ve birim zamandır. Poisson regresyonunda bu, maruz kalma değişkeninin denklemin sağ tarafına girdiği ancak bir parametre tahminiyle (log(maruziyet) için) 1 ile sınırlandırıldığı bir offset olarak ele alınır .

Hangi ima

Bir durumunda ofset GLM içinde R kullanılarak elde edilebilir offset()fonksiyonu:

glm(y ~ offset(log(exposure)) + x, family=poisson(link=log) )

Aşırı yayılma ve sıfır enflasyon

Karakteristik bir Poisson dağılımına ait ortalama isimli değişintisine eşit olmasıdır. Bazı durumlarda, gözlemlenen varyansın ortalamadan daha büyük olduğu görülecektir; bu aşırı dağılım olarak bilinir ve modelin uygun olmadığını gösterir. Yaygın bir neden, ilgili açıklayıcı değişkenlerin veya bağımlı gözlemlerin atlanmasıdır. Bazı koşullar altında, aşırı dağılım sorunu, bunun yerine yarı-olasılık tahmini veya negatif bir binom dağılımı kullanılarak çözülebilir .

Ver Hoef ve Boveng, yarı-Poisson (yarı olasılıklı aşırı dağılım olarak da adlandırılır) ve negatif binom (gama-Poisson'a eşdeğer) arasındaki farkı şu şekilde tanımladı: E ( Y ) = μ ise, yarı-Poisson modeli var( Y'yi varsayar ) = θμ iken gama-Poisson var( Y ) = μ (1 +  κμ ) varsaymaktadır ; burada θ yarı-Poisson aşırı dağılım parametresidir ve κ , negatif binom dağılımının şekil parametresidir . Her iki model için de parametreler yinelemeli olarak yeniden ağırlıklı en küçük kareler kullanılarak tahmin edilir . Quasi-Poisson için ağırlıklar μ / θ'dir . Negatif binom için ağırlıklar μ /(1 +  κμ ) şeklindedir. Büyük μ ve önemli ekstra Poisson varyasyonu ile, negatif binom ağırlıkları 1/ κ ile sınırlandırılmıştır . Ver Hoef ve Boveng, ortalama kare artıkları ortalamaya karşı çizerek ikisi arasında seçim yaptıkları bir örneği tartıştılar.

Poisson regresyonuyla ilgili diğer bir yaygın sorun da fazla sıfırlardır: eğer iki süreç çalışıyorsa, biri sıfır olay mı yoksa herhangi bir olay mı olduğunu belirler ve bir Poisson süreci kaç tane olay olduğunu belirlerse, bir Poisson regresyonunun alacağından daha fazla sıfır olacaktır. tahmin etmek. Bir örnek, bazı bireylerin sigara içmediği bir grubun üyeleri tarafından bir saat içinde içilen sigaraların dağılımı olabilir.

Negatif binom modeli veya sıfır şişirilmiş model gibi diğer genelleştirilmiş doğrusal modeller bu durumlarda daha iyi işlev görebilir.

Hayatta kalma analizinde kullanın

Poisson regresyonu, hayatta kalma analizinin bir sınıfı olan orantılı tehlike modelleri yaratır : Cox modellerinin açıklamaları için orantılı tehlike modellerine bakın .

Uzantılar

Düzenlileştirilmiş Poisson regresyonu

Poisson regresyonu için parametreleri tahmin ederken, tipik olarak, formun bir ifadesinin olasılığını maksimize eden θ değerleri bulmaya çalışır.

burada m, veri setinde örneklerin sayısı ve bir olasılık yoğunluk fonksiyonu arasında Poisson dağılımına göre ortalama dizi . Bu optimizasyon problemine maksimize etmek yerine düzenlileştirme eklenebilir.

bazı pozitif sabitler için . Sırt regresyonuna benzer olan bu teknik, fazla takmayı azaltabilir .

Ayrıca bakınız

Referanslar

daha fazla okuma