Değerlendiriciler arası güvenilirlik - Inter-rater reliability

İstatistikte, değerlendiriciler arası güvenilirlik (değerlendiriciler arası anlaşma , değerlendiriciler arası uyum , gözlemciler arası güvenilirlik vb. gibi çeşitli benzer adlarla da adlandırılır ), puan veren, kodlayan veya değerlendiren bağımsız gözlemciler arasındaki anlaşmanın derecesidir. Aynı fenomeni değerlendirin.

Buna karşılık, değerlendirici içi güvenilirlik , aynı kişi tarafından birden fazla durumda verilen derecelendirmelerdeki tutarlılığın bir puanıdır. Örneğin, not veren, yorgunluk gibi öğelerin sona doğru not vermesini etkilemesine veya iyi bir kağıdın bir sonraki kağıdın notunu etkilemesine izin vermemelidir. Not veren, kağıtları birlikte karşılaştırmamalı, ancak her bir kağıdı standarda göre derecelendirmelidir.

Değerlendiriciler arası ve puanlayıcılar arası güvenilirlik, test geçerliliğinin yönleridir . Bunların değerlendirilmesi, örneğin belirli bir ölçeğin belirli bir değişkeni ölçmek için uygun olup olmadığını belirleyerek, insan yargıçlara verilen araçların iyileştirilmesinde yararlıdır. Eğer çeşitli puanlayıcılar aynı fikirde değilse ya ölçek bozuktur ya da puanlayıcıların yeniden eğitilmesi gerekir.

Değerlendiriciler arası güvenilirliği belirlemek için kullanılabilecek bir dizi istatistik vardır. Farklı ölçüm türleri için farklı istatistikler uygundur. Bazı seçenekler, uyuşmanın ortak olasılığı, Cohen'in kappa'sı , Scott'ın pi'si ve ilgili Fleiss'in kappa'sı , değerlendiriciler arası korelasyon, uyum korelasyon katsayısı , sınıf içi korelasyon ve Krippendorff'un alfasıdır .

konsept

Değerlendiriciler arasında güvenilir bir anlaşmanın ne olduğuna ilişkin farklı bakış açılarını yansıtan, "değerlendiriciler arası güvenilirlik"in çeşitli operasyonel tanımları vardır. Anlaşmanın üç operasyonel tanımı vardır:

Güvenilir değerlendiriciler, bir performansın "resmi" derecelendirmesine katılıyor.
Güvenilir puanlayıcılar, tam olarak verilecek puanlar konusunda hemfikirdir.
Güvenilir puanlayıcılar, hangi performansın daha iyi ve hangisinin daha kötü olduğu konusunda hemfikirdir.

Bunlar, iki operasyonel davranış tanımıyla birleşir:

Güvenilir puanlayıcılar, "derecelendirme makineleri" gibi davranan otomatlardır. Bu kategori, makalelerin bilgisayar tarafından derecelendirilmesini içerir. Bu davranış, genellenebilirlik teorisi ile değerlendirilebilir .
Güvenilir değerlendiriciler bağımsız tanıklar gibi davranırlar. Hafifçe karşı çıkarak bağımsızlıklarını gösterirler. Bu davranış Rasch modeli ile değerlendirilebilir .

İstatistik

Ortak anlaşma olasılığı

Ortak anlaşma olasılığı, en basit ve en az sağlam önlemdir. Değerlendiricilerin nominal veya kategorik bir derecelendirme sisteminde anlaştıkları sürenin yüzdesi olarak tahmin edilir . Anlaşmanın tamamen şansa dayalı olabileceği gerçeğini dikkate almaz. Şans anlaşması için 'düzeltmeye' ihtiyaç olup olmadığı sorusu var; Bazıları, her halükarda, böyle bir ayarlamanın, şans ve hatanın değerlendiricilerin kararlarını nasıl etkilediğine dair açık bir modele dayanması gerektiğini öne sürüyor.

Kullanılan kategori sayısı az olduğunda (örneğin 2 veya 3), 2 değerlendiricinin tamamen şans eseri aynı fikirde olma olasılığı önemli ölçüde artar. Bunun nedeni, her iki değerlendiricinin de kendilerini mevcut sınırlı sayıda seçenekle sınırlaması gerekmesidir, bu da genel anlaşma oranını etkiler ve mutlaka "içsel" anlaşmaya olan eğilimleri değildir (bir anlaşma şansa bağlı değilse "gerçek" olarak kabul edilir).

Bu nedenle, puanlayıcılar arasında herhangi bir "içsel" anlaşma olmadığında bile ortak anlaşma olasılığı yüksek kalacaktır. Kullanışlı bir puanlayıcılar arası güvenirlik katsayısının (a) "içsel" uyum olmadığında 0'a yakın olması ve (b) "içsel" uyum oranı arttıkça artması beklenir. Şans düzeltmeli uyum katsayılarının çoğu ilk hedefe ulaşır. Bununla birlikte, ikinci amaca, bilinen birçok şansa göre düzeltilmiş önlemle ulaşılamaz.

Kappa istatistikleri

Değerlendiriciler arası anlaşma düzeyinin yorumlanması için dört öneri seti

Kappa, derecelendirmelerin şans eseri ne sıklıkta anlaşabileceğini düzelterek, anlaşmayı veya güvenilirliği ölçmenin bir yoludur. İki puanlayıcı için çalışan Cohen'in kappa'sı ve herhangi bir sabit sayıda puanlayıcı için çalışan bir uyarlama olan Fleiss'in kappa'sı, şans yoluyla gerçekleşmesi beklenebilecek anlaşma miktarını hesaba kattıkları için ortak olasılığı geliştirir. Orijinal sürümler , verileri nominal olarak ele almaları ve derecelendirmelerin doğal bir sıralaması olmadığını varsaymaları nedeniyle ortak olasılık ile aynı sorundan muzdaripti ; verilerin gerçekten bir sıralaması (sıralı ölçüm seviyesi) varsa, bu bilgi ölçümlerde tam olarak dikkate alınmaz.

Yaklaşımın sonraki uzantıları, "kısmi kredi" ve sıralı ölçekleri işleyebilecek sürümleri içeriyordu. Bu uzantılar, sınıf içi korelasyonlar (ICC'ler) ailesiyle birleşir, dolayısıyla nominalden (kappa) sıralıya (sıralı kappa veya ICC - esnetme varsayımları) ve aralığa (ICC) kadar her bir ölçüm düzeyi için güvenilirliği tahmin etmenin kavramsal olarak ilişkili bir yolu vardır. , veya sıralı kappa—aralık ölçeğini sıralı olarak ele alma) ve oran (ICC'ler). Ayrıca, puanlayıcılar tarafından bir dizi madde üzerinde anlaşmaya bakabilen değişkenler de vardır (örneğin, iki görüşmeci bir vaka için aynı yarı yapılandırılmış görüşmedeki tüm maddeler için depresyon puanları konusunda hemfikir midir?) ve ayrıca değerlendiriciler x vakalar (örneğin, iki veya daha fazla değerlendirici, 30 vakanın depresyon tanısı olup olmadığı konusunda ne kadar iyi anlaşıyorlar, evet/hayır - nominal bir değişken).

Kappa, +1.0'ın üstüne veya -1.0'ın altına gidemediği için bir korelasyon katsayısına benzer. Bir anlaşma ölçüsü olarak kullanıldığından, çoğu durumda yalnızca pozitif değerler beklenir; negatif değerler sistematik anlaşmazlığı gösterir. Kappa ancak her iki uyum iyi olduğunda ve hedef koşulun oranı %50'ye yakın olduğunda çok yüksek değerler elde edebilir (çünkü ortak olasılıkların hesaplanmasında taban oranı da içerir). Bazı otoriteler, anlaşma düzeyini yorumlamak için, kelimeler aynı olmasa da, çoğu özde aynı fikirde olan "temel kurallar" önerdi.

korelasyon katsayıları

Ya Pearson 'ın , Kendall τ veya Spearman ' ın sipariş edilen bir ölçek kullanarak Puanlayıcılar arasında ikişerli korelasyon ölçmek için kullanılabilir. Pearson, derecelendirme ölçeğinin sürekli olduğunu varsayar; Kendall ve Spearman istatistikleri yalnızca sıralı olduğunu varsayar. İkiden fazla puanlayıcı gözlemlenirse, grup için ortalama bir uyum düzeyi, olası her puanlayıcı çiftinden elde edilen , τ veya değerlerin ortalaması olarak hesaplanabilir . ${\görüntüleme stili r}$ ${\görüntüleme stili \rho }$ ${\görüntüleme stili r}$ ${\görüntüleme stili \rho }$

Sınıf içi korelasyon katsayısı

Güvenilirlik testi yapmanın başka bir yolu, sınıf içi korelasyon katsayısını (ICC) kullanmaktır. Bunun birkaç türü vardır ve bunlardan biri, "gerçek puanlardaki denekler arası değişkenliğe bağlı olarak bir gözlemin varyansının oranı" olarak tanımlanır. ICC'nin aralığı 0.0 ile 1.0 arasında olabilir (ICC'nin erken bir tanımı -1 ile +1 arasında olabilir). Puanlayıcılar tarafından her bir maddeye verilen puanlar arasında çok az farklılık olduğunda, örneğin tüm puanlayıcılar her bir maddeye aynı veya benzer puanları veriyorsa, ICC yüksek olacaktır. ICC, bireysel segmentler için derecelendirmelerdeki farklılıkları ve değerlendiriciler arasındaki korelasyonu hesaba kattığı için Pearson's ve Spearman's'e göre bir gelişmedir . ${\görüntüleme stili r}$ ${\görüntüleme stili \rho }$

Anlaşma sınırları

Bland-Altman arsa

Uyum için başka bir yaklaşım (sadece iki puanlayıcı olduğunda ve ölçek sürekli olduğunda faydalıdır), iki puanlayıcının gözlemlerinin her bir çifti arasındaki farkları hesaplamaktır. Bu farklılıkların ortalaması yanlılık olarak adlandırılır ve referans aralığı (ortalama ± 1.96 × standart sapma ) uyum sınırları olarak adlandırılır . Anlaşmanın sınırları çok rastgele varyasyon derecelendirmelerini etkilemek amacına nasıl fikir verir.

Değerlendiriciler hemfikir olma eğilimindeyse, puanlayıcıların gözlemleri arasındaki farklar sıfıra yakın olacaktır. Bir değerlendirici genellikle tutarlı bir miktarda diğerinden daha yüksek veya daha düşükse, önyargı sıfırdan farklı olacaktır. Değerlendiriciler aynı fikirde olmama eğilimindeyse, ancak diğerinden daha yüksek tutarlı bir derecelendirme modeli yoksa, ortalama sıfıra yakın olacaktır. Güven sınırları (genellikle %95), hem sapma hem de anlaşma sınırlarının her biri için hesaplanabilir.

Anlaşma limitlerini hesaplamak için kullanılabilecek birkaç formül vardır. Önceki paragrafta verilen ve 60'tan büyük örneklem büyüklüğü için iyi çalışan basit formül,

{\bar {x}}\pm 1.96s

Daha küçük numune boyutları için başka bir yaygın basitleştirme şudur:

{\bar {x}}\pm 2s

Ancak en doğru formül (tüm numune boyutları için geçerli olan)

{\bar {x}}\pm t_{0.05,n-1}s{\sqrt {1+{\frac {1}{n}}}}

Bland ve Altman, her noktanın farkını, ortalama farkı ve dikeydeki anlaşma sınırlarını, yataydaki iki derecelendirmenin ortalamasına karşı grafikleyerek bu fikri genişletti. Ortaya çıkan Bland-Altman grafiği , yalnızca genel anlaşma derecesini değil, aynı zamanda anlaşmanın kalemin altında yatan değerle ilgili olup olmadığını da gösterir. Örneğin, iki puanlayıcı küçük maddelerin boyutunu tahmin etmede yakın bir şekilde anlaşabilir, ancak daha büyük maddeler hakkında anlaşamazlar.

Ölçüm için iki yöntem karşılaştırıldığında, hem tahmin etmek için, sadece ilgi konusu olan bir önyargı ve anlaşma sınırlarını iki yöntem (arası uyum) arasında değil, aynı zamanda kendi içinde her yöntem için bu özellikleri değerlendirmek. Çok iyi iki yöntem arasındaki anlaşma yöntemlerinden birini geniş vardır çünkü fakir olduğunu olabilir anlaşmanın sınırlarını diğer dar sahipken. Bu durumda, dar uzlaşma sınırlarına sahip yöntem istatistiksel açıdan daha üstün olurken, pratik veya diğer hususlar bu takdiri değiştirebilir. Dar veya geniş anlaşma sınırlarını veya büyük veya küçük önyargıyı oluşturan şey, her durumda pratik bir değerlendirme meselesidir.

Krippendorff'un alfası

Krippendorff'un alfası , belirli bir nesne kümesini bir değişkenin değerleri açısından kategorize eden, değerlendiren veya ölçen gözlemciler arasında elde edilen anlaşmayı değerlendiren çok yönlü bir istatistiktir. Herhangi bir sayıda gözlemciyi kabul ederek, nominal, sıralı, aralık ve oran ölçüm seviyelerine uygulanabilir, eksik verileri işleyebilir ve küçük örnek boyutları için düzeltilerek çeşitli özel uyum katsayılarını genelleştirir.

Alfa , metinsel birimlerin eğitimli kodlayıcılar tarafından kategorize edildiği içerik analizinde ortaya çıktı ve uzmanların açık uçlu görüşme verilerini analiz edilebilir terimlerle kodladığı danışmanlık ve anket araştırmalarında , bireysel özelliklerin birden fazla yöntemle test edildiği psikometride , yapılandırılmamış olayların olduğu gözlemsel çalışmalarda kullanıldı. sonraki analizler için ve metinlerin çeşitli sözdizimsel ve anlamsal nitelikler için açıklamalı olduğu hesaplamalı dilbilimde kaydedilir .

anlaşmazlık

Birden fazla puanlayıcının faydalı olduğu herhangi bir görev için, puanlayıcıların gözlemlenen hedef hakkında fikir ayrılığına düşmesi beklenir. Bunun aksine, basit sayma görevleri (örn. bir mağazaya giren potansiyel müşterilerin sayısı) gibi kesin ölçüm içeren durumlar genellikle ölçümün birden fazla kişi tarafından yapılmasını gerektirmez.

Derecelendirme hedefindeki ilginin özelliklerinde belirsizliği içeren ölçüm, genellikle birden fazla eğitimli değerlendirici ile iyileştirilir. Bu tür ölçüm görevleri genellikle kalitenin öznel yargısını içerir. Örnekler arasında doktorun 'yatak başındaki tavrı' derecelendirmeleri, bir jüri tarafından tanık güvenilirliğinin değerlendirilmesi ve bir konuşmacının sunum becerisi yer alır.

Ölçüm prosedürlerinde değerlendiriciler arasındaki farklılık ve ölçüm sonuçlarının yorumlanmasındaki değişkenlik, derecelendirme ölçümlerinde hata varyansı kaynaklarına iki örnektir. Belirsiz veya zorlu ölçüm senaryolarında güvenilirlik için derecelendirmeleri oluşturmak için açıkça belirtilen yönergeler gereklidir.

Puanlama yönergeleri olmadan, derecelendirmeler deneycinin önyargısından , yani derecelendirme değerlerinin değerlendirici tarafından beklenene doğru kayma eğiliminden giderek daha fazla etkilenir . Tekrarlanan ölçümleri içeren süreçler sırasında , puanlayıcıların yönergeleri ve ölçüm hedeflerini anlamalarını sağlamak için periyodik yeniden eğitim yoluyla puanlayıcı sapmasının düzeltilmesi ele alınabilir.

Ayrıca bakınız

Referanslar

daha fazla okuma

Gwet, Kilem L. (2014) El Kitabı Değerlendiriciler Arası Güvenilirlik, Dördüncü Baskı , (Gaithersburg : Advanced Analytics, LLC) ISBN 978-0970806284
Gwet, KL (2008). “ Yüksek anlaşmanın varlığında değerlendiriciler arası güvenilirliğin ve varyansının hesaplanması .” İngiliz Matematiksel ve İstatistiksel Psikoloji Dergisi, 61, 29-48
Johnson, R., Penny, J. ve Gordon, B. (2009). Performansı değerlendirme: Performans görevlerini geliştirme, puanlama ve doğrulama. New York: Guilford Yayınları. ISBN 978-1-59385-988-6
Shoukri, MM (2010) Gözlemciler Arası Anlaşma ve Güvenilirlik Ölçüleri (2. baskı) . Boca Raton, FL: Chapman & Hall/CRC Press, ISBN 978-1-4398-1080-4

Languages

In other projects