Tanımlayıcı istatistikler - Descriptive statistics

Bir tanımlayıcı istatistik (içinde sayım isim anlamda) bir olduğunu özeti istatistik kantitatif açıklar veya bir koleksiyondan özelliklerini özetler bilgi ise, tanımlayıcı istatistikler (içinde kütle isim anlamda) kullanılarak ve bu istatistikleri analiz edilmesi işlemidir. Tanımlayıcı istatistikler, verileri, veri örneğinin temsil ettiği düşünülen popülasyon hakkında bilgi edinmek için kullanmak yerine, bir örneği özetleme amacı ile çıkarımsal istatistiklerden (veya tümevarımsal istatistiklerden) ayrılır . Bu genellikle, tanımlayıcı istatistiklerin, çıkarımsal istatistiklerin aksine, olasılık teorisi temelinde geliştirilmediği ve sıklıkla parametrik olmayan istatistikler olduğu anlamına gelir . Bir veri analizi, çıkarımsal istatistikler kullanarak ana sonuçlarını çıkarsa bile, genellikle tanımlayıcı istatistikler de sunulur. Örneğin, insan denekler hakkında rapor veren makalelerde, genel olarak örneklem büyüklüğünü , önemli alt gruplardaki örnek boyutlarını (örneğin, her tedavi veya maruziyet grubu için) ve ortalama yaş, oran gibi demografik veya klinik özellikleri veren bir tablo bulunur. her cinsiyetten deneklerin sayısı, ilişkili komorbiditeleri olan deneklerin oranı vb.

Bir veri setini tanımlamak için yaygın olarak kullanılan bazı ölçüler, merkezi eğilim ölçüleri ve değişkenlik veya dağılım ölçüleridir . Merkezi eğilim ölçüleri ortalama , medyan ve modu içerirken, değişkenlik ölçüleri standart sapmayı (veya varyansı ), değişkenlerin minimum ve maksimum değerlerini, basıklığı ve çarpıklığı içerir .

İstatistiksel analizde kullanım

Tanımlayıcı istatistikler, örneklem ve yapılan gözlemler hakkında basit özetler sağlar. Bu tür özetler, nicel , yani özet istatistikler veya görsel, yani anlaşılması kolay grafikler olabilir. Bu özetler, daha kapsamlı bir istatistiksel analizin parçası olarak verilerin ilk tanımının temelini oluşturabilir veya belirli bir araştırma için kendi başlarına yeterli olabilir.

Örneğin, çekim yüzdesi içinde basketbol bir oyuncu ya da takım performansını özetler açıklayıcı bir istatistiktir. Bu sayı, atılan şut sayısına bölünen atış sayısıdır. Örneğin %33 şut atan bir oyuncu yaklaşık olarak her üç atışta bir şut atıyor. Yüzde, birden çok ayrı olayı özetler veya açıklar. Not ortalamasını da göz önünde bulundurun . Bu tek sayı, bir öğrencinin kurs deneyimleri boyunca genel performansını tanımlar.

Tanımlayıcı ve özet istatistiklerin kullanımı geniş bir geçmişe sahiptir ve aslında, nüfusların ve ekonomik verilerin basit bir şekilde tablolaştırılması, istatistik konusunun ortaya çıktığı ilk yoldu . Daha yakın zamanlarda, keşifsel veri analizi başlığı altında bir özetleme teknikleri koleksiyonu formüle edilmiştir : böyle bir tekniğe bir örnek kutu grafiğidir .

İş dünyasında, tanımlayıcı istatistikler birçok veri türünün faydalı bir özetini sağlar. Örneğin, yatırımcılar ve brokerler, gelecekte daha iyi yatırım kararları almak için yatırımları üzerinde ampirik ve analitik analizler yaparak geçmiş bir getiri davranışı hesabını kullanabilirler.

tek değişkenli analiz

Tek değişkenli analiz , merkezi eğilimi ( ortalama , medyan ve mod dahil) ve dağılımı ( veri kümesinin aralığı ve çeyrekleri dahil ve varyans ve standart sapma gibi yayılma ölçüleri dahil) dahil olmak üzere tek bir değişkenin dağılımını tanımlamayı içerir . ). Dağılımın şekli, çarpıklık ve basıklık gibi endeksler aracılığıyla da tanımlanabilir . Bir değişkenin dağılımının özellikleri, histogramlar ve gövde-yaprak gösterimi de dahil olmak üzere grafik veya tablo biçiminde de gösterilebilir .

İki değişkenli ve çok değişkenli analiz

Bir örnek birden fazla değişkenden oluştuğunda, değişken çiftleri arasındaki ilişkiyi tanımlamak için tanımlayıcı istatistikler kullanılabilir. Bu durumda, tanımlayıcı istatistikler şunları içerir:

Tek değişkenli ve iki değişkenli analizi ayırt etmenin temel nedeni, iki değişkenli analizin sadece basit tanımlayıcı analiz değil, aynı zamanda iki farklı değişken arasındaki ilişkiyi de tanımlamasıdır. Nicel bağımlılık ölçüleri, korelasyonu ( her iki değişken de sürekli olduğunda Pearson's r veya biri veya her ikisi de değilse Spearman's rho gibi) ve kovaryansı (değişkenlerin ölçüldüğü ölçeği yansıtır) içerir. Regresyon analizinde eğim, değişkenler arasındaki ilişkiyi de yansıtır. Standartlaştırılmamış eğim, tahmin edicideki bir birimlik değişiklik için kriter değişkenindeki birim değişikliği gösterir . Standartlaştırılmış eğim, bu değişikliği standartlaştırılmış ( z-skor ) birimlerde gösterir. Çok çarpık veriler genellikle logaritma alınarak dönüştürülür. Logaritma kullanımı, grafikleri daha simetrik hale getirir ve normal dağılıma daha benzer görünür , bu da onları sezgisel olarak yorumlamayı kolaylaştırır.

Referanslar

Dış bağlantılar