Veri analizi - Data analysis

Veri analizi , yararlı bilgileri keşfetmek, sonuçları bildirmek ve karar vermeyi desteklemek amacıyla verileri inceleme, temizleme , dönüştürme ve modelleme sürecidir . Veri analizinin birden çok yönü ve yaklaşımı vardır, çeşitli isimler altında farklı teknikleri kapsar ve farklı işletme, bilim ve sosyal bilim alanlarında kullanılır. Günümüz iş dünyasında veri analizi, kararların daha bilimsel verilmesinde ve işletmelerin daha etkin çalışmasına yardımcı olmada rol oynamaktadır.

Veri madenciliği , yalnızca tanımlayıcı amaçlardan ziyade tahmine yönelik istatistiksel modelleme ve bilgi keşfine odaklanan özel bir veri analizi tekniğidir; iş zekası ise ağırlıklı olarak iş bilgilerine odaklanan, toplulaştırmaya dayanan veri analizini kapsar. İstatistiksel uygulamalarda, veri analizi, tanımlayıcı istatistikler , keşifsel veri analizi (EDA) ve doğrulayıcı veri analizi (CDA) olarak ayrılabilir . EDA, verilerdeki yeni özellikleri keşfetmeye odaklanırken, CDA mevcut hipotezleri doğrulamaya veya tahrif etmeye odaklanır . Tahmine dayalı analitik , tahmine dayalı tahmin veya sınıflandırma için istatistiksel modellerin uygulanmasına odaklanırken, metin analitiği , bir yapılandırılmamış veri türü olan metinsel kaynaklardan bilgi çıkarmak ve sınıflandırmak için istatistiksel, dilsel ve yapısal teknikler uygular . Yukarıdakilerin tümü veri analizi çeşitleridir.

Veri entegrasyonu , veri analizinin öncüsüdür ve veri analizi, veri görselleştirme ve veri yayma ile yakından bağlantılıdır .

Veri analizi süreci

Schutt & O'Neil (2013) tarafından hazırlanan Doing Data Science'dan veri bilimi süreç akış şeması

Analiz , bireysel inceleme için bir bütünün ayrı bileşenlerine bölünmesini ifade eder. Veri analizi , ham verilerin elde edilmesi ve daha sonra kullanıcıların karar vermeleri için yararlı bilgilere dönüştürülmesi için bir süreçtir . Veriler , soruları yanıtlamak, hipotezleri test etmek veya teorileri çürütmek için toplanır ve analiz edilir.

İstatistikçi John Tukey , 1961'de veri analizini şu şekilde tanımladı:

"Verileri analiz etme prosedürleri, bu tür prosedürlerin sonuçlarını yorumlama teknikleri, analizini daha kolay, daha kesin veya daha doğru hale getirmek için veri toplamayı planlama yolları ve verilerin analizi için geçerli olan (matematiksel) istatistiklerin tüm makineleri ve sonuçları. "

Aşağıda açıklanan, ayırt edilebilecek birkaç aşama vardır. Aşamalar yinelemelidir , çünkü sonraki aşamalardan gelen geri bildirim, önceki aşamalarda ek çalışma ile sonuçlanabilir. CRISP çerçevesi kullanılan, veri madenciliği , benzer adımlar bulunur.

Veri gereksinimleri

Veriler, analizi yönetenlerin (veya analizin bitmiş ürününü kullanacak olan müşterilerin) gereksinimlerine göre belirlenen analiz için girdi olarak gereklidir. Verilerin toplanacağı genel varlık türü, deneysel birim (örneğin, bir kişi veya insan nüfusu) olarak adlandırılır. Bir popülasyona ilişkin spesifik değişkenler (örn. yaş ve gelir) belirlenebilir ve elde edilebilir. Veriler sayısal veya kategorik olabilir (yani sayılar için bir metin etiketi).

Veri toplama

Veriler çeşitli kaynaklardan toplanır. Gereksinimler, analistler tarafından verilerin sorumlularına iletilebilir ; örneğin, bir kuruluştaki Bilgi Teknolojisi personeli . Veriler ayrıca trafik kameraları, uydular, kayıt cihazları vb. dahil olmak üzere ortamdaki sensörlerden de toplanabilir. Ayrıca görüşmeler, çevrimiçi kaynaklardan indirmeler veya belgelerin okunması yoluyla da elde edilebilir.

Veri işleme

Ham bilgiyi eyleme geçirilebilir zekaya veya bilgiye dönüştürmek için kullanılan istihbarat döngüsünün aşamaları , kavramsal olarak veri analizindeki aşamalara benzer.

Veriler, ilk elde edildiğinde, analiz için işlenmeli veya düzenlenmelidir. Örneğin, bunlar , genellikle elektronik tablo veya istatistiksel yazılım kullanılarak daha fazla analiz için verilerin bir tablo formatında ( yapılandırılmış veri olarak bilinir ) satırlara ve sütunlara yerleştirilmesini içerebilir .

Veri temizleme

İşlenip düzenlendikten sonra veriler eksik olabilir, kopyalar içerebilir veya hatalar içerebilir. Veri temizleme ihtiyacı, verilerin girilme ve saklanma şeklindeki sorunlardan kaynaklanacaktır. Veri temizleme, bu hataların önlenmesi ve düzeltilmesi işlemidir. Ortak görevler arasında kayıt eşleştirme, verilerin yanlışlığının belirlenmesi, mevcut verilerin genel kalitesi, veri tekilleştirme ve sütun segmentasyonu yer alır. Bu tür veri sorunları, çeşitli analitik tekniklerle de tanımlanabilir. Örneğin; finansal bilgilerle, belirli değişkenlerin toplamları, güvenilir olduğuna inanılan ayrı olarak yayınlanan sayılarla karşılaştırılabilir. Önceden belirlenmiş eşiklerin üstünde veya altında olan olağandışı miktarlar da gözden geçirilebilir. Kümedeki veri türüne bağlı olan birkaç tür veri temizleme vardır; bu telefon numaraları, e-posta adresleri, işverenler veya diğer değerler olabilir. Aykırı değer tespiti için nicel veri yöntemleri, yanlış girilme olasılığı daha yüksek görünen verilerden kurtulmak için kullanılabilir. Metinsel veri yazım denetleyicileri, yanlış yazılan sözcüklerin miktarını azaltmak için kullanılabilir. Ancak, kelimelerin kendilerinin doğru olup olmadığını söylemek daha zordur.

Keşfedici veri analizi

Veri kümeleri temizlendikten sonra analiz edilebilirler. Analistler , elde edilen verilerde yer alan mesajları anlamaya başlamak için keşifsel veri analizi olarak adlandırılan çeşitli teknikler uygulayabilir . Veri araştırma süreci, ek veri temizliğine veya ek veri taleplerine neden olabilir; bu nedenle, bu bölümün ana paragrafında bahsedilen yinelemeli aşamaların başlatılması . Verilerin anlaşılmasına yardımcı olmak için ortalama veya medyan gibi tanımlayıcı istatistikler oluşturulabilir. Veri görselleştirme aynı zamanda analistin veri içindeki mesajlarla ilgili ek içgörüler elde etmek için verileri grafik formatında inceleyebildiği bir tekniktir.

Modelleme ve algoritmalar

Değişkenler arasındaki ilişkileri belirlemek için verilere matematiksel formüller veya modeller ( algoritmalar olarak bilinir ) uygulanabilir; örneğin, korelasyon veya nedensellik kullanarak . Genel anlamda, modeller , uygulanan modelin doğruluğuna bağlı olarak bazı artık hatalarla ( örneğin , Veri = Model + Hata) veri kümesinde bulunan diğer değişken(ler)e dayalı olarak belirli bir değişkeni değerlendirmek için geliştirilebilir .

Çıkarımsal istatistikler , belirli değişkenler arasındaki ilişkileri ölçen tekniklerin kullanılmasını içerir. Örneğin, reklamdaki bir değişikliğin ( bağımsız değişken X ), satışlardaki varyasyon için bir açıklama sağlayıp sağlamadığını modellemek için regresyon analizi kullanılabilir ( bağımlı değişken Y ). Matematiksel olarak, Y (satış), X'in (reklam) bir fonksiyonudur . ( Y = aX + b + hatası) olarak tanımlanabilir, burada model, ( a ) ve ( b ) model , belirli bir X değer aralığı için Y'yi tahmin ettiğinde hatayı en aza indirecek şekilde tasarlanır . Analistler ayrıca analizi basitleştirmek ve sonuçları iletmek amacıyla verileri açıklayan modeller oluşturmaya çalışabilirler.

Veri ürünü

Bir veri ürünü , veri girdilerini alan ve çıktılar üreten ve bunları çevreye geri besleyen bir bilgisayar uygulamasıdır . Bir modele veya algoritmaya dayalı olabilir. Örneğin, müşterinin satın alma geçmişi hakkındaki verileri analiz eden ve sonuçları müşterinin beğenebileceği diğer satın alma işlemlerini önermek için kullanan bir uygulama.

İletişim

Veriler analiz edildikten sonra sonuçların anlaşılmasına yardımcı olmak için veri görselleştirme kullanılır.

Veriler analiz edildikten sonra, gereksinimlerini desteklemek için analiz kullanıcılarına birçok formatta rapor edilebilir. Kullanıcılar, ek analizle sonuçlanan geri bildirim alabilir. Bu nedenle, analitik döngünün çoğu yinelemelidir.

Analist, sonuçların nasıl iletileceğini belirlerken, mesajın izleyiciye daha açık ve verimli bir şekilde iletilmesine yardımcı olmak için çeşitli veri görselleştirme tekniklerini uygulamayı düşünebilir. Veri görselleştirme , verilerde yer alan önemli mesajların iletilmesine yardımcı olmak için bilgi ekranlarını (tablolar ve çizelgeler gibi grafikler) kullanır. Tablolar , bir kullanıcının belirli sayıları sorgulamasını ve bunlara odaklanmasını sağlayarak değerli bir araçtır; grafikler (örneğin, çubuk grafikler veya çizgi grafikler), verilerde yer alan nicel mesajları açıklamaya yardımcı olabilir.

nicel mesajlar

ABD federal harcamalarındaki ve zaman içindeki gelirdeki eğilimleri gösteren bir çizgi grafikle gösterilen bir zaman serisi.
Zaman içinde ölçülen iki değişken (enflasyon ve işsizlik) arasındaki korelasyonu gösteren bir dağılım grafiği.

Stephen Few, kullanıcıların bir dizi veriden anlamaya veya iletişim kurmaya çalışabilecekleri sekiz tür nicel mesajı ve mesajı iletmeye yardımcı olmak için kullanılan ilgili grafikleri tanımladı. Gereksinimleri belirten müşteriler ve veri analizini gerçekleştiren analistler, süreç boyunca bu mesajları dikkate alabilir.

  1. Zaman serisi: 10 yıllık bir süre boyunca işsizlik oranı gibi bir süre boyunca tek bir değişken yakalanır. Eğilimi göstermek için bir çizgi grafiği kullanılabilir.
  2. Sıralama: Kategorik alt bölümler, tek bir dönem boyunca satış görevlilerinin ( her satış görevlisinin kategorik bir alt bölüm olduğu kategori ) satış performansının sıralaması ( ölçü ) gibi artan veya azalan düzende sıralanır . Satış görevlileri arasındaki karşılaştırmayı göstermek için bir çubuk grafik kullanılabilir.
  3. Parçadan bütüne: Kategorik alt bölümler, bütüne oran olarak ölçülür (yani, %100 üzerinden bir yüzde). Bir pasta grafik veya çubuk grafik böyle bir pazarda rakipler tarafından temsil edilen pazar payı olarak oranları, karşılaştırmasını gösterebilir.
  4. Sapma: Kategorik alt bölümler, belirli bir süre için bir işletmenin çeşitli departmanları için gerçekleşen ve bütçe giderlerinin karşılaştırılması gibi bir referansla karşılaştırılır. Bir çubuk grafik, gerçek ile referans miktarın karşılaştırmasını gösterebilir.
  5. Frekans dağılımı: Hisse senedi getirisinin %0–10, %11–20 gibi aralıklar arasında olduğu yıl sayısı gibi belirli bir aralık için belirli bir değişkenin gözlem sayısını gösterir. Bir histogram , bir çubuk grafik türü, bu analiz için kullanılabilir.
  6. Korelasyon: İki değişkenle (X,Y) temsil edilen gözlemlerin aynı yönde mi yoksa zıt yönlerde mi hareket etme eğiliminde olduklarını belirlemek için karşılaştırma. Örneğin, bir ay örneği için işsizlik (X) ve enflasyonun (Y) çizilmesi. Bu mesaj için genellikle bir dağılım grafiği kullanılır.
  7. Nominal karşılaştırma: Ürün koduna göre satış hacmi gibi belirli bir sırayla kategorik alt bölümleri karşılaştırma. Bu karşılaştırma için bir çubuk grafik kullanılabilir.
  8. Coğrafi veya jeo-uzamsal: Devlete göre işsizlik oranı veya bir binanın çeşitli katlarındaki kişi sayısı gibi bir harita veya yerleşim planı boyunca bir değişkenin karşılaştırılması. Bir kartogram , kullanılan tipik bir grafiktir.

Nicel verileri analiz etme teknikleri

Yazar Jonathan Koomey, nicel verileri anlamak için bir dizi en iyi uygulama önerdi. Bunlar şunları içerir:

  • Bir analiz gerçekleştirmeden önce ham verileri anormallikler açısından kontrol edin;
  • Formüle dayalı veri sütunlarının doğrulanması gibi önemli hesaplamaları yeniden gerçekleştirin;
  • Ana toplamların alt toplamların toplamı olduğunu onaylayın;
  • Zaman içindeki oranlar gibi tahmin edilebilir bir şekilde ilişkilendirilmesi gereken sayılar arasındaki ilişkileri kontrol edin;
  • Kişi başına veya GSYİH'ya göre miktarları veya baz yıla göre bir endeks değeri olarak analiz etmek gibi karşılaştırmaları kolaylaştırmak için sayıları normalleştirin;
  • DuPont'un öz sermaye getirisi analizi gibi sonuçlara yol açan faktörleri analiz ederek sorunları bileşen parçalarına ayırın.

Analistler, incelenen değişkenler için tipik olarak ortalama (ortalama), medyan ve standart sapma gibi tanımlayıcı istatistikler elde ederler . Bireysel değerlerin ortalama etrafında nasıl kümelendiğini görmek için anahtar değişkenlerin dağılımını da analiz edebilirler .

Veri analizi için kullanılan MECE ilkesinin bir örneği .

McKinsey and Company'deki danışmanlar, nicel bir sorunu bileşenlerine ayırma tekniğine MECE ilkesi adını verdiler . Her katman bileşenlerine ayrılabilir; alt bileşenlerin her biri birbirini dışlamalı ve toplu olarak üstlerindeki katmana eklenmelidir . İlişki, "Karşılıklı Olarak Münhasır ve Toplu Olarak Kapsamlı" veya MECE olarak anılır. Örneğin, tanımı gereği kâr, toplam gelir ve toplam maliyete bölünebilir. Buna karşılık, toplam gelir, A, B ve C bölümlerinin (birbirlerini karşılıklı olarak dışlayan) geliri gibi bileşenleri tarafından analiz edilebilir ve toplam gelire eklenmelidir (toplu olarak ayrıntılı).

Analistler, belirli analitik sorunları çözmek için sağlam istatistiksel ölçümler kullanabilir. Hipotez testi , analist tarafından işlerin gerçek durumu hakkında belirli bir hipotez yapıldığında ve bu durumun doğru mu yanlış mı olduğunu belirlemek için veriler toplandığında kullanılır. Örneğin, hipotez, Phillips Eğrisi adı verilen bir ekonomi kavramıyla ilgili olan "İşsizliğin enflasyon üzerinde hiçbir etkisi yoktur" olabilir . Hipotez testi, verilerin hipotezi kabul etmeyi veya reddetmeyi destekleyip desteklemediği ile ilgili olan Tip I ve tip II hataların olasılığını dikkate almayı içerir .

Analist, X bağımsız değişkeninin bağımlı değişken Y'yi ne ölçüde etkilediğini belirlemeye çalışırken regresyon analizi kullanılabilir (örneğin, "İşsizlik oranındaki (X) değişiklikler enflasyon oranını (Y) ne ölçüde etkiler?"). Bu, Y, X'in bir fonksiyonu olacak şekilde, verilere bir denklem çizgisi veya eğrisi modelleme veya uydurma girişimidir.

Gerekli koşul analizi (NCA), analist X'in bağımsız değişkenin Y değişkenine ne ölçüde izin verdiğini belirlemeye çalışırken kullanılabilir (örneğin, "Belirli bir işsizlik oranı (X), belirli bir enflasyon oranı (Y) için ne ölçüde gereklidir) ?"). (Çoklu) regresyon analizi, her bir X değişkeninin sonucu üretebildiği ve X'lerin birbirini telafi edebildiği (yeterli ama gerekli değil) toplamsal mantık kullanırken, gerekli koşul analizi (NCA), bir veya daha fazla X'in olduğu durumlarda gereklilik mantığını kullanır. -değişkenler sonucun var olmasına izin verir, ancak onu üretemeyebilir (gereklidir ancak yeterli değildir). Her bir gerekli koşul mevcut olmalıdır ve tazminat mümkün değildir.

Veri kullanıcılarının analitik faaliyetleri

Kullanıcılar, yukarıda özetlenen genel mesajlaşmanın aksine, bir veri seti içinde belirli veri noktalarına sahip olabilir. Bu tür düşük seviyeli kullanıcı analitik aktiviteleri aşağıdaki tabloda sunulmaktadır. Taksonomi ayrıca üç etkinlik kutbuna göre düzenlenebilir: değerlerin alınması, veri noktalarının bulunması ve veri noktalarının düzenlenmesi.

# Görev Genel
Açıklama
Proforma
Özet
Örnekler
1 Değeri Al Belirli bir vaka kümesi verildiğinde, bu vakaların özelliklerini bulun. {A, B, C, ...} veri durumlarında {X, Y, Z, ...} niteliklerinin değerleri nelerdir? - Ford Mondeo'nun galon başına kilometresi nedir?

- Rüzgar Gibi Geçti filmi ne kadar sürüyor?

2 Filtre Öznitelik değerleriyle ilgili bazı somut koşullar verildiğinde, bu koşulları karşılayan veri durumlarını bulun. Hangi veri durumları {A, B, C...} koşullarını sağlıyor? - Hangi Kellogg's tahılları yüksek lif içerir?

- Hangi komediler ödül kazandı?

- Hangi fonlar SP-500'den daha düşük performans gösterdi?

3 Türetilmiş Değeri Hesapla Bir dizi veri durumu verildiğinde, bu veri durumlarının toplu sayısal gösterimini hesaplayın. Veri durumlarının belirli bir S kümesi üzerindeki F toplama fonksiyonunun değeri nedir? - Post tahılların ortalama kalori içeriği nedir?

- Tüm mağazaların toplam brüt geliri nedir?

- Kaç tane araba üreticisi var?

4 Aşırı Bul Veri kümesi içindeki aralığının üzerinde bir özniteliğin aşırı değerine sahip veri durumlarını bulun. A niteliğine göre üst/alt N veri durumları nelerdir? - En yüksek MPG'ye sahip araba nedir?

- En çok ödülü hangi yönetmen/film kazandı?

- En son hangi Marvel Studios filminin çıkış tarihi var?

5 Çeşit Bir dizi veri durumu verildiğinde, bunları bazı sıralı metriklere göre sıralayın. A öznitelik değerlerine göre bir dizi S veri vakasının sıralı düzeni nedir? - Arabaları ağırlıklarına göre sıralayın.

- Tahılları kaloriye göre sıralayın.

6 Aralığı Belirle Bir dizi veri durumu ve ilgilenilen bir öznitelik verildiğinde, küme içindeki değerlerin yayılımını bulun. Bir dizi S veri vakasında A özniteliğinin değer aralığı nedir? - Film uzunlukları aralığı nedir?

- Araba beygir gücü aralığı nedir?

- Veri setinde hangi aktrisler var?

7 Dağıtımı karakterize edin Bir dizi veri durumu ve ilgilenilen nicel bir öznitelik verildiğinde, o özniteliğin değerlerinin set üzerindeki dağılımını karakterize edin. Bir dizi S veri vakasında A özniteliğinin değerlerinin dağılımı nedir? - Tahıllardaki karbonhidratların dağılımı nasıldır?

- Alışveriş yapanların yaş dağılımı nedir?

8 Anormallikleri Bul Belirli bir ilişki veya beklentiyle ilgili olarak belirli bir veri vakaları kümesindeki anormallikleri tanımlayın, örneğin istatistiksel aykırı değerler. Bir dizi S veri vakasındaki hangi veri vakalarının beklenmedik/istisnai değerleri var? - Beygir gücü ve hızlanma arasındaki ilişkide istisnalar var mı?

- Proteinde aykırı değerler var mı?

9 Küme Bir dizi veri durumu verildiğinde, benzer öznitelik değerlerinin kümelerini bulun. {X, Y, Z, ...} öznitelikleri için bir S veri durumu kümesindeki hangi veri durumları benzerdir? - Benzer yağ/kalori/şeker içeren tahıl grupları var mı?

- Tipik film uzunlukları kümesi var mı?

10 ilişkilendirmek Bir dizi veri durumu ve iki öznitelik verildiğinde, bu özniteliklerin değerleri arasındaki yararlı ilişkileri belirleyin. Belirli bir S veri durumu kümesi üzerinde X ve Y nitelikleri arasındaki korelasyon nedir? - Karbonhidratlar ve yağlar arasında bir ilişki var mı?

- Menşe ülke ile MPG arasında bir korelasyon var mı?

- Farklı cinsiyetlerin tercih ettiği bir ödeme yöntemi var mı?

- Yıllar içinde film uzunluğunu artırma eğilimi var mı?

11 bağlamsallaştırma Bir dizi veri durumu verildiğinde, verilerin kullanıcılar için bağlamsal alaka düzeyini bulun. Bir dizi S veri vakasındaki hangi veri vakaları mevcut kullanıcıların bağlamıyla ilgilidir? - Mevcut kalori alımıma göre yiyecekleri olan restoran grupları var mı?

Etkili analizin önündeki engeller

Veri analizini yapan analistler veya izleyiciler arasında etkili analizin önündeki engeller olabilir. Gerçeği görüşten, bilişsel önyargılardan ve hesapsızlıktan ayırt etmek, sağlam veri analizi için zorluklardır.

Kafa karıştıran gerçek ve görüş

Kendi fikrinize hakkınız var, ancak kendi gerçeklerinize hakkınız yok.

Daniel Patrick Moynihan

Etkili analiz, soruları yanıtlamak, bir sonucu veya resmi görüşü desteklemek veya hipotezleri test etmek için ilgili gerçekleri elde etmeyi gerektirir . Gerçekler tanım gereği reddedilemez, yani analize dahil olan herhangi bir kişi onlar üzerinde hemfikir olmalıdır. Örneğin, Ağustos 2010'da, Kongre Bütçe Ofisi (CBO) , 2001 ve 2003 yıllarında Bush vergi indirimlerinin 2011-2020 dönemi için uzatılmasının ulusal borca ​​yaklaşık 3,3 trilyon dolar ekleyeceğini tahmin etti. Gerçekten de CBO'nun bildirdiği şeyin bu olduğu konusunda herkes hemfikir olmalıdır; hepsi raporu inceleyebilir. Bu onu bir gerçek yapar. Kişilerin CBO ile hemfikir olup olmadıkları kendi fikirleridir.

Başka bir örnek olarak, halka açık bir şirketin denetçisi, halka açık şirketlerin mali tablolarının "tüm önemli açılardan adil bir şekilde ifade edilmiş" olup olmadığı konusunda resmi bir görüşe varmalıdır. Bu, görüşlerini desteklemek için olgusal verilerin ve kanıtların kapsamlı bir analizini gerektirir. Olgulardan görüşlere sıçrarken , görüşün hatalı olma olasılığı her zaman vardır .

Bilişsel önyargılar

Analizi olumsuz etkileyebilecek çeşitli bilişsel önyargılar vardır. Örneğin, doğrulama yanlılığı , kişinin önyargılarını doğrulayacak şekilde bilgiyi arama veya yorumlama eğilimidir. Ayrıca, bireyler görüşlerini desteklemeyen bilgileri itibarsızlaştırabilir.

Analistler, bu önyargıların ve bunların nasıl üstesinden gelineceğinin farkında olmak için özel olarak eğitilebilir. Emekli CIA analisti Richards Heuer , Psychology of Intelligence Analysis adlı kitabında , analistlerin varsayımlarını ve çıkarım zincirlerini net bir şekilde tanımlamaları ve sonuçlara dahil olan belirsizliğin derecesini ve kaynağını belirtmeleri gerektiğini yazdı. Alternatif bakış açılarını ortaya çıkarmaya ve tartışmaya yardımcı olacak prosedürleri vurguladı.

hesapsızlık

Etkili analistler genellikle çeşitli sayısal tekniklerde ustadır. Ancak, izleyicilerin sayılarla veya aritmetikle böyle bir okuryazarlığı olmayabilir ; sayısız oldukları söylenir. Verileri ileten kişiler, kasıtlı olarak kötü sayısal teknikler kullanarak yanlış yönlendirmeye veya yanlış bilgilendirmeye çalışıyor olabilirler.

Örneğin, bir sayının artması veya düşmesi kilit faktör olmayabilir. Devlet gelirinin büyüklüğü veya ekonominin büyüklüğüne (GSYİH) göre harcama veya kurumsal mali tablolardaki gelire göre maliyet miktarı gibi başka bir sayıya göre sayı daha önemli olabilir. Bu sayısal tekniğe normalleştirme veya ortak boyutlandırma denir. İster enflasyona göre ayarlama (yani gerçek ve nominal verileri karşılaştırma) ister nüfus artışlarını, demografik bilgileri vb. dikkate alarak analistler tarafından kullanılan bu tür birçok teknik vardır. Analistler, yukarıdaki bölümde açıklanan çeşitli nicel mesajları ele almak için çeşitli teknikler uygularlar.

Analistler, verileri farklı varsayımlar veya senaryolar altında da analiz edebilir. Örneğin, analistler finansal tablo analizi yaptıklarında, gelecekteki nakit akışının bir tahminine ulaşmaya yardımcı olmak için finansal tabloları farklı varsayımlar altında yeniden düzenlerler ve daha sonra bazı faiz oranlarına dayalı olarak bugünkü değere indirirler. şirket veya hissesi. Benzer şekilde, CBO, çeşitli politika seçeneklerinin hükümetin gelirleri, harcamaları ve açıkları üzerindeki etkilerini analiz ederek, kilit önlemler için alternatif gelecek senaryoları yaratır.

Diğer başlıklar

Akıllı binalar

Binalarda enerji tüketimini tahmin etmek için bir veri analitiği yaklaşımı kullanılabilir. Bina kullanıcılarının ihtiyaçlarını taklit ederek ve kaynakları optimize ederek ısıtma, havalandırma, iklimlendirme, aydınlatma ve güvenlik gibi bina yönetim ve kontrol işlemlerinin otomatik olarak gerçekleştirildiği akıllı binaları gerçekleştirmek için veri analiz sürecinin farklı adımları gerçekleştirilmektedir. enerji ve zaman gibi.

Analitik ve iş zekası

Analitik, "kararları ve eylemleri yönlendirmek için verilerin kapsamlı kullanımı, istatistiksel ve nicel analiz, açıklayıcı ve tahmine dayalı modeller ve gerçeklere dayalı yönetimdir." Karar vermeyi yönlendirmek için iş performansını anlamak ve analiz etmek için verileri kullanan bir dizi teknoloji ve süreç olan iş zekasının bir alt kümesidir .

Eğitim

Veri görselleştirme kullanıcılarının analitik faaliyetleri

In eğitim , çoğu eğitimciler bir erişebilir veri sistemine öğrenci verilerini analiz etmek amacıyla. Bu veri sistemleri , eğitimcilerin veri analizlerinin doğruluğunu artırmak için verileri tezgah üstü bir veri formatında (etiketler, ek belgeler ve bir yardım sistemi yerleştirme ve önemli paket/görüntüleme ve içerik kararları alma) sunar.

Uygulayıcı notları

Bu bölüm, uygulayıcılara yardımcı olabilecek, ancak bir Wikipedia makalesinin tipik kapsamı dışında kalan oldukça teknik açıklamalar içermektedir.

İlk veri analizi

İlk veri analizi aşaması ile ana analiz aşaması arasındaki en önemli ayrım, ilk veri analizi sırasında orijinal araştırma sorusunu yanıtlamayı amaçlayan herhangi bir analizden kaçınılmasıdır. İlk veri analizi aşamasına aşağıdaki dört soru rehberlik eder:

veri kalitesi

Verilerin kalitesi mümkün olduğunca erken kontrol edilmelidir. Veri kalitesi, farklı analiz türleri kullanılarak çeşitli şekillerde değerlendirilebilir: sıklık sayıları, tanımlayıcı istatistikler (ortalama, standart sapma, medyan), normallik (skewness, basıklık, frekans histogramları), normal atama gereklidir.

  • Uç gözlemlerin analizi : Verilerdeki dış gözlemler, dağılımı bozup bozmadıklarını görmek için analiz edilir.
  • Kodlama şemalarındaki farklılıkların karşılaştırılması ve düzeltilmesi: değişkenler, veri kümesinin dışındaki değişkenlerin kodlama şemalarıyla karşılaştırılır ve kodlama şemaları karşılaştırılabilir değilse muhtemelen düzeltilir.
  • Ortak yöntem varyansını test edin .

İlk veri analizi aşamasında veri kalitesini değerlendirmek için yapılacak analizlerin seçimi, ana analiz aşamasında yapılacak analizlere bağlıdır.

Ölçümlerin kalitesi

Ölçüm araçlarının kalitesi, yalnızca çalışmanın odak noktası veya araştırma sorusu olmadığında ilk veri analizi aşamasında kontrol edilmelidir. Ölçme araçlarının yapısının literatürde bildirilen yapıya uygun olup olmadığı kontrol edilmelidir.

Ölçüm kalitesini değerlendirmenin iki yolu vardır:

  • Doğrulayıcı faktör analizi
  • Bir ölçüm aracının güvenilirliğinin bir göstergesini veren homojenlik analizi ( iç tutarlılık ) . Bu analiz sırasında, maddelerin ve ölçeklerin varyansları, ölçeklerin Cronbach's α'sı ve bir madde bir ölçekten silindiğinde Cronbach's alpha'daki değişim incelenir.

İlk dönüşümler

Verilerin ve ölçümlerin kalitesini değerlendirdikten sonra, ana analiz aşamasında da yapılabilse de, bir kişi eksik verileri eklemeye veya bir veya daha fazla değişkenin ilk dönüşümlerini gerçekleştirmeye karar verebilir.
Değişkenlerin olası dönüşümleri şunlardır:

  • Karekök dönüşümü (dağılım normalden orta derecede farklıysa)
  • Günlük dönüşümü (dağılım normalden önemli ölçüde farklıysa)
  • Ters dönüşüm (dağılım normalden çok farklıysa)
  • Kategorik yapın (sıralı / ikili) (dağılım normalden ciddi şekilde farklıysa ve hiçbir dönüşüm yardımcı olmazsa)

Çalışmanın uygulanması araştırma tasarımının amaçlarını yerine getirdi mi?

Randomizasyon prosedürünün başarısı, örneğin arka plan ve asli değişkenlerin gruplar içinde ve gruplar arasında eşit olarak dağılıp dağılmadığını kontrol ederek kontrol edilmelidir.
Çalışma bir randomizasyon prosedürüne ihtiyaç duymuyorsa veya kullanmıyorsa, örneğin ilgilenilen popülasyonun tüm alt gruplarının örneklemde temsil edilip edilmediğini kontrol ederek, rastgele olmayan örneklemenin başarısı kontrol edilmelidir.
Kontrol edilmesi gereken diğer olası veri bozulmaları şunlardır:

Veri örneğinin özellikleri

Herhangi bir rapor veya makalede, numunenin yapısı doğru bir şekilde tanımlanmalıdır. Ana analiz aşamasında alt grup analizleri yapılacaksa örneğin yapısının (ve özellikle alt grupların büyüklüğünün) tam olarak belirlenmesi özellikle önemlidir.
Veri örneğinin özellikleri aşağıdakilere bakılarak değerlendirilebilir:

  • Önemli değişkenlerin temel istatistikleri
  • dağılım grafikleri
  • Korelasyonlar ve dernekler
  • Çapraz tablolar

İlk veri analizinin son aşaması

Son aşamada, ilk veri analizinin bulguları belgelenir ve gerekli, tercih edilebilir ve olası düzeltici önlemler alınır.
Ayrıca, ana veri analizleri için orijinal plan daha ayrıntılı olarak belirtilebilir veya yeniden yazılabilir ve belirtilmelidir.
Bunu yapmak için, ana veri analizleri hakkında çeşitli kararlar alınabilir ve alınmalıdır:

  • Normal olmayanlar durumunda : değişkenler dönüştürülmeli ; değişkenleri kategorik yapın (sıralı/ikili); analiz yöntemini uyarlamak?
  • Eksik veri olması durumunda : eksik veri ihmal edilmeli veya ima edilmeli; hangi atama tekniği kullanılmalıdır?
  • Aykırı değerler durumunda : sağlam analiz teknikleri kullanılmalı mı?
  • Maddelerin ölçeğe uymaması durumunda: maddeler atlanarak ölçüm aracı uyarlanmalı mı yoksa daha doğrusu diğer ölçüm araç(lar)ının (kullanımları) ile karşılaştırılabilirliği sağlanmalı mı?
  • (Çok) küçük alt gruplar söz konusu olduğunda: gruplar arası farklılıklar hakkındaki hipotezi bırakmalı mı yoksa kesin testler veya önyükleme gibi küçük örnek teknikleri mi kullanmalı?
  • Randomizasyon prosedürünün kusurlu görünmesi durumunda : eğilim puanları hesaplanabilir mi ve ana analizlere ortak değişkenler olarak dahil edilebilir mi ve edilmeli mi?

analiz

İlk veri analizi aşamasında birkaç analiz kullanılabilir:

  • Tek değişkenli istatistikler (tek değişkenli)
  • İki değişkenli ilişkiler (ilişkiler)
  • Grafik teknikleri (dağılım grafikleri)

Her seviye için özel istatistiksel teknikler mevcut olduğundan, analizler için değişkenlerin ölçüm seviyelerinin dikkate alınması önemlidir:

  • Nominal ve sıra değişkenleri
    • Frekans sayıları (sayılar ve yüzdeler)
    • dernekler
      • tavaflar (çapraz tablolar)
      • hiyerarşik loglineer analiz (maksimum 8 değişkenle sınırlıdır)
      • loglineer analiz (ilgili/önemli değişkenleri ve olası karıştırıcıları belirlemek için)
    • Kesin testler veya önyükleme (alt grupların küçük olması durumunda)
    • Yeni değişkenlerin hesaplanması
  • Sürekli değişkenler
    • Dağıtım
      • İstatistikler (M, SD, varyans, çarpıklık, basıklık)
      • Gövde ve yaprak görüntüler
      • Kutu parseller

Doğrusal olmayan analiz

Doğrusal olmayan analiz, genellikle veriler doğrusal olmayan bir sistemden kaydedildiğinde gereklidir . Doğrusal olmayan sistemler, basit doğrusal yöntemlerle analiz edilemeyen çatallanmalar , kaos , harmonikler ve alt harmonikler dahil olmak üzere karmaşık dinamik etkiler sergileyebilir . Doğrusal olmayan veri analizi, doğrusal olmayan sistem tanımlaması ile yakından ilgilidir .

Ana veri analizi

Ana analiz aşamasında, araştırma raporunun ilk taslağını yazmak için gereken diğer ilgili analizlerin yanı sıra araştırma sorusunu yanıtlamaya yönelik analizler yapılır.

Keşifsel ve doğrulayıcı yaklaşımlar

Ana analiz aşamasında, keşfedici veya doğrulayıcı bir yaklaşım benimsenebilir. Genellikle yaklaşıma, veriler toplanmadan önce karar verilir. Keşfedici bir analizde, verileri analiz etmeden önce net bir hipotez belirtilmez ve veriler, verileri iyi tanımlayan modeller için aranır. Doğrulayıcı bir analizde, verilerle ilgili açık hipotezler test edilir.

Keşfedici veri analizi dikkatli bir şekilde yorumlanmalıdır. Aynı anda birden fazla modeli test ederken, bunlardan en az birinin anlamlı olduğunu bulma olasılığı yüksektir, ancak bunun nedeni 1. tip bir hata olabilir . Örneğin bir Bonferroni düzeltmesi ile birden fazla modeli test ederken önem düzeyini her zaman ayarlamak önemlidir . Ayrıca, aynı veri setinde bir keşif analizi ile doğrulayıcı bir analiz takip edilmemelidir. Bir teori için fikir bulmak için bir keşif analizi kullanılır, ancak bu teoriyi test etmek için de kullanılmaz. Bir model, bir veri kümesinde açıklayıcı bulunduğunda, bu analizin aynı veri kümesinde doğrulayıcı bir analizle takip edilmesi, doğrulayıcı analizin sonuçlarının , ilkinde keşif modeliyle sonuçlanan aynı tip 1 hatadan kaynaklandığı anlamına gelebilir. yer. Bu nedenle doğrulayıcı analiz, orijinal keşif analizinden daha bilgilendirici olmayacaktır.

Sonuçların kararlılığı

Sonuçların ne kadar genelleştirilebilir olduğuna dair bazı göstergeler elde etmek önemlidir. Bunu kontrol etmek genellikle zor olsa da, sonuçların kararlılığına bakılabilir. Sonuçlar güvenilir ve tekrarlanabilir mi? Bunu yapmanın iki ana yolu vardır.

  • Çapraz doğrulama . Verileri birden çok parçaya bölerek, verinin bir bölümüne dayalı bir analizin (uydurulmuş bir model gibi) verinin başka bir bölümüne de genellenip genellemediğini kontrol edebiliriz. Çapraz doğrulama, veriler arasında, örneğin panel verilerle , korelasyonlar varsa, genellikle uygun değildir. Bu nedenle bazen diğer doğrulama yöntemlerinin kullanılması gerekir. Bu konu hakkında daha fazla bilgi için bkz. istatistiksel model doğrulama .
  • Duyarlılık analizi . Küresel parametreler (sistematik olarak) değiştiğinde bir sistem veya modelin davranışını incelemek için bir prosedür. Bunu yapmanın bir yolu, önyükleme yapmaktır.

Veri analizi için ücretsiz yazılım

Veri analizi için dikkate değer ücretsiz yazılım şunları içerir:

  • DevInfoBirleşmiş Milletler Kalkınma Grubu tarafından insani gelişmeyi izlemek ve analiz etmek için onaylanmış bir veri tabanı sistemi .
  • ELKI – Java'da veri madenciliği odaklı görselleştirme işlevlerine sahip veri madenciliği çerçevesi.
  • KNIME – Konstanz Information Miner, kullanıcı dostu ve kapsamlı bir veri analitiği çerçevesi.
  • OrangeEtkileşimli veri görselleştirme ve istatistiksel veri analizi, veri madenciliği ve makine öğrenimi için yöntemler içeren görsel bir programlama aracı .
  • Pandalar – Veri analizi için Python kütüphanesi.
  • CERN'de geliştirilen PAW – FORTRAN/C veri analizi çerçevesi .
  • R – İstatistiksel hesaplama ve grafikler için bir programlama dili ve yazılım ortamı.
  • CERN'de geliştirilen ROOT – C++ veri analizi çerçevesi .
  • SciPy – Veri analizi için Python kütüphanesi.
  • Julia - Sayısal analiz ve hesaplama bilimi için çok uygun bir programlama dili.

Uluslararası veri analizi yarışmaları

Farklı şirketler veya kuruluşlar, araştırmacıları verilerini kullanmaya veya veri analizini kullanarak belirli bir soruyu çözmeye teşvik etmek için veri analizi yarışmaları düzenler. Tanınmış uluslararası veri analizi yarışmalarından birkaç örnek aşağıdaki gibidir:

Ayrıca bakınız

Referanslar

alıntılar

bibliyografya

  • Adèr, Herman J. (2008a). "Bölüm 14: Veri analizinde aşamalar ve ilk adımlar". Adèr'de, Herman J.; Mellenbergh, Gideon J .; El, David J (ed.). Araştırma yöntemleri konusunda danışmanlık: bir danışmanın arkadaşı . Huizen, Hollanda: Johannes van Kessel Pub. s. 333–356. ISBN'si 9789079418015. OCLC  905799857 .
  • Adèr, Herman J. (2008b). "Bölüm 15: Ana analiz aşaması". Adèr'de, Herman J.; Mellenbergh, Gideon J .; El, David J (ed.). Araştırma yöntemleri konusunda danışmanlık: bir danışmanın arkadaşı . Huizen, Hollanda: Johannes van Kessel Pub. s. 357–386. ISBN'si 9789079418015. OCLC  905799857 .
  • Tabachnick, BG & Fidell, LS (2007). Bölüm 4: Rolünüzü temizlemek. Analiz öncesi verilerin taranması. BG Tabachnick & LS Fidell'de (Eds.), Çok Değişkenli İstatistikleri Kullanma, Beşinci Baskı (s. 60–116). Boston: Pearson Education, Inc. / Allyn ve Bacon.

daha fazla okuma