Zaman serisi - Time series

Zaman serisi: en uygun çizgi ve farklı uygulanan filtrelerle rastgele veriler artı trend

Gelen matematik , bir zaman serisi bir dizi veri noktaları zaman sırasında yer alan (veya yukarıda belirtilen ya da grafik halinde). En yaygın olarak, bir zaman serisi, zaman içinde birbirini izleyen eşit aralıklı noktalarda alınan bir dizidir . Böylece ayrık zamanlı veri dizisidir . Zaman serilerine örnek olarak okyanus gelgitlerinin yüksekliği, güneş lekelerinin sayısı ve Dow Jones Endüstriyel Ortalamasının günlük kapanış değeri verilebilir .

Bir Zaman serisi çok sık bir çalışma grafiği (zamansal bir çizgi grafiği olan ) aracılığıyla çizilir . Zaman serileri istatistik , sinyal işleme , örüntü tanıma , ekonometri , matematiksel finans , hava tahmini , deprem tahmini , elektroensefalografi , kontrol mühendisliği , astronomi , iletişim mühendisliğinde ve büyük ölçüde uygulamalı bilim ve mühendisliğin zamansal ölçümleri içeren herhangi bir alanında kullanılır.

Zaman serisi analizi , verilerin anlamlı istatistiklerini ve diğer özelliklerini çıkarmak için zaman serisi verilerini analiz etmeye yönelik yöntemleri içerir. Zaman serisi tahmini , önceden gözlemlenen değerlere dayalı olarak gelecekteki değerleri tahmin etmek için bir modelin kullanılmasıdır . Birlikte regresyon analizi , genellikle, bir ya da daha fazla farklı zaman serisi arasında test ilişkiler olarak böyle bir şekilde kullanıldığı zaman, bu tip analiz genellikle tek içinde zaman içinde farklı noktalarda arasındaki ilişkileri özellikle ifade eder, "zaman serisi analizi" olarak değil dizi. Kesintili zaman serisi analizi, bir zaman serisinin evrimindeki değişiklikleri, altta yatan değişkeni etkileyebilecek bazı müdahalelerin öncesinden sonrasına tespit etmek için kullanılır.

Zaman serisi verilerinin doğal bir zamansal sıralaması vardır. Bu, zaman serisi analizini , gözlemlerin doğal bir sıralamasının olmadığı (örneğin, bireylerin verilerinin herhangi bir sırayla girilebildiği, ilgili eğitim seviyelerine göre kişilerin ücretlerinin açıklandığı) kesitsel çalışmalardan farklı kılar . Zaman serisi analizi aynı zamanda , gözlemlerin tipik olarak coğrafi konumlarla ilgili olduğu mekansal veri analizinden farklıdır (örneğin, ev fiyatlarının konuma ve ayrıca evlerin içsel özelliklerine göre hesaplanması). Bir zaman serisi için stokastik bir model, genellikle, zaman içinde birbirine yakın olan gözlemlerin, daha uzaktaki gözlemlerden daha yakından ilişkili olacağı gerçeğini yansıtacaktır. Ek olarak, zaman serisi modelleri genellikle zamanın doğal tek yönlü sıralamasını kullanır, böylece belirli bir periyot için değerler, gelecekteki değerlerden ziyade bir şekilde geçmiş değerlerden türetilmiş olarak ifade edilir (bkz. zaman tersinirliği ).

Zaman serisi analizi, gerçek değerli , sürekli verilere, ayrık sayısal verilere veya ayrık sembolik verilere (yani, İngilizce dilinde harfler ve kelimeler gibi karakter dizileri ) uygulanabilir.

Analiz yöntemleri

Zaman serisi analizi yöntemleri iki sınıfa ayrılabilir: frekans alanı yöntemleri ve zaman alanı yöntemleri. İlki, spektral analizi ve dalgacık analizini içerir ; ikincisi, otomatik korelasyon ve çapraz korelasyon analizini içerir. Zaman alanında, korelasyon ve analiz, ölçeklenmiş korelasyon kullanılarak filtre benzeri bir şekilde yapılabilir , böylece frekans alanında çalışma ihtiyacını azaltır.

Ek olarak, zaman serisi analiz teknikleri parametrik ve parametrik olmayan yöntemlere ayrılabilir . Parametrik yaklaşımlar altta olduğunu varsayalım sabit stokastik işlem (örneğin, bir ile parametrelerin az sayıda kullanılarak tanımlanabilir belli bir yapıya sahip autoregressive veya hareketli ortalama modeli ). Bu yaklaşımlarda görev, stokastik süreci tanımlayan modelin parametrelerini tahmin etmektir. Buna karşılık, parametrik olmayan yaklaşımlar , sürecin herhangi bir özel yapıya sahip olduğunu varsaymadan, sürecin kovaryansını veya spektrumunu açıkça tahmin eder .

Zaman serisi analizi yöntemleri ayrıca doğrusal ve doğrusal olmayan ve tek değişkenli ve çok değişkenli olarak ayrılabilir .

Panel verisi

Bir zaman serisi, bir tür panel veridir . Panel veri genel sınıf, çok boyutlu bir veri seti iken, bir zaman serisi veri seti tek boyutlu bir paneldir ( kesitsel bir veri setinde olduğu gibi ). Bir veri seti, hem panel verisinin hem de zaman serisi verisinin özelliklerini sergileyebilir. Bunu anlamanın bir yolu, bir veri kaydını diğer kayıtlardan benzersiz yapan şeyin ne olduğunu sormaktır. Cevap zaman verisi alanıysa, bu bir zaman serisi veri seti adayıdır. Benzersiz bir kaydın belirlenmesi, bir zaman verisi alanı ve zamanla ilgisi olmayan ek bir tanımlayıcı (örn. öğrenci kimliği, hisse senedi sembolü, ülke kodu) gerektiriyorsa, panel veri adayıdır. Farklılaşma zamansız tanımlayıcıda bulunuyorsa, veri seti bir kesitsel veri seti adayıdır.

analiz

Farklı amaçlara uygun zaman serileri için çeşitli motivasyon ve veri analizi türleri mevcuttur.

Motivasyon

İstatistik , ekonometri , kantitatif finans , sismoloji , meteoroloji ve jeofizik bağlamında zaman serisi analizinin temel amacı tahmindir . Sinyal işleme , kontrol mühendisliği ve iletişim mühendisliği bağlamında sinyal tespiti için kullanılır. Diğer uygulamalar veri madenciliği , örüntü tanıma ve makine öğrenimidir ; burada zaman serisi analizi, kümeleme , sınıflandırma , içeriğe göre sorgulama, anomali tespiti ve tahmin için kullanılabilir .

Keşif analizi

Tüberküloz insidansı ABD 1953-2009

Normal bir zaman serisini incelemenin basit bir yolu, elle bir çizgi grafiği kullanmaktır . Amerika Birleşik Devletleri'ndeki tüberküloz insidansı için bir elektronik tablo programı ile yapılan örnek bir grafik sağda gösterilmiştir. Vaka sayısı 100.000'de bir orana standardize edilmiş ve bu orandaki yıllık yüzde değişim hesaplanmıştır. Neredeyse istikrarlı bir şekilde düşen çizgi, TB insidansının çoğu yılda azalmakta olduğunu göstermektedir, ancak bu orandaki değişim yüzdesi, 1975'te ve 1990'ların başındaki “dalgalanmalar” ile +/- %10 kadar değişmiştir. Her iki dikey eksenin kullanılması, iki zaman serisinin tek bir grafikte karşılaştırılmasına olanak tanır.

Diğer teknikler şunları içerir:

Eğri uydurma

Eğri uydurma , muhtemelen kısıtlamalara tabi olan bir dizi veri noktasına en iyi uyan bir eğri veya matematiksel fonksiyon oluşturma işlemidir . Eğri uydurma , verilere tam bir uyumun gerekli olduğu durumlarda enterpolasyonu veya verilere yaklaşık olarak uyan "pürüzsüz" bir fonksiyonun oluşturulduğu yumuşatmayı içerebilir . İlgili bir konu, rastgele hatalarla gözlemlenen verilere uygun bir eğride ne kadar belirsizlik bulunduğu gibi istatistiksel çıkarım sorularına daha fazla odaklanan regresyon analizidir . Uydurma eğriler, veri görselleştirmeye yardımcı olmak, hiçbir verinin bulunmadığı bir fonksiyonun değerlerini çıkarmak ve iki veya daha fazla değişken arasındaki ilişkileri özetlemek için kullanılabilir. Ekstrapolasyon , gözlemlenen veri aralığının ötesinde uygun bir eğrinin kullanılması anlamına gelir ve bir dereceye kadar belirsizliğe tabidir, çünkü eğriyi oluşturmak için kullanılan yöntemi, gözlemlenen verileri yansıttığı kadar yansıtabilir.

Ekonomik zaman serilerinin oluşturulması, daha önceki ve sonraki tarihler için değerler ("kıyaslamalar") arasında interpolasyon yoluyla bazı tarihler için bazı bileşenlerin tahmin edilmesini içerir . İnterpolasyon, bilinen iki miktar (geçmiş veri) arasındaki bilinmeyen bir miktarın tahmin edilmesi veya mevcut bilgilerden eksik bilgiler hakkında sonuçlar çıkarılmasıdır ("satırlar arasında okuma"). İnterpolasyon, eksik verileri çevreleyen verilerin mevcut olduğu ve trend, mevsimsellik ve uzun vadeli döngülerin bilindiği durumlarda kullanışlıdır. Bu genellikle tüm ilgili tarihler için bilinen ilgili bir seri kullanılarak yapılır. Alternatif olarak polinom interpolasyonu veya spline interpolasyonu , parçalı polinom fonksiyonlarının düzgün bir şekilde birbirine uyacak şekilde zaman aralıklarına uyduğu durumlarda kullanılır . Enterpolasyonla yakından ilgili olan farklı bir problem, karmaşık bir fonksiyonun basit bir fonksiyonla ( regresyon olarak da adlandırılır ) yaklaşımıdır. Regresyon ve enterpolasyon arasındaki temel fark, polinom regresyonun tüm veri setini modelleyen tek bir polinom vermesidir. Ancak spline enterpolasyonu, veri setini modellemek için birçok polinomdan oluşan parçalı sürekli bir fonksiyon verir.

Ekstrapolasyon , orijinal gözlem aralığının ötesinde, bir değişkenin değerini başka bir değişkenle ilişkisi temelinde tahmin etme sürecidir. Bilinen gözlemler arasında tahminler üreten enterpolasyona benzer , ancak ekstrapolasyon daha fazla belirsizliğe ve daha yüksek anlamsız sonuçlar üretme riskine tabidir .

fonksiyon yaklaşımı

Genel olarak, bir fonksiyon yaklaşımı problemi bizden, iyi tanımlanmış bir sınıf arasından bir hedef fonksiyonla göreve özel bir şekilde yakından eşleşen ("yaklaşık" olan) bir fonksiyon seçmemizi ister . Fonksiyon yaklaşımı problemlerinin iki ana sınıfı ayırt edilebilir: Birincisi, bilinen hedef fonksiyonlar için, yaklaşım teorisi , belirli bilinen fonksiyonların (örneğin, özel fonksiyonlar ) belirli bir fonksiyon sınıfı tarafından nasıl yaklaştırılabileceğini araştıran sayısal analiz dalıdır. örneğin, polinomlar veya rasyonel fonksiyonlar ) genellikle istenen özelliklere sahiptir (ucuz hesaplama, süreklilik, integral ve limit değerler, vb.).

İkincisi, hedef işlev, buna g deyin , bilinmiyor olabilir; açık bir formül yerine, yalnızca ( x , g ( x )) formunun bir dizi noktası (bir zaman serisi) sağlanır. Yapısına bağlı olarak etki ve değer kümesi arasında g , yaklaştırmak için çeşitli teknikler g uygulanabilir. Örneğin, g reel sayılar üzerinde bir işlem ise, enterpolasyon , ekstrapolasyon , regresyon analizi ve eğri uydurma teknikleri kullanılabilir. Eğer değer kümesi (aralık ya da hedef ayar) g sonlu dizi, biri ile ilgili olduğu sınıflandırma yerine sorun. Çevrimiçi zaman serisi yaklaşımının ilgili bir sorunu , verileri tek geçişte özetlemek ve en kötü durum hatası sınırlarıyla çeşitli zaman serisi sorgularını destekleyebilen yaklaşık bir temsil oluşturmaktır.

Bir dereceye kadar, farklı problemler ( regresyon , sınıflandırma , uygunluk yaklaşımı ), denetimli öğrenme problemleri olarak görüldüğü istatistiksel öğrenme teorisinde birleşik bir tedavi almıştır .

Tahmin ve tahmin

Olarak istatistik , tahmini bir parçası olan sonuç çıkarımı . Bu tür çıkarsamaya yönelik özel bir yaklaşım, tahmine dayalı çıkarım olarak bilinir , ancak tahmin, istatistiksel çıkarıma yönelik çeşitli yaklaşımlardan herhangi biri içinde gerçekleştirilebilir. Aslında, istatistiklerin bir tanımı, bir popülasyonun bir örneği hakkında tüm popülasyona ve diğer ilgili popülasyonlara bilgi aktarmanın bir yolunu sağlamasıdır; bu, zaman içinde tahmin ile mutlaka aynı değildir. Bilgi zaman içinde, genellikle zaman içinde belirli noktalara aktarıldığında, süreç tahmin olarak bilinir .

  • Gelecekte belirli olmayan zaman periyotlarında neler olabileceğini temsil eden zaman serilerinin alternatif versiyonlarını oluşturmak için stokastik simülasyon amaçları için tamamen oluşturulmuş istatistiksel modeller
  • En son sonuçların bilgisi (tahmin) göz önüne alındığında, yakın gelecekte zaman serisinin olası sonucunu tanımlamak için basit veya tam olarak oluşturulmuş istatistiksel modeller.
  • Zaman serilerinde tahmin genellikle otomatik istatistiksel yazılım paketleri ve Julia , Python , R , SAS , SPSS ve diğerleri gibi programlama dilleri kullanılarak yapılır .
  • Büyük ölçekli veriler üzerinde tahmin, üçüncü taraf bir paket olan Spark-TS kitaplığı kullanılarak Apache Spark ile yapılabilir .

sınıflandırma

Belirli bir kategoriye zaman serisi kalıbı atama, örneğin işaret dilinde bir dizi el hareketine dayalı bir kelime tanımlayın .

sinyal tahmini

Bu yaklaşım dayanmaktadır harmonik analiz ve sinyallerin filtre frekans alanı kullanılarak Fourier dönüşümü , ve spektral yoğunluk tahmini , gelişimi sırasında anlamlı hızlandırılmıştır Dünya Savaşı matematikçi tarafından Norbert Wiener , elektrik mühendisleri Rudolf Kalman , Dennis Gabor ve diğerleri, sinyalleri gürültüden filtrelemek ve zamanın belirli bir noktasındaki sinyal değerlerini tahmin etmek için. Bkz. Kalman filtresi , Tahmin teorisi ve Dijital sinyal işleme

segmentasyon

Bir zaman serisini bir dizi segmente bölme. Çoğu zaman bir zaman serisi, her biri kendi karakteristik özelliklerine sahip olan bireysel segmentlerin bir dizisi olarak temsil edilebilir. Örneğin, bir konferans aramasından gelen ses sinyali, her bir kişinin konuştuğu sürelere karşılık gelen parçalara bölünebilir. Zaman serisi segmentasyonunda amaç, zaman serisindeki segment sınır noktalarını belirlemek ve her segmentle ilişkili dinamik özellikleri karakterize etmektir. Bu probleme değişim noktası tespiti kullanılarak veya zaman serisini Markov atlamalı lineer sistem gibi daha karmaşık bir sistem olarak modelleyerek yaklaşılabilir .

Modeller

Zaman serisi verileri için modeller birçok biçime sahip olabilir ve farklı stokastik süreçleri temsil edebilir . Bir süreç seviyesindeki varyasyonları modellerken, pratik öneme sahip üç geniş sınıf, otoregresif (AR) modeller, entegre (I) modeller ve hareketli ortalama (MA) modelleridir. Bu üç sınıf, doğrusal olarak önceki veri noktalarına bağlıdır. Bu fikirlerin kombinasyonları, otoregresif hareketli ortalama (ARMA) ve otoregresif entegre hareketli ortalama (ARIMA) modelleri üretir . Fraksiyonel hareketli ortalama entegre otoregresiv (ARFIMA) modeli önceki üç genelleştirilmiş. Vektör değerli verilerle başa çıkmak için bu sınıfların uzantıları, çok değişkenli zaman serisi modelleri başlığı altında mevcuttur ve bazen önceki kısaltmalar, vektör otoregresyonu için VAR'da olduğu gibi "vektör" için bir başlangıç ​​"V" dahil edilerek genişletilir . Bu modellerin ek bir uzantı seti, gözlemlenen zaman serilerinin bazı "zorlayıcı" zaman serileri tarafından yönlendirildiği (gözlenen seriler üzerinde nedensel bir etkisi olmayabilir) kullanım için mevcuttur: çok değişkenli durumdan farkı şudur: zorlama serileri deterministik veya deneycinin kontrolü altında olabilir. Bu modeller için, kısaltmalar "dışsal" için son bir "X" ile genişletilir.

Bir serinin seviyesinin önceki veri noktalarına doğrusal olmayan bağımlılığı, kısmen kaotik bir zaman serisi üretme olasılığı nedeniyle ilgi çekicidir . Bununla birlikte, daha da önemlisi, ampirik araştırmalar, örneğin doğrusal olmayan otoregresif dışsal modellerde olduğu gibi, doğrusal olmayan modellerden elde edilen tahminlere göre doğrusal olmayan modellerden türetilen tahminleri kullanmanın avantajını gösterebilir . Doğrusal olmayan zaman serisi analizine ilişkin diğer referanslar: (Kantz ve Schreiber) ve (Abarbanel)

Doğrusal olmayan zaman serisi modellerinin diğer türleri arasında, zaman (üzerinde varyans değişiklikleri temsil etmek modelleri vardır heteroskedasticity ). Bu modeller otoregresif koşullu değişen varyanslılığı (ARCH) temsil eder ve koleksiyon çok çeşitli temsilleri içerir ( GARCH , TARCH, EGARCH, FIGARCH, CGARCH, vb.). Burada değişkenlikteki değişiklikler, gözlemlenen serilerin yakın geçmişteki değerleriyle ilgilidir veya bunlar tarafından tahmin edilir. Bu, yerel olarak değişen değişkenliğin diğer olası temsillerinin aksine, burada değişkenlik, çifte stokastik bir modelde olduğu gibi, ayrı bir zamanla değişen süreç tarafından yönlendiriliyor olarak modellenebilir .

Modelsiz analizler üzerine yapılan son çalışmalarda, dalgacık dönüşümü tabanlı yöntemler (örneğin yerel olarak durağan dalgacıklar ve dalgacık ayrıştırılmış sinir ağları) rağbet kazanmıştır. Çoklu ölçek (genellikle çoklu çözünürlük olarak adlandırılır) teknikleri, belirli bir zaman serisini ayrıştırır ve zaman bağımlılığını çoklu ölçeklerde göstermeye çalışır. Volatilite gelişimini modellemek için ayrıca Markov anahtarlamalı multifraktal (MSMF) tekniklerine bakın.

Bir Gizli Markov modeli (HMM), modellenen sistemin gözlemlenmemiş (gizli) durumlara sahip bir Markov süreci olduğu varsayıldığı istatistiksel bir Markov modelidir. Bir HMM, en basit dinamik Bayes ağı olarak düşünülebilir . HMM modelleri, konuşulan sözcüklerin bir zaman serisini metne çevirmek için konuşma tanımada yaygın olarak kullanılmaktadır .

gösterim

Zaman serisi analizi için bir dizi farklı gösterim kullanılmaktadır. Doğal sayılarla indekslenen bir X zaman serisini belirten ortak bir notasyon yazılır.

X = ( X 1 , X 2 , ...).

Diğer bir yaygın gösterim ise

Y = ( Y t : tT ),

nerede T ise endeks seti .

Koşullar

Teorinin çoğunun altında inşa edildiği iki koşul kümesi vardır:

Bununla birlikte, durağanlık fikirleri iki önemli fikri dikkate alacak şekilde genişletilmelidir: katı durağanlık ve ikinci dereceden durağanlık . Hem modeller hem de uygulamalar bu koşulların her biri altında geliştirilebilir, ancak ikinci durumdaki modeller yalnızca kısmen belirlenmiş olarak kabul edilebilir.

Ayrıca, serilerin mevsimsel olarak durağan olduğu veya durağan olmadığı durumlarda zaman serisi analizi uygulanabilir . Frekans bileşenlerinin genliklerinin zamanla değiştiği durumlar , bir zaman serisinin veya sinyalin zaman-frekans gösterimini kullanan zaman-frekans analizinde ele alınabilir .

Aletler

Zaman serisi verilerini araştırmak için araçlar şunları içerir:

Miktar

Zaman serisi sınıflandırması veya regresyon analizi için kullanılabilecek zaman serisi metrikleri veya özellikleri :

görselleştirme

Zaman serileri iki grafik kategorisi ile görselleştirilebilir: Örtüşen Grafikler ve Ayrılmış Grafikler. Örtüşen Grafikler tüm zaman serilerini aynı düzende görüntülerken, Ayrılmış Grafikler bunları farklı düzenlerde sunar (ancak karşılaştırma amacıyla hizalanır)

Çakışan grafikler

Ayrılmış grafikler

  • Ufuk grafikleri
  • Azaltılmış çizgi grafiği (küçük katlar)
  • Siluet grafiği
  • Dairesel siluet grafiği

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar