Veri deposu - Data warehouse

Veri ambarına genel bakış
Bir veri ambarının temel mimarisi

Bilgi işlemde , kurumsal veri ambarı ( EDW ) olarak da bilinen bir veri ambarı ( DW veya DWH ), raporlama ve veri analizi için kullanılan bir sistemdir ve iş zekasının temel bir bileşeni olarak kabul edilir . DW'ler, bir veya daha fazla farklı kaynaktan gelen entegre verilerin merkezi havuzlarıdır. Kuruluş genelinde çalışanlar için analitik raporlar oluşturmak için kullanılan mevcut ve geçmiş verileri tek bir yerde depolarlar.

Depoda saklanan veriler edilir yüklenen gelen operasyonel sistemler (örneğin pazarlama veya satış gibi). Veriler operasyonel bir veri deposundan geçebilir ve DW'de raporlama için kullanılmadan önce veri kalitesini sağlamak için ek işlemler için veri temizliği gerektirebilir .

Ayıkla, dönüştür, yükle (ETL) ve ayıkla, yükle, dönüştür (ELT), bir veri ambarı sistemi oluşturmak için kullanılan iki ana yaklaşımdır.

ETL tabanlı veri ambarı

Tipik ayıklama, dönüştürme, yükleme (ETL) tabanlı veri ambarı , temel işlevlerini barındırmak için evreleme , veri entegrasyonu ve erişim katmanlarını kullanır. Aşama katmanı veya aşama veritabanı, farklı kaynak veri sistemlerinin her birinden çıkarılan ham verileri depolar. Entegrasyon katmanı, hazırlama katmanından gelen verileri dönüştürerek farklı veri kümelerini entegre eder ve genellikle bu dönüştürülmüş verileri bir operasyonel veri deposu (ODS) veritabanında depolar . Entegre veriler daha sonra, genellikle veri ambarı veritabanı olarak adlandırılan ve verilerin genellikle boyutlar olarak adlandırılan hiyerarşik gruplar halinde düzenlendiği ve gerçekler ve toplu gerçekler olarak adlandırılan başka bir veritabanına taşınır . Gerçeklerin ve boyutların birleşimine bazen yıldız şeması denir . Erişim katmanı, kullanıcıların verileri almasına yardımcı olur.

Verilerin ana kaynağı temizlenir , dönüştürülür, kataloglanır ve yöneticiler ve diğer iş profesyonelleri tarafından veri madenciliği , çevrimiçi analitik işleme , pazar araştırması ve karar desteği için kullanıma sunulur . Bununla birlikte, verileri alma ve analiz etme, verileri çıkarma, dönüştürme ve yükleme ve veri sözlüğünü yönetme araçları da bir veri ambarı sisteminin temel bileşenleri olarak kabul edilir. Veri ambarına yönelik birçok referans, bu daha geniş bağlamı kullanır. Bu nedenle, veri ambarı için genişletilmiş bir tanım, iş zekası araçlarını , verileri çıkarmak, dönüştürmek ve depoya yüklemek için araçları ve meta verileri yönetmek ve almak için araçları içerir .

ELT tabanlı veri ambarı

ELT tabanlı Veri Ambarı mimarisi

ELT tabanlı veri ambarı, veri dönüşümü için ayrı bir ETL aracından kurtulur . Bunun yerine, veri ambarının kendi içinde bir hazırlama alanı tutar. Bu yaklaşımda, veriler heterojen kaynak sistemlerinden çıkarılır ve herhangi bir dönüşüm gerçekleşmeden önce doğrudan veri ambarına yüklenir. Tüm gerekli dönüşümler daha sonra veri ambarının kendi içinde işlenir. Son olarak, manipüle edilen veriler aynı veri ambarındaki hedef tablolara yüklenir.

Faydalar

Bir veri ambarı, kaynak işlem sistemlerinden gelen bilgilerin bir kopyasını tutar. Bu mimari karmaşıklık şunları yapma fırsatı sağlar:

  • Birden çok kaynaktan gelen verileri tek bir veritabanı ve veri modeline entegre edin. Bir ODS'de verileri sunmak için tek bir sorgu motorunun kullanılabilmesi için tek bir veritabanına daha fazla veri toplanması.
  • İşlem işleme veritabanlarında büyük, uzun süreli analiz sorguları çalıştırma girişimlerinin neden olduğu işlem işleme sistemlerinde veritabanı yalıtım düzeyi kilit çekişmesi sorununu azaltın .
  • Kaynak işlem sistemleri yapmasa bile veri geçmişini koruyun .
  • Birden çok kaynak sistemden gelen verileri entegre ederek kuruluş genelinde merkezi bir görünüm sağlayın. Bu fayda her zaman değerlidir, ancak özellikle kuruluş birleşme yoluyla büyüdüğünde.
  • Tutarlı kodlar ve açıklamalar sağlayarak, hatalı verileri işaretleyerek ve hatta düzelterek veri kalitesini iyileştirin .
  • Kuruluşun bilgilerini tutarlı bir şekilde sunun.
  • Verinin kaynağından bağımsız olarak tüm ilgili veriler için tek bir ortak veri modeli sağlayın.
  • Verileri, iş kullanıcıları için anlamlı olacak şekilde yeniden yapılandırın.
  • Operasyonel sistemleri etkilemeden karmaşık analitik sorgular için bile mükemmel sorgu performansı sağlayacak şekilde verileri yeniden yapılandırın .
  • Başta müşteri ilişkileri yönetimi (CRM) sistemleri olmak üzere operasyonel iş uygulamalarına değer katın .
  • Karar destek sorgularının yazılmasını kolaylaştırın.
  • Tekrarlayan verileri düzenleyin ve belirsizliği ortadan kaldırın

Genel

Veri ambarları ve marketler için ortam aşağıdakileri içerir:

  • Depoya veya markete veri sağlayan kaynak sistemler;
  • Verileri kullanıma hazırlamak için gerekli olan veri entegrasyon teknolojisi ve süreçleri;
  • Bir organizasyonun veri ambarında veya veri marketlerinde veri depolamak için farklı mimariler;
  • Çeşitli kullanıcılar için farklı araçlar ve uygulamalar;
  • Ambar veya marketin amaçlarını karşıladığından emin olmak için meta veriler, veri kalitesi ve yönetişim süreçleri mevcut olmalıdır.

Yukarıda listelenen kaynak sistemlerle ilgili olarak, R. Kelly Rainer, "Veri ambarlarındaki veriler için ortak bir kaynak, şirketin ilişkisel veri tabanları olabilen operasyonel veritabanlarıdır" diyor.

Veri entegrasyonu ile ilgili olarak Rainer, "Kaynak sistemlerden veri çıkarmak, dönüştürmek ve bir data mart veya ambara yüklemek gerekiyor" diyor.

Rainer, bir organizasyonun veri ambarında veya veri marketlerinde veri depolamayı tartışıyor.

Meta veriler, verilerle ilgili verilerdir. "BT personelinin veri kaynakları; veritabanı, tablo ve sütun adları; yenileme programları ve veri kullanım önlemleri hakkında bilgiye ihtiyacı var".

Günümüzde en başarılı şirketler, pazardaki değişikliklere ve fırsatlara hızlı ve esnek bir şekilde yanıt verebilen şirketlerdir. Bu yanıtın anahtarı, veri ve bilgilerin analistler ve yöneticiler tarafından etkin ve verimli kullanılmasıdır. Bir "veri ambarı", kuruluştaki karar vericileri desteklemek için özne tarafından düzenlenen geçmiş verilerin bir deposudur. Veriler bir veri marketinde veya ambarda depolandıktan sonra erişilebilir.

İlgili sistemler (data mart, OLAPS, OLTP, tahmine dayalı analitik)

Bir veri mart dolayısıyla böyle satış, finans veya pazarlama gibi kaynaklardan sınırlı sayıda veri çizmek, tek konu (veya fonksiyonel alan) odaklanan bir veri deposunun basit formudur. Veri marketleri genellikle bir kuruluş içindeki tek bir departman tarafından oluşturulur ve kontrol edilir. Kaynaklar, dahili operasyonel sistemler, merkezi bir veri ambarı veya harici veriler olabilir. Denormalizasyon, bu sistemdeki veri modelleme teknikleri için normdur. Veri pazarlarının genellikle bir veri ambarında bulunan verilerin yalnızca bir alt kümesini kapsadığı göz önüne alındığında, bunların uygulanması genellikle daha kolay ve daha hızlıdır.

veri ambarı ve veri mart arasındaki fark
Bağlanmak Veri deposu veri marketi
Verilerin kapsamı kurumsal çapta departman çapında
Konu alanlarının sayısı çoklu bekar
inşa etmek ne kadar zor zor kolay
inşa etmek ne kadar zaman alır daha fazla az
Bellek miktarı daha büyük sınırlı

Veri marketlerinin türleri arasında bağımlı , bağımsız ve hibrit veri marketleri bulunur.

Çevrimiçi analitik işleme (OLAP), nispeten düşük işlem hacmi ile karakterize edilir. Sorgular genellikle çok karmaşıktır ve toplamaları içerir. OLAP sistemleri için yanıt süresi etkili bir önlemdir. OLAP uygulamaları, Veri Madenciliği teknikleri tarafından yaygın olarak kullanılmaktadır . OLAP veritabanları, toplu, geçmiş verileri çok boyutlu şemalarda (genellikle yıldız şemaları ) depolar . OLAP sistemleri, gecikmenin bir güne yakın olması beklenen veri pazarlarının aksine, genellikle birkaç saatlik bir veri gecikmesine sahiptir. OLAP yaklaşımı, çok boyutlu verileri birden çok kaynaktan ve perspektiften analiz etmek için kullanılır. OLAP'taki üç temel işlem, Toplama (Konsolidasyon), Detaya inme ve Dilimleme ve Küp Alma'dır.

Çevrimiçi işlem işleme (OLTP), çok sayıda kısa çevrimiçi işlemle (INSERT, UPDATE, DELETE) karakterize edilir. OLTP sistemleri, çok hızlı sorgu işlemeyi ve çoklu erişim ortamlarında veri bütünlüğünü korumayı vurgular . OLTP sistemleri için etkinlik, saniyedeki işlem sayısıyla ölçülür. OLTP veritabanları ayrıntılı ve güncel veriler içerir. İşlem veritabanlarını depolamak için kullanılan şema, varlık modelidir (genellikle 3NF ). Normalleştirme, bu sistemdeki veri modelleme teknikleri için normdur.

Tahmine dayalı analitik , gelecekteki sonuçları tahmin etmek için kullanılabilecek karmaşık matematiksel modeller kullanarak verilerdeki gizli kalıpları bulmak ve ölçmekle ilgilidir . Tahmine dayalı analiz OLAP'tan farklıdır, çünkü OLAP geçmiş veri analizine odaklanır ve doğası gereği reaktiftir, tahmine dayalı analiz ise geleceğe odaklanır. Bu sistemler aynı zamanda müşteri ilişkileri yönetimi (CRM) için de kullanılmaktadır .

Tarih

Veri ambarı kavramı, IBM araştırmacıları Barry Devlin ve Paul Murphy'nin "iş veri ambarı"nı geliştirdiği 1980'lerin sonlarına dayanmaktadır. Özünde, veri ambarı konsepti, operasyonel sistemlerden karar destek ortamlarına veri akışı için bir mimari model sağlamayı amaçlıyordu . Konsept, bu akışla ilgili çeşitli sorunları, özellikle bununla ilişkili yüksek maliyetleri ele almaya çalıştı. Bir veri ambarı mimarisinin yokluğunda, çoklu karar destek ortamlarını desteklemek için çok büyük miktarda artıklık gerekiyordu. Daha büyük şirketlerde, çoklu karar destek ortamlarının bağımsız olarak çalışması tipikti. Her ortam farklı kullanıcılara hizmet etse de, çoğu zaman aynı depolanmış verilere ihtiyaç duyuyorlardı. Genellikle uzun vadeli mevcut işletim sistemlerinden (genellikle eski sistemler olarak anılır ) çeşitli kaynaklardan veri toplama, temizleme ve entegre etme süreci , tipik olarak her ortam için kısmen çoğaltılır. Ayrıca, yeni karar destek gereksinimleri ortaya çıktıkça operasyonel sistemler sıklıkla yeniden incelendi. Genellikle yeni gereksinimler, kullanıcılar tarafından hazır erişim için uyarlanmış " veri marketlerinden " yeni verilerin toplanmasını, temizlenmesini ve bütünleştirilmesini gerektiriyordu .

Ek olarak, James M. Kerr tarafından The IRM Imperative'in (Wiley & Sons, 1991) yayınlanmasıyla, bir kuruluşun veri kaynaklarını yönetme ve bir dolar değeri koyma ve ardından bu değeri bir varlık olarak bilançoda raporlama fikri popüler hale geldi. . Kitapta Kerr, işlem odaklı sistemlerden türetilen verilerden konu alanı veritabanlarını doldurmanın bir yolunu açıklayarak, yönetici karar verme sürecini bilgilendirmek için özet verilerin daha fazla kullanılabileceği bir depolama alanı yarattı. Bu kavram, bir veri ambarının herhangi bir kuruluşta pratik bir şekilde nasıl geliştirilebileceği ve yönetilebileceği konusunda daha fazla düşünmeyi teşvik etmeye hizmet etti.

Veri ambarının ilk yıllarında önemli gelişmeler:

  • 1960'lar – General Mills ve Dartmouth College , ortak bir araştırma projesinde, boyutlar ve gerçekler terimlerini geliştirdiler .
  • 1970'ler – ACNielsen ve IRI, perakende satışlar için boyutlu veri marketleri sağlıyor.
  • 1970'ler – Bill Inmon , Veri Ambarı terimini tanımlamaya ve tartışmaya başladı.
  • 1975 - Sperry UNIVAC tanıtır MAPPER (korumak hazırlayın ve Yürütme Raporlar üretin), dünyanın ilk içeren bir veritabanı yönetim ve raporlama sistemi 4GL . Bilgi Merkezleri (çağdaş veri ambarı teknolojisinin öncüsü) oluşturmak için tasarlanmış ilk platformdur.
  • 1983 – Teradata , özellikle karar desteği için tasarlanmış DBC/1012 veritabanı bilgisayarını piyasaya sürdü .
  • 1984 – David Liddle ve Don Massaro tarafından kurulan Metaphor Computer Systems , iş kullanıcılarının bir veritabanı yönetimi ve analitik sistemi oluşturması için bir donanım/yazılım paketi ve GUI yayınladı.
  • 1985 - Sperry Corporation , bilgi merkezleri hakkında MAPPER veri ambarı terimini bilgi merkezleri bağlamında tanıttıkları bir makale (Martyn Jones ve Philip Newman) yayınladı.
  • 1988 - Barry Devlin ve Paul Murphy, "iş veri ambarı" terimini tanıttıkları "Bir iş ve bilgi sistemi için bir mimari" makalesini yayınladılar.
  • 1990 – Ralph Kimball tarafından kurulan Red Brick Systems, özellikle veri ambarı için bir veritabanı yönetim sistemi olan Red Brick Warehouse'u tanıttı.
  • 1991 - James M. Kerr, veri kaynaklarının bir bilançoda bir varlık olarak raporlanabileceğini ve veri ambarlarının kurulmasına yönelik ticari ilgiyi artırabileceğini öne süren The IRM Imperative'in yazarları.
  • 1991 – Bill Inmon tarafından kurulan Prism Solutions, bir veri ambarı geliştirmek için yazılım olan Prism Warehouse Manager'ı tanıttı.
  • 1992 – Bill Inmon , Building the Data Warehouse adlı kitabı yayınladı .
  • 1995 - Veri ambarını teşvik eden kar amacı gütmeyen bir kuruluş olan Veri Ambarı Enstitüsü kuruldu.
  • 1996 – Ralph Kimball , The Data Warehouse Toolkit kitabını yayınladı .
  • 2000 - Dan Linstedt , 1990'da Inmon ve Kimball'a alternatif olarak tasarlanan Veri kasası modellemesini kamuya açık alanda yayınladı ve izleme, denetleme ve değişime karşı dayanıklılığa vurgu yaparak birden fazla operasyonel sistemden gelen verilerin uzun vadeli tarihsel depolanmasını sağladı kaynak veri modeli.
  • 2008 – Bill Inmon , Derek Strauss ve Genia Neushloss ile birlikte, "DW 2.0: Yeni Nesil Veri Ambarı Oluşturma Mimarisi"ni yayınlayarak veri ambarına yukarıdan aşağıya yaklaşımını açıklar ve veri ambarı 2.0 terimini oluşturur.
  • 2012 - Bill Inmon , "metinsel belirsizlik giderme" olarak bilinen kamu teknolojisini geliştirir ve yapar. Metinsel belirsizliği giderme, bağlamı ham metne uygular ve ham metni ve bağlamı standart bir veri tabanı biçiminde yeniden biçimlendirir. Ham metin, metinsel anlam ayrımından geçirildikten sonra, standart iş zekası teknolojisi tarafından kolayca ve verimli bir şekilde erişilebilir ve analiz edilebilir. Metinsel belirsizliğin giderilmesi, metinsel ETL'nin yürütülmesi yoluyla gerçekleştirilir. Metinsel belirsizliği giderme, belgeler, Hadoop, e-posta vb. gibi ham metnin bulunduğu her yerde yararlıdır.

Bilgi depolama

Gerçekler

Gerçek, yönetilen varlık veya sistem hakkında bir gerçeği temsil eden bir değer veya ölçümdür.

Raporlayan kuruluş tarafından rapor edildiği şekliyle gerçeklerin ham düzeyde olduğu söylenir; örneğin, bir mobil telefon sisteminde, bir BTS ( baz alıcı-verici istasyonu ) trafik kanalı tahsisi için 1.000 istek alırsa, 820 için tahsis ederse ve geri kalanını reddederse, bir yönetim sistemine üç olgu veya ölçümü rapor edecektir :

  • tch_req_total = 1000
  • tch_req_success = 820
  • tch_req_fail = 180

Ham düzeydeki gerçekler, bundan daha fazla hizmet veya işle ilgili bilgi çıkarmak için çeşitli boyutlarda daha yüksek düzeylerde toplanır . Bunlara toplamlar veya özetler veya toplu gerçekler denir.

Örneğin, bir şehirde üç BTS varsa, yukarıdaki gerçekler, ağ boyutunda BTS'den şehir düzeyine kadar toplanabilir. Örneğin:

  • tch_req_success_city = tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3
  • avg_tch_req_success_city = (tch_req_success_bts1 + tch_req_success_bts2 + tch_req_success_bts3) / 3

Verilerin depolanması için boyutsal ve normalleştirilmiş yaklaşım

Bir veri ambarında veri depolamak için önde gelen üç veya daha fazla yaklaşım vardır - en önemli yaklaşımlar boyutsal yaklaşım ve normalleştirilmiş yaklaşımdır.

Boyutsal yaklaşım, Ralph Kimball'un veri ambarının bir Boyutsal Model/ yıldız şeması kullanılarak modellenmesi gerektiğinin belirtildiği yaklaşımına atıfta bulunmaktadır . 3NF modeli (Üçüncü Normal Form) olarak da adlandırılan normalleştirilmiş yaklaşım, veri ambarının bir ER modeli/normalleştirilmiş model kullanılarak modellenmesi gerektiğinin belirtildiği Bill Inmon'un yaklaşımını ifade eder.

Boyutsal yaklaşım

Bir de boyutlu bir yaklaşım , işlem verileri genel olarak sayısal işlem verileri olan "gerçek", ve "bölünür boyutları gerçeklere bağlam sağlar referans bilgileridir",. Örneğin, bir satış işlemi, sipariş edilen ürün sayısı ve ürünler için ödenen toplam fiyat gibi olgulara ve sipariş tarihi, müşteri adı, ürün numarası, sipariş sevkiyatı ve fatura adresi gibi boyutlara bölünebilir. yerleri ve siparişi almaktan sorumlu satış elemanı.

Boyutlu yaklaşımın önemli bir avantajı, veri ambarının kullanıcının anlaması ve kullanması için daha kolay olmasıdır. Ayrıca, veri ambarından verilerin alınması çok hızlı çalışma eğilimindedir. Boyutsal yapıların iş kullanıcıları için anlaşılması kolaydır, çünkü yapı ölçümler/olgular ve bağlam/boyutlara bölünmüştür. Gerçekler, organizasyonun iş süreçleri ve operasyonel sistemi ile ilgilidir, oysa onları çevreleyen boyutlar, ölçümle ilgili bağlamı içerir (Kimball, Ralph 2008). Boyutlu modelin sunduğu bir diğer avantaj, her seferinde ilişkisel bir veritabanı içermemesidir. Bu nedenle, bu tür modelleme tekniği, veri ambarındaki son kullanıcı sorguları için çok kullanışlıdır.

Olguların ve boyutların modeli aynı zamanda bir veri küpü olarak da anlaşılabilir . Boyutlar, çok boyutlu bir küpte kategorik koordinatlar olduğunda, gerçek, koordinatlara karşılık gelen bir değerdir.

Boyutsal yaklaşımın ana dezavantajları şunlardır:

  1. Olguların ve boyutların bütünlüğünü korumak için, veri ambarını farklı operasyonel sistemlerden gelen verilerle yüklemek karmaşıktır.
  2. Boyutsal yaklaşımı benimseyen kuruluş iş yapma şeklini değiştirirse, veri ambarı yapısını değiştirmek zordur.

Normalleştirilmiş yaklaşım

Normalleştirilmiş yaklaşımda, veri ambarındaki veriler bir dereceye kadar veritabanı normalleştirme kurallarına göre depolanır . Tablolar, genel veri kategorilerini yansıtan konu alanlarına göre gruplandırılmıştır (örn. müşteriler, ürünler, finans, vb. ile ilgili veriler). Normalleştirilmiş yapı, verileri, ilişkisel bir veritabanında birkaç tablo oluşturan varlıklara böler. Büyük işletmelerde uygulandığında sonuç, bir bağlantı ağıyla birbirine bağlanan düzinelerce tablodur. Ayrıca, oluşturulan varlıkların her biri, veritabanı uygulandığında ayrı fiziksel tablolara dönüştürülür (Kimball, Ralph 2008). Bu yaklaşımın ana avantajı, veritabanına bilgi eklemenin basit olmasıdır. Bu yaklaşımın bazı dezavantajları, ilgili tabloların sayısı nedeniyle, kullanıcıların farklı kaynaklardan gelen verileri anlamlı bilgilere birleştirmesinin ve veri kaynaklarını ve veri yapısını tam olarak anlamadan bilgiye erişmesinin zor olabilmesidir. veri ambarı.

Hem normalleştirilmiş hem de boyutlu modeller, her ikisi de birleştirilmiş ilişkisel tablolar içerdiğinden varlık-ilişki diyagramlarında temsil edilebilir. İki model arasındaki fark, normalleştirme derecesidir ( Normal Formlar olarak da bilinir ). Bu yaklaşımlar birbirini dışlamaz ve başka yaklaşımlar da vardır. Boyutsal yaklaşımlar, verileri bir dereceye kadar normalleştirmeyi içerebilir (Kimball, Ralph 2008).

In Bilgi Dayalı İşletme , Robert Hillard iş sorununun bilgi ihtiyaçlarına göre iki yaklaşımı karşılaştıran bir yaklaşımı önermektedir. Teknik, normalleştirilmiş modellerin boyutsal eşdeğerlerinden çok daha fazla bilgi içerdiğini (her iki modelde de aynı alanlar kullanılsa bile) ancak bu ekstra bilginin kullanılabilirlik pahasına geldiğini göstermektedir. Teknik, bilgi miktarını bilgi entropisi açısından ve kullanılabilirliği Küçük Dünyalar veri dönüştürme ölçüsü açısından ölçer.

Tasarım yöntemleri

Aşağıdan yukarıya tasarım

In aşağıdan yukarıya yaklaşımı, veri pazarları ilk raporlama ve belirli için analitik yetenekleri sağlamak üzere oluşturulan iş süreçlerinin . Bu veri marketleri daha sonra kapsamlı bir veri ambarı oluşturmak için entegre edilebilir. Veri ambarı veriyolu mimarisi öncelikle , iki veya daha fazla veri pazarındaki olgular arasında (belirli bir şekilde) paylaşılan boyutlar olan uyumlu boyutlar ve uyumlu olguların bir koleksiyonu olan "veriyolu"nun bir uygulamasıdır .

Yukarıdan aşağıya tasarım

Yukarıdan aşağıya yaklaşım, normalleştirilmiş bir kurumsal veri modeli kullanılarak tasarlanmıştır . "Atomik" veriler , yani en yüksek ayrıntı düzeyindeki veriler, veri ambarında saklanır. Veri ambarından, belirli iş süreçleri veya belirli departmanlar için ihtiyaç duyulan verileri içeren boyutlu veri marketleri oluşturulur.

Hibrit tasarım

Veri ambarları (DW) genellikle hub ve konuşmacı mimarisine benzer . Depoyu besleyen eski sistemler , genellikle müşteri ilişkileri yönetimini ve büyük miktarda veri üreten kurumsal kaynak planlamasını içerir. Bu çeşitli veri modellerini birleştirmek ve dönüştürme yükleme sürecini ayıklamak için , veri ambarları genellikle bilgilerin gerçek DW'ye ayrıştırıldığı operasyonel bir veri deposunu kullanır . Veri fazlalığını azaltmak için daha büyük sistemler genellikle verileri normalleştirilmiş bir şekilde depolar. Belirli raporlar için veri marketleri daha sonra veri ambarının üzerine inşa edilebilir.

Veri fazlalığını ortadan kaldırmak için hibrit bir DW veritabanı üçüncü normal formda tutulur . Ancak normal bir ilişkisel veritabanı, boyutsal modellemenin yaygın olduğu iş zekası raporları için verimli değildir. Küçük veri marketleri, konsolide ambardan veri alışverişi yapabilir ve gerekli olgu tabloları ve boyutlar için filtrelenmiş, özel verileri kullanabilir. DW, veri marketlerinin okuyabileceği tek bir bilgi kaynağı sağlayarak çok çeşitli iş bilgileri sağlar. Hibrit mimari, bir DW'nin operasyonel (statik değil) bilgilerin bulunabileceği bir ana veri yönetimi deposuyla değiştirilmesine izin verir .

Veri tonoz modelleme bileşenleri göbek ve konuşmacı mimarisini izleyin. Bu modelleme stili, hem üçüncü normal formdan hem de yıldız şemasından en iyi uygulamalardan oluşan melez bir tasarımdır . Veri kasası modeli gerçek bir üçüncü normal form değildir ve bazı kurallarını ihlal eder, ancak aşağıdan yukarıya bir tasarıma sahip yukarıdan aşağıya bir mimaridir. Veri kasası modeli, kesinlikle bir veri ambarı olacak şekilde tasarlanmıştır. Son kullanıcı tarafından erişilebilir olacak şekilde tasarlanmamıştır; bu, oluşturulduğunda, iş amaçları için hala bir data mart veya yıldız şeması tabanlı yayın alanının kullanılmasını gerektirir.

Veri ambarı özellikleri

Veri ambarındaki verileri tanımlayan, konu yönelimi, veri entegrasyonu, zaman değişkeni, kalıcı veriler ve veri ayrıntı düzeyi gibi temel özellikler vardır.

Konu odaklı

Operasyonel sistemlerden farklı olarak, veri ambarındaki veriler işletmenin konuları etrafında döner. Konu yönelimi, veritabanı normalleştirmesi değildir . Konu yönelimi, karar vermede gerçekten yararlı olabilir. Gerekli nesneleri toplamaya özne yönelimli denir.

Birleşik

Veri ambarında bulunan veriler entegre edilir. Birkaç operasyonel sistemden geldiğinden, tüm tutarsızlıkların giderilmesi gerekir. Tutarlılıklar, adlandırma kurallarını, değişkenlerin ölçülmesini, kodlama yapılarını, verilerin fiziksel özelliklerini vb. içerir.

zaman değişkeni

Operasyonel sistemler günlük işlemleri destekledikleri için mevcut değerleri yansıtırken, veri ambarı verileri uzun bir zaman aralığını (10 yıla kadar) temsil eder, yani çoğunlukla geçmiş verileri depolar. Esas olarak veri madenciliği ve tahmini içindir. (Örneğin, bir kullanıcı belirli bir müşterinin satın alma modelini arıyorsa, kullanıcının mevcut ve geçmiş satın almalarla ilgili verilere bakması gerekir.)

uçucu olmayan

Veri ambarındaki veriler salt okunurdur, yani güncellenemez, oluşturulamaz veya silinemez (bunu yapmak için yasal veya yasal bir zorunluluk olmadıkça).

Veri ambarı seçenekleri

Toplama

Veri ambarı sürecinde, veriler farklı soyutlama seviyelerinde veri pazarlarında toplanabilir. Kullanıcı, bir ürünün tüm bölgedeki toplam satış birimlerine bakmaya başlayabilir. Daha sonra kullanıcı o bölgedeki durumlara bakar. Son olarak, belirli bir durumdaki bireysel mağazaları inceleyebilirler. Bu nedenle, tipik olarak, analiz daha yüksek bir seviyede başlar ve daha düşük detay seviyelerine iner.

Veri ambarı mimarisi

Bir kuruluş tarafından belirtilen bir veri ambarını oluşturmak/düzenlemek için kullanılan farklı yöntemler çoktur. Bir veri ambarının doğru çalışması için kullanılan donanım, oluşturulan yazılım ve özel olarak gerekli veri kaynakları, veri ambarı mimarisinin ana bileşenleridir. Tüm veri ambarları, organizasyonun gereksinimlerinin değiştirildiği ve ince ayarlandığı birden fazla aşamaya sahiptir.

İşletim sistemine karşı

Operasyonel sistemler, veri bütünlüğünün korunması ve veri tabanı normalizasyonu ve bir varlık-ilişki modeli kullanılarak ticari işlemlerin kayıt hızının korunması için optimize edilmiştir . Operasyonel sistem tasarımcıları , veri bütünlüğünü sağlamak için genellikle Codd'un 12 veritabanı normalleştirme kuralına uyar . Tamamen normalleştirilmiş veritabanı tasarımları (yani, tüm Codd kurallarını karşılayanlar), genellikle bir ticari işlemden alınan bilgilerin düzinelerce ila yüzlerce tabloda saklanmasıyla sonuçlanır. İlişkisel veritabanları , bu tablolar arasındaki ilişkileri yönetmede etkilidir. Veritabanları çok hızlı ekleme/güncelleme performansına sahiptir, çünkü bir işlem her işlendiğinde bu tablolardaki yalnızca küçük miktarda veri etkilenir. Performansı artırmak için, eski veriler genellikle operasyonel sistemlerden periyodik olarak temizlenir.

Veri ambarları, analitik erişim modelleri için optimize edilmiştir. Analitik erişim modelleri genellikle belirli alanların seçilmesini içerir ve nadiren de olsa select *tüm alanları/sütunları seçer, bu da operasyonel veritabanlarında daha yaygın olduğu gibi. Erişim modellerindeki bu farklılıklar nedeniyle, operasyonel veritabanları (gevşek bir şekilde, OLTP), satır yönelimli bir VTYS kullanımından yararlanırken, analitik veritabanları (gevşek bir şekilde, OLAP), sütun yönelimli bir VTYS kullanımından yararlanır . İşin anlık görüntüsünü tutan operasyonel sistemlerin aksine, veri ambarları genellikle verileri operasyonel sistemlerden veri ambarına periyodik olarak geçiren ETL süreçleri aracılığıyla uygulanan sonsuz bir geçmişe sahiptir.

Organizasyon kullanımında evrim

Bu terimler, bir veri ambarının gelişmişlik düzeyine atıfta bulunur:

Çevrimdışı operasyonel veri ambarı
Evrimin bu aşamasındaki veri ambarları, operasyonel sistemlerden düzenli bir zaman döngüsünde (genellikle günlük, haftalık veya aylık) güncellenir ve veriler entegre raporlama odaklı bir veritabanında saklanır.
Çevrimdışı veri ambarı
Bu aşamadaki veri ambarları, operasyonel sistemlerdeki verilerden düzenli olarak güncellenir ve veri ambarı verileri, raporlamayı kolaylaştıracak şekilde tasarlanmış bir veri yapısında saklanır.
Zamanında veri ambarı
Çevrimiçi Entegre Veri Ambarı, ambardaki gerçek zamanlı Veri ambarları aşama verilerini temsil eder, kaynak veriler üzerinde gerçekleştirilen her işlem için güncellenir
Entegre veri ambarı
Bu veri ambarları, farklı iş alanlarından verileri bir araya getirir, böylece kullanıcılar ihtiyaç duydukları bilgileri diğer sistemlerde arayabilirler.

Referanslar

daha fazla okuma