Anomali tespiti - Anomaly detection

Gelen veri analizi , anormallik algılama (aynı zamanda uç değer bulma ) nadir öğeleri, etkinlik ya da yükseltmek verilerin çoğunluğu önemli ölçüde farklılık gösteren ile şüpheleri gözlemler tanımlanmasıdır. Tipik olarak anormal öğeler, banka dolandırıcılığı , yapısal bir kusur, tıbbi sorunlar veya bir metindeki hatalar gibi bir tür soruna dönüşecektir . Anormallikler ayrıca aykırı değerler , yenilikler, gürültü, sapmalar ve istisnalar olarak da adlandırılır .

Özellikle, kötüye kullanım ve ağa izinsiz giriş tespiti bağlamında , ilginç nesneler genellikle nadir nesneler değil , beklenmedik etkinlik patlamalarıdır . Bu model, bir aykırı değerin nadir bir nesne olarak genel istatistiksel tanımına uymaz ve uygun şekilde bir araya getirilmediği sürece birçok aykırı değer algılama yöntemi (özellikle denetimsiz yöntemler) bu tür verilerde başarısız olur. Bunun yerine, bir küme analizi algoritması, bu kalıplar tarafından oluşturulan mikro kümeleri saptayabilir.

Üç geniş anomali tespit tekniği kategorisi mevcuttur. Denetimsiz anomali tespit teknikleri, veri setindeki örneklerin çoğunluğunun normal olduğu varsayımı altında, veri setinin geri kalanına en az uyan örnekleri arayarak etiketlenmemiş bir test veri setindeki anormallikleri tespit eder. Denetimli anomali tespit teknikleri, "normal" ve "anormal" olarak etiketlenmiş bir veri seti gerektirir ve bir sınıflandırıcının eğitimini içerir (diğer birçok istatistiksel sınıflandırma probleminden temel fark , aykırı değer tespitinin doğal dengesiz doğasıdır). Yarı denetimli anomali tespit teknikleri , belirli bir normal eğitim veri setinden normal davranışı temsil eden bir model oluşturur ve ardından kullanılan model tarafından bir test örneğinin oluşturulma olasılığını test eder.

Uygulamalar

Anormallik tespiti, izinsiz giriş tespiti , dolandırıcılık tespiti , arıza tespiti, sistem sağlığı izleme, sensör ağlarında olay tespiti, ekosistem bozukluklarını tespit etme ve makine vizyonu kullanarak görüntülerde kusur tespiti gibi çeşitli alanlarda uygulanabilir . Genellikle veri kümesinden anormal verileri çıkarmak için ön işlemede kullanılır . Gelen denetimli öğrenme , veri kümesi gelen anormal verileri kaldırarak genellikle doğruluk istatistiksel olarak anlamlı bir artış ile sonuçlanır.

Popüler teknikler

Literatürde birkaç anomali tespit tekniği önerilmiştir. Popüler tekniklerden bazıları şunlardır:

Yoğunluğa dayalı teknikler ( k-en yakın komşu , yerel aykırı değer faktörü , izolasyon ormanları ve bu kavramın daha birçok varyasyonu).
Yüksek boyutlu veriler için alt uzay, korelasyon tabanlı ve tensör tabanlı aykırı değer tespiti.
Tek sınıf destek vektör makineleri .
Çoğalıcı sinir ağları ., otomatik kodlayıcılar , varyasyonel otomatik kodlayıcılar, uzun kısa süreli bellek sinir ağları
Bayes ağları .
Gizli Markov modelleri (HMM'ler).
Minimum Kovaryans Belirleyici
Küme analizine dayalı aykırı değer tespiti.
Sapmalar ilişki kurallarının ve sık itemsets.
Bulanık mantık tabanlı aykırı değer tespiti.
Ensemble teknikleri , özellik torbalama , skor normalizasyonu ve farklı çeşitlilik kaynaklarını kullanma.

Farklı yöntemlerin performansı büyük ölçüde veri kümesine ve parametrelere bağlıdır ve birçok veri kümesi ve parametre arasında karşılaştırıldığında yöntemlerin diğerine göre çok az sistematik avantajı vardır.

Veri güvenliğine başvuru

İzinsiz giriş tespit sistemleri (IDS) için anormallik tespiti 1986'da Dorothy Denning tarafından önerildi. IDS için anormallik tespiti normalde eşikler ve istatistiklerle gerçekleştirilir, ancak aynı zamanda yumuşak hesaplama ve endüktif öğrenme ile de yapılabilir . 1999 tarafından önerilen istatistik türleri, kullanıcıların profillerini, iş istasyonlarını, ağları, uzak ana bilgisayarları, kullanıcı gruplarını ve frekansları, ortalamaları, varyansları, kovaryansları ve standart sapmaları temel alan programları içeriyordu. İzinsiz giriş tespitinde anormallik tespitinin karşılığı , kötüye kullanım tespitidir .

Veri ön işlemede

Denetimli öğrenmede, anormallik tespiti, öğrenme algoritmasına öğrenilecek uygun bir veri seti sağlamak için genellikle veri ön işlemede önemli bir adımdır. Bu aynı zamanda Veri temizleme olarak da bilinir . Anormal örnekleri tespit ettikten sonra sınıflandırıcılar bunları kaldırır, ancak bazen bozuk veriler hala öğrenme için faydalı örnekler sağlayabilir. Kullanılacak uygun örnekleri bulmak için yaygın bir yöntem, Gürültülü verileri tanımlamaktır . Gürültülü değerleri bulmak için bir yaklaşım, bozulmamış veri ve bozuk veri modellerini kullanarak verilerden olasılıklı bir model oluşturmaktır.

Aşağıda, bir anomali eklenmiş İris çiçeği veri kümesinin bir örneği verilmiştir . Bir anormallik dahil edildiğinde, sınıflandırma algoritması kalıpları düzgün bir şekilde bulmakta zorluk çekebilir veya hatalarla karşılaşabilir.

Bir Anomali ile Fischer'ın İris Verileri
Veri kümesi sırası	Sepal uzunluğu	çanak genişliği	taç yaprağı uzunluğu	taç yaprağı genişliği	Türler
1	5.1	3.5	1.4	0,2	I. setoza
2	4.9	3.0	1.4	0,2	I. setoza
3	4.7	3.2	1.3	0,2	I. setoza
4	4.6	3.1	1.5	0,2	I. setoza
5	5.0	BOŞ	1.4	BOŞ	I. setoza

Anomali ortadan kaldırılarak, eğitimin sınıflandırmalardaki kalıpları daha kolay bulmasına olanak sağlanacaktır.

Veri madenciliğinde, yüksek boyutlu veriler, aynı zamanda, yoğun olarak büyük veri kümeleriyle yüksek bilgi işlem zorlukları önerecektir. Kendisini bir sınıflandırıcı veya algılama algoritmasıyla alakasız bulabilecek çok sayıda örneği kaldırarak, en büyük veri setlerinde bile çalışma zamanı önemli ölçüde azaltılabilir.

Yazılım

ELKI , birkaç anormallik algılama algoritması ve bunlar için indeks hızlandırma içeren açık kaynaklı bir Java veri madenciliği araç takımıdır.
Scikit-Learn , denetimsiz anormallik algılaması sağlamak için işlevsellik oluşturan açık kaynaklı bir Python kitaplığıdır.

veri kümeleri

Ludwig-Maximilians-Universität München'in özenle seçilmiş veri setleriyle anormallik tespiti karşılaştırmalı veri deposu ; Ayna de Sao Paulo Üniversitesi .
ODDS – ODDS: Farklı alanlarda temel gerçeğe sahip, halka açık geniş bir aykırı değer algılama veri kümeleri koleksiyonu.
Harvard Dataverse'de Denetimsiz Anomali Algılama Kıyaslaması : Temel gerçeğe sahip Denetimsiz Anomali Algılama için Veri Kümeleri.
Research Data Australia'daki KMASH Veri Deposu , temel gerçeğe sahip 12.000'den fazla anormallik algılama veri kümesine sahiptir.

Languages

In other projects