İstatistiksel öğrenme teorisi - Statistical learning theory

İstatistiksel öğrenme teorisi , istatistik ve fonksiyonel analiz alanlarından çizim yapan makine öğrenimi için bir çerçevedir . İstatistiksel öğrenme teorisi, verilere dayalı bir tahmin fonksiyonu bulma problemi ile ilgilenir. İstatistiksel öğrenme teorisi, bilgisayarla görme , konuşma tanıma ve biyoinformatik gibi alanlarda başarılı uygulamalara yol açmıştır .

Giriş

Öğrenmenin hedefleri anlama ve tahmindir. Öğrenme, denetimli öğrenme , denetimsiz öğrenme , çevrimiçi öğrenme ve pekiştirmeli öğrenme dahil olmak üzere birçok kategoriye ayrılır . İstatistiksel öğrenme teorisi perspektifinden, denetimli öğrenme en iyi şekilde anlaşılır. Denetimli öğrenme, bir eğitim veri setinden öğrenmeyi içerir . Eğitimdeki her nokta, girdinin bir çıktıyla eşleştiği bir girdi-çıktı çiftidir. Öğrenme problemi, öğrenilen fonksiyon gelecekteki girdilerden çıktıyı tahmin etmek için kullanılabilecek şekilde girdi ve çıktı arasında eşlenen fonksiyonun çıkarılmasından oluşur.

Çıktının türüne bağlı olarak, denetimli öğrenme sorunları ya gerileme ya da sınıflandırma sorunlarıdır . Çıktı sürekli bir değer aralığı alıyorsa, bu bir regresyon problemidir. Ohm Yasasını örnek olarak kullanarak , giriş olarak voltaj ve çıkış olarak akım ile bir regresyon gerçekleştirilebilir. Regresyon, voltaj ve akım arasındaki fonksiyonel ilişkiyi bulacaktır , öyle ki,

Sınıflandırma sorunları, çıktının ayrı bir etiket kümesinden bir öğe olacağı sorunlardır. Sınıflandırma, makine öğrenimi uygulamaları için çok yaygındır. Örneğin yüz tanımada , bir kişinin yüzünün resmi girdi, çıktı etiketi ise o kişinin adı olacaktır. Girdi, öğeleri resimdeki pikselleri temsil eden çok boyutlu büyük bir vektörle temsil edilecektir.

Eğitim seti verilerine dayalı bir fonksiyon öğrendikten sonra, bu fonksiyon eğitim setinde görünmeyen veriler olan bir test veri setinde doğrulanır.

Resmi açıklama

Al olmaya vektör uzayı tüm olası girişlerinin ve tüm olası çıkışların vektör uzayı olmak. İstatistiksel öğrenme teorisi , ürün uzayı üzerinde bazı bilinmeyen olasılık dağılımı olduğu , yani bazı bilinmeyenler olduğu perspektifini alır . Eğitim seti, bu olasılık dağılımından alınan örneklerden oluşur ve not edilir.

Her biri, eğitim verilerinden bir girdi vektörüdür ve buna karşılık gelen çıktıdır.

Bu formalizmde, çıkarsama sorunu bir işlev bulma oluşur şekildedir . Let fonksiyonları bir boşluk olması hipotez uzayı denir. Hipotez alanı, algoritmanın araştıracağı işlevler alanıdır. Tahmin edilen değer ile gerçek değer arasındaki farkın bir ölçüsü olan kayıp fonksiyonu olsun . Beklenen riski olarak tanımlanır

Seçilebilecek mümkün olan en iyi fonksiyon olan hedef fonksiyon, aşağıdakileri karşılayan tarafından verilir.

Olasılık dağılımı bilinmediğinden, beklenen risk için bir vekil ölçü kullanılmalıdır. Bu ölçü, bu bilinmeyen olasılık dağılımından bir örnek olan eğitim setine dayanmaktadır. Ampirik risk denir

Ampirik riski en aza indiren işlevi seçen bir öğrenme algoritmasına ampirik risk minimizasyonu denir .

Kayıp fonksiyonları

Kayıp fonksiyonunun seçimi , öğrenme algoritması tarafından seçilecek olan fonksiyon üzerinde belirleyici bir faktördür . Kayıp fonksiyonu ayrıca bir algoritma için yakınsama oranını da etkiler. Kayıp fonksiyonunun dışbükey olması önemlidir.

Problemin regresyondan mı yoksa sınıflandırmadan mı olduğuna bağlı olarak farklı kayıp fonksiyonları kullanılır.

regresyon

Regresyon için en yaygın kayıp işlevi kare kayıp işlevidir ( L2-norm olarak da bilinir ). Bu tanıdık kayıp işlevi Sıradan En Küçük Kareler regresyonunda kullanılır . Form şudur:

Mutlak değer kaybı ( L1-norm olarak da bilinir ) bazen de kullanılır:

sınıflandırma

Bir anlamda 0-1 gösterge işlevi , sınıflandırma için en doğal kayıp işlevidir. Tahmini çıktı ile fiili çıktı aynı ise 0 değerini, tahmin edilen çıktı fiili çıktıdan farklı ise 1 değerini alır. ile ikili sınıflandırma için bu:

burada bir Heaviside basamak fonksiyonu .

düzenlileştirme

Bu görüntü, makine öğreniminde bir fazla uydurma örneğini temsil eder. Kırmızı noktalar, eğitim seti verilerini temsil eder. Yeşil çizgi, gerçek işlevsel ilişkiyi temsil ederken, mavi çizgi, eğitim seti verilerine fazla takılan öğrenilen işlevi gösterir.

Makine öğrenimi problemlerinde ortaya çıkan büyük bir problem, aşırı uyum sorunudur . Öğrenme bir tahmin problemi olduğundan, amaç (önceden gözlemlenen) verilere en yakın şekilde uyan bir fonksiyon bulmak değil, gelecekteki girdilerden çıktıyı en doğru şekilde tahmin edecek bir fonksiyon bulmaktır. Ampirik risk minimizasyonu , bu fazla uyum riskini çalıştırır: verilerle tam olarak eşleşen ancak gelecekteki çıktıları iyi tahmin etmeyen bir fonksiyon bulmak.

Fazla takma, kararsız çözümlerin belirtisidir; eğitim seti verilerindeki küçük bir bozulma, öğrenilen fonksiyonda büyük bir varyasyona neden olur. Çözümün kararlılığı garanti edilebiliyorsa, genelleme ve tutarlılığın da garanti edildiği gösterilebilir. Düzenlileştirme , aşırı uyum sorununu çözebilir ve soruna istikrar verebilir.

Düzenleme, hipotez uzayını kısıtlayarak gerçekleştirilebilir . Yaygın bir örnek, lineer fonksiyonlarla sınırlamak olabilir: bu, standart lineer regresyon problemine bir indirgeme olarak görülebilir . derece polinomu , üstel veya L1 üzerindeki sınırlı fonksiyonlarla da sınırlandırılabilir . Hipotez uzayının kısıtlanması, potansiyel fonksiyonların formu sınırlı olduğundan fazla uydurmayı önler ve dolayısıyla keyfi olarak sıfıra yakın ampirik risk veren bir fonksiyonun seçimine izin vermez.

Düzenlileştirmenin bir örneği Tikhonov düzenlileştirmesidir . Bu en aza indirmekten oluşur

sabit ve pozitif bir parametre nerede , düzenleme parametresi. Tikhonov düzenlemesi, çözümün varlığını, benzersizliğini ve istikrarını sağlar.

Ayrıca bakınız

Referanslar