Düzenlenme (matematik) - Regularization (mathematics)

Yeşil ve mavi işlevlerin her ikisi de verilen veri noktalarında sıfır kayba uğrar. Öğrenilmiş bir model , düzenlenme teriminin ağırlığını ayarlayarak , temelde yatan bilinmeyen dağılımdan alınan daha fazla noktaya daha iyi genelleştirebilen yeşil işlevi tercih etmeye teşvik edilebilir .

In matematik , istatistik , finans , bilgisayar bilimi , özellikle de, makinelerin öğrenmesi ve ters problemler , düzenlileştirmeye bir çözmek amacıyla bilgiler ekleyerek işlemidir kötü sağlama sorununu veya önlemek için overfitting .

Düzenli hale getirme, kötü niyetli optimizasyon problemlerinde nesnel işlevlere uygulanabilir. Düzenli hale getirme terimi veya ceza, optimum çözümü benzersiz kılmak için optimizasyon işlevine bir maliyet getirir.

Problem veya modelden bağımsız olarak, her zaman bir ölçüm olasılığına karşılık gelen bir veri terimi ve bir öncekine karşılık gelen bir düzenleme terimi vardır. Her ikisini de Bayes istatistiği kullanarak birleştirerek, her iki bilgi kaynağını içeren ve dolayısıyla tahmin sürecini stabilize eden bir posterior hesaplanabilir. Her iki hedefin de değiş tokuşu yapılarak, kişi verilere daha fazla bağımlılık yapmayı veya genellemeyi (aşırı uyumu önlemek için) zorlamayı seçer. Tüm olası düzenlemelerle ilgilenen bir araştırma dalı var. İş akışı genellikle, kişinin belirli bir düzenleme denemesi ve ardından seçimi gerekçelendirmek için bu düzenlemeye karşılık gelen olasılık yoğunluğunu çözmesidir. Sağduyu veya sezgiyle fiziksel olarak da motive edilebilir, ki bu daha zordur.

Makine öğreniminde, veri terimi eğitim verilerine karşılık gelir ve düzenleme, modelin seçimi veya algoritmada yapılan değişikliklerdir. Her zaman genelleme hatasını, yani eğitim verileri yerine değerlendirme setindeki eğitimli model ile hata puanını azaltmak amaçlanır.

Düzenlemenin ilk kullanımlarından biri, en küçük kareler yöntemiyle ilgilidir. Ortaya çıkan olasılık yoğunluğu, artık "Tikhonov regülarizasyonu" adı altında bilinen gauss dağılımıdır.


Sınıflandırma

Sınıflandırıcıların deneysel olarak öğrenilmesi (sonlu bir veri kümesinden) her zaman yeterince belirlenmemiş bir sorundur, çünkü yalnızca verilen örneklerden herhangi birinin bir işlevini çıkarmaya çalışır .

Kayıp işlevine bir düzenleyici terim (veya düzenleyici) eklenir :

kare kaybı veya menteşe kaybı gibi etiketin ne zaman olacağını tahmin etmenin maliyetini açıklayan temel bir kayıp işlevi nerede ; ve düzenlileştirme teriminin önemini kontrol eden bir parametredir. tipik olarak karmaşıklığına bir ceza uygulamak için seçilir . Kullanılan somut karmaşıklık kavramları , vektör uzayı normundaki pürüzsüzlük ve sınırlar için kısıtlamaları içerir .

Düzenleme için teorik bir gerekçe , çözüm üzerine Occam'ın usturasını dayatmaya çalışmasıdır (yukarıdaki şekilde gösterildiği gibi, yeşil fonksiyon, daha basit olanı tercih edilebilir). Bir itibaren Bayes bakış açısından, birçok düzenlileştirme teknikleri belli empoze karşılık önceki model parametreleri üzerinde dağılımları.

Düzenli hale getirme, daha basit modelleri öğrenmek, modelleri seyrek olmaya teşvik etmek ve öğrenme problemine grup yapısını dahil etmek dahil olmak üzere birden fazla amaca hizmet edebilir.

Aynı fikir birçok bilim alanında da ortaya çıktı . İntegral denklemlere uygulanan basit bir düzenlileştirme biçimi ( Tikhonov regülarizasyonu ), esasen veriyi uydurmakla çözümün bir normunu azaltmak arasında bir değiş tokuştur . Daha yakın zamanlarda, toplam varyasyon regülasyonu dahil olmak üzere lineer olmayan regülasyon metotları popüler hale gelmiştir.

Genelleme

Düzenlileştirme, öğrenilen bir modelin genelleştirilebilirliğini geliştirmek için bir teknik olarak motive edilebilir.

Bu öğrenme probleminin amacı, tüm olası girdiler ve etiketler üzerinde beklenen hatayı en aza indiren sonuca (etiket) uyan veya bunları tahmin eden bir işlev bulmaktır. Bir işlevin beklenen hatası şudur:

burada ve giriş verilerinin alanları vardır ve etiket sırası.

Tipik olarak öğrenme problemlerinde, biraz gürültüyle ölçülen yalnızca bir girdi verisi ve etiket alt kümesi mevcuttur. Bu nedenle, beklenen hata ölçülemez ve mevcut en iyi vekil, mevcut örnekler üzerindeki ampirik hatadır :

Kullanılabilir fonksiyon uzayının (biçimsel olarak, yeniden üreten çekirdek Hilbert uzayı ) karmaşıklığı sınırlanmadan, vekil ampirik hatada sıfır kayıp veren bir model öğrenilecektir. Ölçümler (örn. ) Gürültüyle yapılmışsa, bu model aşırı takılma sorunu yaşayabilir ve beklenen zayıf hatayı gösterebilir. Düzenli hale getirme, modeli oluşturmak için kullanılan işlev uzayının belirli bölgelerini keşfetmek için bir ceza getirir ve bu da genellemeyi geliştirebilir.

Tikhonov düzenlenmesi

Bu teknikler, integral denklemlere düzenlileştirmeyi uygulayan ve diğer birçok alanda önemli katkılarda bulunan Andrey Nikolayevich Tikhonov'un adını almıştır .

Doğrusal öğrenme fonksiyonu zaman bilinmeyen ile karakterize edilen vektör öyle ki , tek bir ekleyebilir vektörün -norm küçük normlarına çözümler tercih amacıyla zarar ekspresyonuna. Tikhonov düzenlenmesi en yaygın biçimlerden biridir. Aynı zamanda sırt regresyonu olarak da bilinir. Şu şekilde ifade edilir:

,

nerede eğitim için kullanılan örneklerin temsil edecektir.

Genel bir işlev durumunda, işlevin yeniden üreten çekirdek Hilbert uzayındaki normu şöyledir:

Gibi norm türevlenebilir , öğrenme öne alınabilir degrade asıllı .

Tikhonov'a göre düzenlenmiş en küçük kareler

En küçük kareler kayıp fonksiyonu ve Tikhonov düzenlileştirmesi ile öğrenme problemi analitik olarak çözülebilir. Matris formunda yazılan optimal , kayıp fonksiyonunun gradyanının 0 olduğu olandır.

   ( birinci dereceden koşul )

Optimizasyon probleminin oluşturulmasıyla, diğer değerler kayıp fonksiyonu için daha büyük değerler verir. Bu, ikinci türevi inceleyerek doğrulanabilir .

Eğitim sırasında bu algoritma zaman alır . Terimler sırasıyla matrisin tersine çevrilmesi ve hesaplanmasına karşılık gelir. Test yapmak zaman alır .

Erken durma

Erken durdurma, zaman içinde düzenlenme olarak görülebilir. Sezgisel olarak, gradyan inişi gibi bir eğitim prosedürü, artan yinelemelerle daha karmaşık işlevleri öğrenme eğilimindedir. Zamana göre düzenleyerek, model karmaşıklığı kontrol edilebilir ve genelleme geliştirilebilir.

Erken durdurma, eğitim için bir veri seti, doğrulama için istatistiksel olarak bağımsız bir veri seti ve test için başka bir veri seti kullanılarak gerçekleştirilir. Model, doğrulama setindeki performans artık iyileşmeyene kadar eğitilir ve ardından test setine uygulanır.

En küçük karelerde teorik motivasyon

Ters çevrilebilir bir matris A için Neumann serisinin sonlu yaklaşımını düşünün, burada :

Bu , normun birden küçük olmasını sağlamak için γ eklenirse, düzensiz en küçük karelerin analitik çözümüne yaklaşmak için kullanılabilir .

Düzensiz en küçük kareler öğrenme probleminin kesin çözümü, deneysel hatayı en aza indirir, ancak başarısız olabilir. Yukarıdaki algoritmadaki tek serbest parametre olan T'yi sınırlandırarak , problem zamana göre düzenlenir ve bu da genellemesini geliştirebilir.

Yukarıdaki algoritma, ampirik risk için gradyan iniş yinelemelerinin sayısını sınırlamaya eşdeğerdir.

gradyan iniş güncellemesiyle:

Temel durum önemsizdir. Endüktif durum şu şekilde kanıtlanmıştır:

Seyreklik için düzenleyiciler

Bir sözlük varsayalım boyut ile işlev alanı bir fonksiyonu olarak ifade edilebilir şekilde verilir:

L1 topu ile L2 topu arasında iki boyutta yapılan bir karşılaştırma, L1 düzenliliğinin seyrekliği nasıl sağladığına dair bir önsezi verir.

Seyreklik kısıtlamasının uygulanması, daha basit ve daha yorumlanabilir modellere yol açabilir. Bu, hesaplamalı biyoloji gibi birçok gerçek yaşam uygulamasında kullanışlıdır . Bir örnek, tahmin gücünü en üst düzeye çıkarırken tıbbi testler gerçekleştirmenin maliyetini en aza indirmek için bir hastalık için basit bir tahmin testi geliştirmektir.

Makul bir seyreklik kısıtı, içindeki sıfır olmayan elemanların sayısı olarak tanımlanan normdur . Bir Çözme regularize öğrenme sorunu, ancak, olduğu gösterilmiştir NP-zor .

Norm (bakınız ayrıca normları uygun yaklaştığı kullanılabilir) dışbükey gevşeme yoluyla norm. Normun seyrekliği uyardığı gösterilebilir . En küçük kareler durumunda, bu sorun istatistikte LASSO ve sinyal işlemede temel arayış olarak bilinir .

Elastik ağ düzenlenmesi

düzenlileştirme bazen benzersiz olmayan çözümler üretebilir. Olası çözümlerin alanı 45 derecelik bir çizgide olduğunda şekilde basit bir örnek verilmiştir. Bu durum, belirli uygulamalar için sorunlu olabilir, ve birleştirme ile giderilmesi ile de duzenleme elastik ağ regularization aşağıdaki formu alır:

Esnek ağ düzenlenmesi, ilişkili girdi özelliklerine eşit ağırlıkların atandığı bir gruplama etkisine sahip olma eğilimindedir.

Esnek ağ düzenlenmesi pratikte yaygın olarak kullanılır ve birçok makine öğrenimi kitaplığında uygulanır.

Proksimal yöntemler

İken norm bir NP-zor problem yol açmaz, norm dışbükey ama x = 0. de kıvrım nedeniyle kesinlikle türevlenebilir değildir Subgradient yöntemlerine güvenmek subderivative çözmek için kullanılabilir regularized öğrenme problemleri. Bununla birlikte, proksimal yöntemlerle daha hızlı yakınsama elde edilebilir.

Bir problem için bu Lipschitz sürekli bir gradyan (örneğin en küçük kareler kaybı fonksiyonu olarak) ile, dışbükey, sürekli, türevlenebilir ve dışbükey, sürekli ve düzgün olduğunda, sorunu çözmek için proksimal yöntem, aşağıdaki gibidir. Önce proksimal operatörü tanımlayın

ve sonra yineleyin

Proksimal yöntem yinelemeli olarak gradyan inişi gerçekleştirir ve ardından sonucu izin verilen alana geri yansıtır .

Ne zaman bir regularizer, yakın operatörü yumuşak eşikleme operatörüne eşdeğer

Bu, verimli hesaplamaya izin verir.

Örtüşmesiz grup seyrekliği

Özellik grupları, belirli ön bilgileri bir optimizasyon problemine ifade etmek için yararlı olabilecek seyreklik kısıtlaması ile düzenlenebilir.

Örtüşmeyen bilinen gruplara sahip doğrusal bir model durumunda, bir düzenleyici tanımlanabilir:

nerede

Bu, her grubun üyeleri üzerinde norm üzerinde bir düzenleyiciyi ve ardından gruplar üzerinde bir normu teşvik etmek olarak görülebilir .

Bu, proksimal operatörün blok bazında yumuşak eşikleme işlevi olduğu proksimal yöntemle çözülebilir:

Örtüşen grup seyrekliği

Örtüşmesiz grup seyrekliği için açıklanan algoritma, belirli durumlarda grupların örtüştüğü duruma uygulanabilir. Bu, büyük olasılıkla tümü sıfır öğelere sahip bazı gruplara ve bazıları sıfır olmayan ve bazı sıfır öğelere sahip diğer gruplara neden olacaktır.

Grup yapısının korunması istenirse, yeni bir düzenleyici tanımlanabilir:

Her biri için , kısıtlama şekilde vektör olarak tanımlanır grubuna eşittir ve diğer tüm girişler sıfırdır. Düzenleyici, parçalara en uygun parçalanmayı bulur . Birden çok grupta var olan tüm öğeleri kopyalıyor olarak görülebilir. Bu düzenleyicideki öğrenme problemleri, proksimal yöntemle de bir komplikasyonla çözülebilir. Proksimal operatör kapalı biçimde hesaplanamaz, ancak yinelemeli olarak etkili bir şekilde çözülebilir ve proksimal yöntem yinelemesinde bir iç yinelemeye neden olabilir.

Yarı denetimli öğrenim için düzenleyiciler

Etiketleri toplamak girdi örneklerinden daha pahalı olduğunda, yarı denetimli öğrenme yararlı olabilir. Düzenleyiciler, denetimsiz eğitim örneklerinin yapısına saygı duyan modelleri öğrenmek için öğrenme algoritmalarına rehberlik etmek üzere tasarlanmıştır. Simetrik bir ağırlık matrisi verilirse, bir düzenleyici tanımlanabilir:

Eğer kodlar noktaları için bir mesafe ölçümünün sonucu ve bu arzu edilir . Bu düzenleyici, bu sezgiyi yakalar ve şuna eşdeğerdir:

burada bir Laplace matris ile oluşturulan grafik .

Kısıtlama denetlenen tüm örnekler için uygulanırsa optimizasyon problemi analitik olarak çözülebilir . Bu nedenle vektörün etiketli kısmı açıktır. Etiketinin etiketlenmemiş kısmı şu şekilde çözülür:

Sözde tersin alınabileceğini unutmayın, çünkü ile aynı aralığa sahiptir .

Çoklu görev öğrenimi için düzenleyiciler

Çoklu görev öğrenme durumunda, problemler eşzamanlı olarak değerlendirilir ve her biri bir şekilde ilişkilidir. Amaç , ideal olarak tahmin gücüne sahip olan görevlerin ilişkisinden güç alan işlevleri öğrenmektir . Bu, matrisi öğrenmeye eşdeğerdir .

Sütunlarda seyrek düzenleyici

Bu düzenleyici, her sütunda bir L2 normu ve tüm sütunlarda bir L1 normu tanımlar. Proksimal yöntemlerle çözülebilir.

Nükleer norm düzenlenmesi

burada bir özdeğerler olarak tekil değer ayrışımı arasında .

Ortalama kısıtlı düzenlileştirme

Bu düzenleyici, her görev için öğrenilen işlevleri tüm görevlerdeki işlevlerin genel ortalamasına benzer olacak şekilde sınırlar. Bu, her bir görevin birbiriyle paylaşması beklenen önceki bilgileri ifade etmek için kullanışlıdır. Bir örnek, her görevin bir bireyi temsil ettiği, günün farklı zamanlarında ölçülen kandaki demir seviyelerini tahmin etmektir.

Kümelenmiş ortalama sınırlı düzenlilik

bir görev kümesi nerede .

Bu düzenleyici, ortalama kısıtlamalı düzenleyiciye benzer, ancak bunun yerine aynı küme içindeki görevler arasında benzerliği zorlar. Bu, daha karmaşık önceki bilgileri yakalayabilir. Bu teknik, Netflix önerilerini tahmin etmek için kullanılmıştır . Bir küme, benzer tercihleri ​​paylaşan bir grup insana karşılık gelir.

Grafik tabanlı benzerlik

Yukarıdakinden daha genel olarak, görevler arasındaki benzerlik bir işlevle tanımlanabilir. Düzenleyici, modeli benzer görevler için benzer işlevleri öğrenmeye teşvik eder.

belirli bir simetrik benzerlik matrisi için .

İstatistiklerde ve makine öğreniminde düzenleyiciliğin diğer kullanımları

Bayesçi öğrenme yöntemleri , (genellikle) daha karmaşık modellere daha düşük olasılık veren bir önceki olasılıktan yararlanır. İyi bilinen model seçim teknikleri arasında Akaike bilgi kriteri (AIC), minimum açıklama uzunluğu (MDL) ve Bayesian bilgi kriteri (BIC) bulunur. Düzenli hale getirmeyi içermeyen aşırı uyumu kontrol etmenin alternatif yöntemleri arasında çapraz doğrulama bulunur .

Doğrusal modele farklı düzenlileştirme yöntemlerinin uygulama örnekleri şunlardır:

Modeli Ölçü sığdır Entropi ölçüsü
AIC / BIC
Ridge regresyonu
Kement
Temel takibi denoising
Rudin – Osher – Fatemi modeli (TV)
Potts modeli
RLAD
Dantzig Seçici
EĞİM

Ayrıca bakınız

Notlar

Referanslar