Düzenlenme (matematik) - Regularization (mathematics)

Yeşil ve mavi işlevlerin her ikisi de verilen veri noktalarında sıfır kayba uğrar. Öğrenilmiş bir model , düzenlenme teriminin ağırlığını ayarlayarak , temelde yatan bilinmeyen dağılımdan alınan daha fazla noktaya daha iyi genelleştirebilen yeşil işlevi tercih etmeye teşvik edilebilir .

{\ displaystyle \ lambda}

In matematik , istatistik , finans , bilgisayar bilimi , özellikle de, makinelerin öğrenmesi ve ters problemler , düzenlileştirmeye bir çözmek amacıyla bilgiler ekleyerek işlemidir kötü sağlama sorununu veya önlemek için overfitting .

Düzenli hale getirme, kötü niyetli optimizasyon problemlerinde nesnel işlevlere uygulanabilir. Düzenli hale getirme terimi veya ceza, optimum çözümü benzersiz kılmak için optimizasyon işlevine bir maliyet getirir.

Problem veya modelden bağımsız olarak, her zaman bir ölçüm olasılığına karşılık gelen bir veri terimi ve bir öncekine karşılık gelen bir düzenleme terimi vardır. Her ikisini de Bayes istatistiği kullanarak birleştirerek, her iki bilgi kaynağını içeren ve dolayısıyla tahmin sürecini stabilize eden bir posterior hesaplanabilir. Her iki hedefin de değiş tokuşu yapılarak, kişi verilere daha fazla bağımlılık yapmayı veya genellemeyi (aşırı uyumu önlemek için) zorlamayı seçer. Tüm olası düzenlemelerle ilgilenen bir araştırma dalı var. İş akışı genellikle, kişinin belirli bir düzenleme denemesi ve ardından seçimi gerekçelendirmek için bu düzenlemeye karşılık gelen olasılık yoğunluğunu çözmesidir. Sağduyu veya sezgiyle fiziksel olarak da motive edilebilir, ki bu daha zordur.

Makine öğreniminde, veri terimi eğitim verilerine karşılık gelir ve düzenleme, modelin seçimi veya algoritmada yapılan değişikliklerdir. Her zaman genelleme hatasını, yani eğitim verileri yerine değerlendirme setindeki eğitimli model ile hata puanını azaltmak amaçlanır.

Düzenlemenin ilk kullanımlarından biri, en küçük kareler yöntemiyle ilgilidir. Ortaya çıkan olasılık yoğunluğu, artık "Tikhonov regülarizasyonu" adı altında bilinen gauss dağılımıdır.

Sınıflandırma

Sınıflandırıcıların deneysel olarak öğrenilmesi (sonlu bir veri kümesinden) her zaman yeterince belirlenmemiş bir sorundur, çünkü yalnızca verilen örneklerden herhangi birinin bir işlevini çıkarmaya çalışır . ${\ displaystyle x}$ ${\ displaystyle x_ {1}, x_ {2}, ... x_ {n}}$

Kayıp işlevine bir düzenleyici terim (veya düzenleyici) eklenir : ${\ displaystyle R (f)}$

{\ displaystyle \ min _ {f} \ toplamı _ {i = 1} ^ {n} V (f (x_ {i}), y_ {i}) + \ lambda R (f)}

kare kaybı veya menteşe kaybı gibi etiketin ne zaman olacağını tahmin etmenin maliyetini açıklayan temel bir kayıp işlevi nerede ; ve düzenlileştirme teriminin önemini kontrol eden bir parametredir. tipik olarak karmaşıklığına bir ceza uygulamak için seçilir . Kullanılan somut karmaşıklık kavramları , vektör uzayı normundaki pürüzsüzlük ve sınırlar için kısıtlamaları içerir . ${\ displaystyle V}$ ${\ displaystyle f (x)}$ ${\ displaystyle y}$ ${\ displaystyle \ lambda}$ ${\ displaystyle R (f)}$ ${\ displaystyle f}$

Düzenleme için teorik bir gerekçe , çözüm üzerine Occam'ın usturasını dayatmaya çalışmasıdır (yukarıdaki şekilde gösterildiği gibi, yeşil fonksiyon, daha basit olanı tercih edilebilir). Bir itibaren Bayes bakış açısından, birçok düzenlileştirme teknikleri belli empoze karşılık önceki model parametreleri üzerinde dağılımları.

Düzenli hale getirme, daha basit modelleri öğrenmek, modelleri seyrek olmaya teşvik etmek ve öğrenme problemine grup yapısını dahil etmek dahil olmak üzere birden fazla amaca hizmet edebilir.

Aynı fikir birçok bilim alanında da ortaya çıktı . İntegral denklemlere uygulanan basit bir düzenlileştirme biçimi ( Tikhonov regülarizasyonu ), esasen veriyi uydurmakla çözümün bir normunu azaltmak arasında bir değiş tokuştur . Daha yakın zamanlarda, toplam varyasyon regülasyonu dahil olmak üzere lineer olmayan regülasyon metotları popüler hale gelmiştir.

Genelleme

Düzenlileştirme, öğrenilen bir modelin genelleştirilebilirliğini geliştirmek için bir teknik olarak motive edilebilir.

Bu öğrenme probleminin amacı, tüm olası girdiler ve etiketler üzerinde beklenen hatayı en aza indiren sonuca (etiket) uyan veya bunları tahmin eden bir işlev bulmaktır. Bir işlevin beklenen hatası şudur: ${\ displaystyle f_ {n}}$

{\ displaystyle I [f_ {n}] = \ int _ {X \ times Y} V (f_ {n} (x), y) \ rho (x, y) \, dx \, dy}

burada ve giriş verilerinin alanları vardır ve etiket sırası. ${\ displaystyle X}$ ${\ displaystyle Y}$ ${\ displaystyle x}$ ${\ displaystyle y}$

Tipik olarak öğrenme problemlerinde, biraz gürültüyle ölçülen yalnızca bir girdi verisi ve etiket alt kümesi mevcuttur. Bu nedenle, beklenen hata ölçülemez ve mevcut en iyi vekil, mevcut örnekler üzerindeki ampirik hatadır : ${\ displaystyle N}$

{\ displaystyle I_ {S} [f_ {n}] = {\ frac {1} {n}} \ sum _ {i = 1} ^ {N} V (f_ {n} ({\ hat {x}} _ {i}), {\ hat {y}} _ {i})}

Kullanılabilir fonksiyon uzayının (biçimsel olarak, yeniden üreten çekirdek Hilbert uzayı ) karmaşıklığı sınırlanmadan, vekil ampirik hatada sıfır kayıp veren bir model öğrenilecektir. Ölçümler (örn. ) Gürültüyle yapılmışsa, bu model aşırı takılma sorunu yaşayabilir ve beklenen zayıf hatayı gösterebilir. Düzenli hale getirme, modeli oluşturmak için kullanılan işlev uzayının belirli bölgelerini keşfetmek için bir ceza getirir ve bu da genellemeyi geliştirebilir. ${\ displaystyle x_ {i}}$

Tikhonov düzenlenmesi

Bu teknikler, integral denklemlere düzenlileştirmeyi uygulayan ve diğer birçok alanda önemli katkılarda bulunan Andrey Nikolayevich Tikhonov'un adını almıştır .

Doğrusal öğrenme fonksiyonu zaman bilinmeyen ile karakterize edilen vektör öyle ki , tek bir ekleyebilir vektörün -norm küçük normlarına çözümler tercih amacıyla zarar ekspresyonuna. Tikhonov düzenlenmesi en yaygın biçimlerden biridir. Aynı zamanda sırt regresyonu olarak da bilinir. Şu şekilde ifade edilir: ${\ displaystyle f}$ ${\ displaystyle w}$ ${\ displaystyle f (x) = w \ cdot x}$ ${\ displaystyle L_ {2}}$ ${\ displaystyle w}$

{\ displaystyle \ min _ {w} \ toplamı _ {i = 1} ^ {n} V ({\ hat {x}} _ {i} \ cdot w, {\ hat {y}} _ {i}) + \ lambda \ | w \ | _ {2} ^ {2}}

,

nerede eğitim için kullanılan örneklerin temsil edecektir. ${\ displaystyle ({\ hat {x}} _ {i}, {\ hat {y}} _ {i}), \, 1 \ leq i \ leq n,}$

Genel bir işlev durumunda, işlevin yeniden üreten çekirdek Hilbert uzayındaki normu şöyledir:

{\ displaystyle \ min _ {f} \ toplamı _ {i = 1} ^ {n} V (f ({\ hat {x}} _ {i}), {\ hat {y}} _ {i}) + \ lambda \ | f \ | _ {\ mathcal {H}} ^ {2}}

Gibi norm türevlenebilir , öğrenme öne alınabilir degrade asıllı . ${\ displaystyle L_ {2}}$

Tikhonov'a göre düzenlenmiş en küçük kareler

En küçük kareler kayıp fonksiyonu ve Tikhonov düzenlileştirmesi ile öğrenme problemi analitik olarak çözülebilir. Matris formunda yazılan optimal , kayıp fonksiyonunun gradyanının 0 olduğu olandır. ${\ displaystyle w}$ ${\ displaystyle w}$

{\ displaystyle \ min _ {w} {\ frac {1} {n}} ({\ hat {X}} wY) ^ {T} ({\ hat {X}} wY) + \ lambda \ | w \ | _ {2} ^ {2}}

{\ displaystyle \ nabla _ {w} = {\ frac {2} {n}} {\ hat {X}} ^ {T} ({\ hat {X}} wY) +2 \ lambda w}

{\ displaystyle 0 = {\ hat {X}} ^ {T} ({\ hat {X}} wY) + n \ lambda w}

( birinci dereceden koşul )

{\ displaystyle w = ({\ hat {X}} ^ {T} {\ hat {X}} + \ lambda nI) ^ {- 1} ({\ hat {X}} ^ {T} Y)}

Optimizasyon probleminin oluşturulmasıyla, diğer değerler kayıp fonksiyonu için daha büyük değerler verir. Bu, ikinci türevi inceleyerek doğrulanabilir . ${\ displaystyle w}$ ${\ displaystyle \ nabla _ {ww}}$

Eğitim sırasında bu algoritma zaman alır . Terimler sırasıyla matrisin tersine çevrilmesi ve hesaplanmasına karşılık gelir. Test yapmak zaman alır . ${\ displaystyle O (d ^ {3} + nd ^ {2})}$ ${\ displaystyle X ^ {T} X}$ ${\ displaystyle O (nd)}$

Erken durma

Erken durdurma, zaman içinde düzenlenme olarak görülebilir. Sezgisel olarak, gradyan inişi gibi bir eğitim prosedürü, artan yinelemelerle daha karmaşık işlevleri öğrenme eğilimindedir. Zamana göre düzenleyerek, model karmaşıklığı kontrol edilebilir ve genelleme geliştirilebilir.

Erken durdurma, eğitim için bir veri seti, doğrulama için istatistiksel olarak bağımsız bir veri seti ve test için başka bir veri seti kullanılarak gerçekleştirilir. Model, doğrulama setindeki performans artık iyileşmeyene kadar eğitilir ve ardından test setine uygulanır.

En küçük karelerde teorik motivasyon

Ters çevrilebilir bir matris $A$ için Neumann serisinin sonlu yaklaşımını düşünün, burada : ${\ displaystyle \ | IA \ | <1}$

{\ displaystyle \ toplam _ {i = 0} ^ {T-1} (IA) ^ {i} \ yaklaşık A ^ {- 1}}

Bu , normun birden küçük olmasını sağlamak için $γ$ eklenirse, düzensiz en küçük karelerin analitik çözümüne yaklaşmak için kullanılabilir .

{\ displaystyle w_ {T} = {\ frac {\ gamma} {n}} \ sum _ {i = 0} ^ {T-1} (I - {\ frac {\ gamma} {n}} {\ şapka {X}} ^ {T} {\ hat {X}}) ^ {i} {\ hat {X}} ^ {T} {\ hat {Y}}}

Düzensiz en küçük kareler öğrenme probleminin kesin çözümü, deneysel hatayı en aza indirir, ancak başarısız olabilir. Yukarıdaki algoritmadaki tek serbest parametre olan $T'yi$ sınırlandırarak , problem zamana göre düzenlenir ve bu da genellemesini geliştirebilir.

Yukarıdaki algoritma, ampirik risk için gradyan iniş yinelemelerinin sayısını sınırlamaya eşdeğerdir.

{\ displaystyle I_ {s} [w] = {\ frac {1} {2n}} \ | {\ hat {X}} w - {\ hat {Y}} \ | _ {\ mathbb {R} ^ { n}} ^ {2}}

gradyan iniş güncellemesiyle:

{\ displaystyle {\ begin {align} w_ {0} & = 0 \\ w_ {t + 1} & = (I - {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T } {\ hat {X}}) w_ {t} + {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T} {\ hat {Y}} \ end {hizalı}}}

Temel durum önemsizdir. Endüktif durum şu şekilde kanıtlanmıştır:

{\ displaystyle {\ begin {align} w_ {T} & = (I - {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T} {\ hat {X}}) {\ frac {\ gamma} {n}} \ sum _ {i = 0} ^ {T-2} (I - {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T} {\ şapka {X}}) ^ {i} {\ hat {X}} ^ {T} {\ hat {Y}} + {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T } {\ hat {Y}} \\ & = {\ frac {\ gamma} {n}} \ sum _ {i = 1} ^ {T-1} (I - {\ frac {\ gamma} {n} } {\ hat {X}} ^ {T} {\ hat {X}}) ^ {i} {\ hat {X}} ^ {T} {\ hat {Y}} + {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T} {\ hat {Y}} \\ & = {\ frac {\ gamma} {n}} \ sum _ {i = 0} ^ {T-1 } (I - {\ frac {\ gamma} {n}} {\ hat {X}} ^ {T} {\ hat {X}}) ^ {i} {\ hat {X}} ^ {T} { \ hat {Y}} \ end {hizalı}}}

Seyreklik için düzenleyiciler

Bir sözlük varsayalım boyut ile işlev alanı bir fonksiyonu olarak ifade edilebilir şekilde verilir: ${\ displaystyle \ phi _ {j}}$ ${\ displaystyle p}$

{\ displaystyle f (x) = \ toplam _ {j = 1} ^ {p} \ phi _ {j} (x) w_ {j}}

L1 topu ile L2 topu arasında iki boyutta yapılan bir karşılaştırma, L1 düzenliliğinin seyrekliği nasıl sağladığına dair bir önsezi verir.

Seyreklik kısıtlamasının uygulanması, daha basit ve daha yorumlanabilir modellere yol açabilir. Bu, hesaplamalı biyoloji gibi birçok gerçek yaşam uygulamasında kullanışlıdır . Bir örnek, tahmin gücünü en üst düzeye çıkarırken tıbbi testler gerçekleştirmenin maliyetini en aza indirmek için bir hastalık için basit bir tahmin testi geliştirmektir. ${\ displaystyle w}$

Makul bir seyreklik kısıtı, içindeki sıfır olmayan elemanların sayısı olarak tanımlanan normdur . Bir Çözme regularize öğrenme sorunu, ancak, olduğu gösterilmiştir NP-zor . ${\ displaystyle L_ {0}}$ ${\ displaystyle \ | w \ | _ {0}}$ ${\ displaystyle w}$ ${\ displaystyle L_ {0}}$

Norm (bakınız ayrıca normları uygun yaklaştığı kullanılabilir) dışbükey gevşeme yoluyla norm. Normun seyrekliği uyardığı gösterilebilir . En küçük kareler durumunda, bu sorun istatistikte LASSO ve sinyal işlemede temel arayış olarak bilinir . ${\ displaystyle L_ {1}}$ ${\ displaystyle L_ {0}}$ ${\ displaystyle L_ {1}}$

{\ displaystyle \ min _ {w \ in \ mathbb {R} ^ {p}} {\ frac {1} {n}} \ | {\ hat {X}} w - {\ hat {Y}} \ | ^ {2} + \ lambda \ | w \ | _ {1}}

Elastik ağ düzenlenmesi

${\ displaystyle L_ {1}}$ düzenlileştirme bazen benzersiz olmayan çözümler üretebilir. Olası çözümlerin alanı 45 derecelik bir çizgide olduğunda şekilde basit bir örnek verilmiştir. Bu durum, belirli uygulamalar için sorunlu olabilir, ve birleştirme ile giderilmesi ile de duzenleme elastik ağ regularization aşağıdaki formu alır: ${\ displaystyle L_ {1}}$ ${\ displaystyle L_ {2}}$

{\ displaystyle \ min _ {w \ in \ mathbb {R} ^ {p}} {\ frac {1} {n}} \ | {\ hat {X}} w - {\ hat {Y}} \ | ^ {2} + \ lambda (\ alpha \ | w \ | _ {1} + (1- \ alpha) \ | w \ | _ {2} ^ {2}), \ alpha \ [0,1] içinde }

Esnek ağ düzenlenmesi, ilişkili girdi özelliklerine eşit ağırlıkların atandığı bir gruplama etkisine sahip olma eğilimindedir.

Esnek ağ düzenlenmesi pratikte yaygın olarak kullanılır ve birçok makine öğrenimi kitaplığında uygulanır.

Proksimal yöntemler

İken norm bir NP-zor problem yol açmaz, norm dışbükey ama x = 0. de kıvrım nedeniyle kesinlikle türevlenebilir değildir Subgradient yöntemlerine güvenmek subderivative çözmek için kullanılabilir regularized öğrenme problemleri. Bununla birlikte, proksimal yöntemlerle daha hızlı yakınsama elde edilebilir. ${\ displaystyle L_ {1}}$ ${\ displaystyle L_ {1}}$ ${\ displaystyle L_ {1}}$

Bir problem için bu Lipschitz sürekli bir gradyan (örneğin en küçük kareler kaybı fonksiyonu olarak) ile, dışbükey, sürekli, türevlenebilir ve dışbükey, sürekli ve düzgün olduğunda, sorunu çözmek için proksimal yöntem, aşağıdaki gibidir. Önce proksimal operatörü tanımlayın ${\ displaystyle \ min _ {w \, H} F (w) + R (w)}$ ${\ displaystyle F}$ ${\ displaystyle R}$

{\ displaystyle \ operatorname {prox} _ {R} (v) = \ operatorname {argmin} \ limits _ {w \ in \ mathbb {R} ^ {D}} \ {R (w) + {\ frac {1 } {2}} \ | wv \ | ^ {2} \},}

ve sonra yineleyin

{\ displaystyle w_ {k + 1} = \ operatorname {prox} \ limits _ {\ gamma, R} (w_ {k} - \ gamma \ nabla F (w_ {k}))}

Proksimal yöntem yinelemeli olarak gradyan inişi gerçekleştirir ve ardından sonucu izin verilen alana geri yansıtır . ${\ displaystyle R}$

Ne zaman bir regularizer, yakın operatörü yumuşak eşikleme operatörüne eşdeğer ${\ displaystyle R}$ ${\ displaystyle L_ {1}}$

{\ displaystyle S _ {\ lambda} (v) f (n) = {\ başlar {vakalar} v_ {i} - \ lambda ve {\ text {if}} v_ {i}> \ lambda \\ 0, & {\ text {if}} v_ {i} \ in [- \ lambda, \ lambda] \\ v_ {i} + \ lambda ve {\ text {if}} v_ {i} <- \ lambda \ end { vakalar}}}

Bu, verimli hesaplamaya izin verir.

Örtüşmesiz grup seyrekliği

Özellik grupları, belirli ön bilgileri bir optimizasyon problemine ifade etmek için yararlı olabilecek seyreklik kısıtlaması ile düzenlenebilir.

Örtüşmeyen bilinen gruplara sahip doğrusal bir model durumunda, bir düzenleyici tanımlanabilir:

{\ displaystyle R (w) = \ toplam _ {g = 1} ^ {G} \ | w_ {g} \ | _ {2},}

nerede

{\ displaystyle \ | w_ {g} \ | _ {2} = {\ sqrt {\ toplamı _ {j = 1} ^ {| G_ {g} |} (w_ {g} ^ {j}) ^ {2 }}}}

Bu, her grubun üyeleri üzerinde norm üzerinde bir düzenleyiciyi ve ardından gruplar üzerinde bir normu teşvik etmek olarak görülebilir . ${\ displaystyle L_ {2}}$ ${\ displaystyle L_ {1}}$

Bu, proksimal operatörün blok bazında yumuşak eşikleme işlevi olduğu proksimal yöntemle çözülebilir:

{\ displaystyle \ operatorname {prox} \ limits _ {\ lambda, R, g} (w_ {g}) = {\ begin {case} (1 - {\ frac {\ lambda} {\ | w_ {g} \ | _ {2}}}) w_ {g}, & {\ text {if}} \ | w_ {g} \ | _ {2}> \ lambda \\ 0 ve {\ text {if}} \ | w_ {g} \ | _ {2} \ leq \ lambda \ end {vakalar}}}

Örtüşen grup seyrekliği

Örtüşmesiz grup seyrekliği için açıklanan algoritma, belirli durumlarda grupların örtüştüğü duruma uygulanabilir. Bu, büyük olasılıkla tümü sıfır öğelere sahip bazı gruplara ve bazıları sıfır olmayan ve bazı sıfır öğelere sahip diğer gruplara neden olacaktır.

Grup yapısının korunması istenirse, yeni bir düzenleyici tanımlanabilir:

{\ displaystyle R (w) = \ inf \ sol \ {\ toplamı _ {g = 1} ^ {G} \ | w_ {g} \ | _ {2}: w = \ toplamı _ {g = 1} ^ {G} {\ bar {w}} _ {g} \ sağ \}}

Her biri için , kısıtlama şekilde vektör olarak tanımlanır grubuna eşittir ve diğer tüm girişler sıfırdır. Düzenleyici, parçalara en uygun parçalanmayı bulur . Birden çok grupta var olan tüm öğeleri kopyalıyor olarak görülebilir. Bu düzenleyicideki öğrenme problemleri, proksimal yöntemle de bir komplikasyonla çözülebilir. Proksimal operatör kapalı biçimde hesaplanamaz, ancak yinelemeli olarak etkili bir şekilde çözülebilir ve proksimal yöntem yinelemesinde bir iç yinelemeye neden olabilir. ${\ displaystyle w_ {g}}$ ${\ displaystyle {\ bar {w}} _ {g}}$ ${\ displaystyle {\ bar {w}} _ {g}}$ ${\ displaystyle g}$ ${\ displaystyle w_ {g}}$ ${\ displaystyle {\ bar {w}} _ {g}}$ ${\ displaystyle w}$

Yarı denetimli öğrenim için düzenleyiciler

Etiketleri toplamak girdi örneklerinden daha pahalı olduğunda, yarı denetimli öğrenme yararlı olabilir. Düzenleyiciler, denetimsiz eğitim örneklerinin yapısına saygı duyan modelleri öğrenmek için öğrenme algoritmalarına rehberlik etmek üzere tasarlanmıştır. Simetrik bir ağırlık matrisi verilirse, bir düzenleyici tanımlanabilir: ${\ displaystyle W}$

{\ displaystyle R (f) = \ toplamı _ {i, j} w_ {ij} (f (x_ {i}) - f (x_ {j})) ^ {2}}

Eğer kodlar noktaları için bir mesafe ölçümünün sonucu ve bu arzu edilir . Bu düzenleyici, bu sezgiyi yakalar ve şuna eşdeğerdir: ${\ displaystyle W_ {ij}}$ ${\ displaystyle x_ {i}}$ ${\ displaystyle x_ {j}}$ ${\ displaystyle f (x_ {i}) \ yaklaşık f (x_ {j})}$

{\ displaystyle R (f) = {\ çubuğu {f}} ^ {T} L {\ çubuğu {f}}}

burada bir Laplace matris ile oluşturulan grafik .

{\ displaystyle L = DW}

{\ displaystyle W}

Kısıtlama denetlenen tüm örnekler için uygulanırsa optimizasyon problemi analitik olarak çözülebilir . Bu nedenle vektörün etiketli kısmı açıktır. Etiketinin etiketlenmemiş kısmı şu şekilde çözülür: ${\ displaystyle \ min _ {f \ in \ mathbb {R} ^ {m}} R (f), m = u + l}$ ${\ displaystyle f (x_ {i}) = y_ {i}}$ ${\ displaystyle f}$ ${\ displaystyle f}$

{\ displaystyle \ min _ {f_ {u} \ in \ mathbb {R} ^ {u}} f ^ {T} Lf = \ min _ {f_ {u} \ in \ mathbb {R} ^ {u}} \ {f_ {u} ^ {T} L_ {uu} f_ {u} + f_ {l} ^ {T} L_ {lu} f_ {u} + f_ {u} ^ {T} L_ {ul} f_ { l} \}}

{\ displaystyle \ nabla _ {f_ {u}} = 2L_ {uu} f_ {u} + 2L_ {ul} Y}

{\ displaystyle f_ {u} = L_ {uu} ^ {\ hançer} (L_ {ul} Y)}

Sözde tersin alınabileceğini unutmayın, çünkü ile aynı aralığa sahiptir . ${\ displaystyle L_ {ul}}$ ${\ displaystyle L_ {uu}}$

Çoklu görev öğrenimi için düzenleyiciler

Çoklu görev öğrenme durumunda, problemler eşzamanlı olarak değerlendirilir ve her biri bir şekilde ilişkilidir. Amaç , ideal olarak tahmin gücüne sahip olan görevlerin ilişkisinden güç alan işlevleri öğrenmektir . Bu, matrisi öğrenmeye eşdeğerdir . ${\ displaystyle T}$ ${\ displaystyle T}$ ${\ displaystyle W: T \ times D}$

Sütunlarda seyrek düzenleyici

{\ displaystyle R (w) = \ toplam _ {i = 1} ^ {D} \ | W \ | _ {2,1}}

Bu düzenleyici, her sütunda bir L2 normu ve tüm sütunlarda bir L1 normu tanımlar. Proksimal yöntemlerle çözülebilir.

Nükleer norm düzenlenmesi

{\ Displaystyle R (w) = \ | \ sigma (W) \ | _ {1}}

burada bir özdeğerler olarak tekil değer ayrışımı arasında .

{\ displaystyle \ sigma (W)}

{\ displaystyle W}

Ortalama kısıtlı düzenlileştirme

{\ displaystyle R (f_ {1} \ cdots f_ {T}) = \ toplamı _ {t = 1} ^ {T} \ | f_ {t} - {\ frac {1} {T}} \ toplamı _ { s = 1} ^ {T} f_ {s} \ | _ {H_ {k}} ^ {2}}

Bu düzenleyici, her görev için öğrenilen işlevleri tüm görevlerdeki işlevlerin genel ortalamasına benzer olacak şekilde sınırlar. Bu, her bir görevin birbiriyle paylaşması beklenen önceki bilgileri ifade etmek için kullanışlıdır. Bir örnek, her görevin bir bireyi temsil ettiği, günün farklı zamanlarında ölçülen kandaki demir seviyelerini tahmin etmektir.

Kümelenmiş ortalama sınırlı düzenlilik

{\ displaystyle R (f_ {1} \ cdots f_ {T}) = \ toplamı _ {r = 1} ^ {C} \ toplamı _ {t \ içinde I (r)} \ | f_ {t} - {\ frac {1} {I (r)}} \ sum _ {s \ in I (r)} f_ {s} \ | _ {H_ {k}} ^ {2}}

bir görev kümesi nerede .

{\ displaystyle I (r)}

Bu düzenleyici, ortalama kısıtlamalı düzenleyiciye benzer, ancak bunun yerine aynı küme içindeki görevler arasında benzerliği zorlar. Bu, daha karmaşık önceki bilgileri yakalayabilir. Bu teknik, Netflix önerilerini tahmin etmek için kullanılmıştır . Bir küme, benzer tercihleri paylaşan bir grup insana karşılık gelir.

Grafik tabanlı benzerlik

Yukarıdakinden daha genel olarak, görevler arasındaki benzerlik bir işlevle tanımlanabilir. Düzenleyici, modeli benzer görevler için benzer işlevleri öğrenmeye teşvik eder.

{\ displaystyle R (f_ {1} \ cdots f_ {T}) = \ toplamı _ {t, s = 1, t \ neq s} ^ {T} \ | f_ {t} -f_ {s} \ | ^ {2} M_ {ts}}

belirli bir simetrik benzerlik matrisi için .

{\ displaystyle M}

İstatistiklerde ve makine öğreniminde düzenleyiciliğin diğer kullanımları

Bayesçi öğrenme yöntemleri , (genellikle) daha karmaşık modellere daha düşük olasılık veren bir önceki olasılıktan yararlanır. İyi bilinen model seçim teknikleri arasında Akaike bilgi kriteri (AIC), minimum açıklama uzunluğu (MDL) ve Bayesian bilgi kriteri (BIC) bulunur. Düzenli hale getirmeyi içermeyen aşırı uyumu kontrol etmenin alternatif yöntemleri arasında çapraz doğrulama bulunur .

Doğrusal modele farklı düzenlileştirme yöntemlerinin uygulama örnekleri şunlardır:

Modeli	Ölçü sığdır	Entropi ölçüsü
AIC / BIC	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ \| \ beta \ \| _ {0}}$
Ridge regresyonu	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ \| \ beta \ \| _ {2}}$
Kement	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ \| \ beta \ \| _ {1}}$
Temel takibi denoising	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ lambda \ \| \ beta \ \| _ {1}}$
Rudin – Osher – Fatemi modeli (TV)	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ lambda \ \| \ nabla \ beta \ \| _ {1}}$
Potts modeli	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ lambda \ \| \ nabla \ beta \ \| _ {0}}$
RLAD	${\ displaystyle \ \| YX \ beta \ \| _ {1}}$	${\ displaystyle \ \| \ beta \ \| _ {1}}$
Dantzig Seçici	${\ displaystyle \ \| X ^ {\ top} (YX \ beta) \ \| _ {\ infty}}$	${\ displaystyle \ \| \ beta \ \| _ {1}}$
EĞİM	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ toplamı _ {i = 1} ^ {p} \ lambda _ {i} \| \ beta \| _ {(i)}}$

Ayrıca bakınız

Notlar

Referanslar

Neumaier, A. (1998). "Kötü koşullu ve tekil doğrusal sistemleri çözme: Düzenli hale getirme üzerine bir eğitim" (PDF) . SIAM İncelemesi . 40 (3): 636–666. doi : 10.1137 / S0036144597321909 .

Modeli	Ölçü sığdır	Entropi ölçüsü
AIC / BIC	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ \| \ beta \ \| _ {0}}$
Ridge regresyonu	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ \| \ beta \ \| _ {2}}$
Kement	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ \| \ beta \ \| _ {1}}$
Temel takibi denoising	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ lambda \ \| \ beta \ \| _ {1}}$
Rudin – Osher – Fatemi modeli (TV)	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ lambda \ \| \ nabla \ beta \ \| _ {1}}$
Potts modeli	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ lambda \ \| \ nabla \ beta \ \| _ {0}}$
RLAD	${\ displaystyle \ \| YX \ beta \ \| _ {1}}$	${\ displaystyle \ \| \ beta \ \| _ {1}}$
Dantzig Seçici	${\ displaystyle \ \| X ^ {\ top} (YX \ beta) \ \| _ {\ infty}}$	${\ displaystyle \ \| \ beta \ \| _ {1}}$
EĞİM	${\ displaystyle \ \| YX \ beta \ \| _ {2}}$	${\ displaystyle \ toplamı _ {i = 1} ^ {p} \ lambda _ {i} \| \ beta \| _ {(i)}}$

Languages

In other projects