Konuşma segmentasyon - Speech segmentation

Konuşma segmentasyon arasındaki sınırları belirleme sürecidir sözler , hece veya ses birimlerine konuşulan içinde doğal dilleri . Terim için de geçerlidir zihinsel insanlar tarafından kullanılan süreçleri ve yapay süreçlerle doğal dil işleme .

Konuşma segmentasyon genel üst disiplinidir konuşma algısı ve teknolojik odaklı alanının önemli bir subproblem konuşma tanıma ve yeterince izolasyon çözülemez. En olduğu gibi doğal dil işleme sorunları, bir hesap içine almalıdır bağlamda , gramer ve semantik ve hatta bu yüzden sonuç genellikle olduğu olasılık (istatistiksel olasılığına dayalı) bölünmesini ziyade kategorik bir. Bu gibi görünse de coarticulation tek dahilinde gibi rahatlıkla bitişik kelimeler arasında ortaya çıkabilir -a fenomen dilleri arasında konuşma segmentasyon temel zorluk kelime-sunar bu sorunların çözümünde kullanılan diğer bazı sorunlar ve stratejiler aşağıdaki bölümlerde görülebilir .

Bu sorun problemiyle bir ölçüde örtüşür metin segmentasyon geleneksel gibi sözcükler arası boşluksuz yazılır bazı dillerde meydana Çinli ve Japon kıyasla, yazı sistemleri bir tarafından sözcükler arasında konuşma segmentasyon belirten kelime bölücü gibi uzay . Yazı dili genellikle bitişik kelimeler arasında çok az girişim vardır ve çoğu zaman (örneğin kullanımı gibi konuşma bulunmayan ek ipuçları içerdiğinden Ancak, daha diller için, metin segmentasyon, genellikle konuşma segmentasyon daha kolaydır Çince karakterler kelime kaynaklanıyor için Japonca). Tarafından Kelime Sınır Kimlik aşılabilir NLU gibi yaklaşımlar Patom teorisi ile entegre Rolü ve Referans Dilbilgisi böyle Japonca ve Çince gibi sözcükler arasında boşluk bırakmadan diller için (RRG).

Sözcük tanıma

Doğal dilde, kompleks diller cümle anlamı gramer kuralları uyarınca küçük sözcük bölümlerinin (dil kabaca, kelime) içine ayrıştırarak her bir segmente bir anlam ilişkilendirilmesi, ve bu anlamlarının birleştirilmesi yoluyla anlaşılabilir .

Sözcük tanıma nedeniyle son derece kısıtlı sözlüklere, onların ilk yılında bebekler tarafından kullanıldığı düşünülmektedir olmamasına rağmen, yetişkinler için konuşma segmentasyon yer alan önemli süreçlerden biridir. Sözcük tanıma üç ana modelleri mevcut araştırma var: Birincisi, tam kelime erişimi, kelimeler sözlüğü bir tam kelime temsil hakkına sahip olduğunu savunuyor; Morfolojik olarak karmaşık sözcüklerin ayrılır iddia eder ikinci ayrıştırma, morfemler ( kökler , saplar , çekimleri , vs.) ve daha sonra yorumlanır ve; üçüncü olarak, tam kelime ve ayrıştırma modelleri hem tam kelime modelinin bir hesaplama avantajlar sağlar ve sözcük tanıma bu nedenle de baskın bir şekilde kullanılır, ancak bu görünüşüdür.

Bir örnek vermek gerekirse, bir tam kelime modelinde, kelime "kedi" depolanmış olabileceğinden harfi, ilk "c", ardından "ca", "kedi" ve son olarak "kediler" tarafından aranır. Aynı kelime, bir decompositional modelde, muhtemelen kök kelime "kedi" altında saklanır olacak ve "s" eki kaldırıldıktan sonra aranır olabilir. "Falling", benzer şekilde, "düşmek" gibi saklanır, ve "ing" çekim ile sonlandırılmış.

Decompositional modelin savunucuları morpheme-ile-morpheme analiz önemli ölçüde daha fazla hesaplama, gerektirebileceğini hemen anlayacaktır rağmen, morfolojik bilginin açma (örneğin, diğer işlemler için gerekli olduğunu iddia sözdizimsel yapı sözcük aramalar paralel olabilir).

Bir bütün olarak, insan sözcük tanıma sistemlerine araştırma nedeniyle tam üç ana modeller arasında ayrım yapan küçük deneysel kanıt ile sınırlıdır.

Her durumda, sözcük tanıma olasılığı o ağır olasılık sistem tabanlı birlikte ortaya çıkan belirli kelimelerin veya bileşenlerin istatistiksel olasılığına olduğu göz önüne alındığında, sağladığı bağlamsal ipuçları sayesinde konuşma segmentasyon önemli katkıda bulunur. Örneğin, bir kişinin "net", "ter" veya "pet" gibi telaffuz edilir ve eksik kelimenin sesli harfle "Ben ____ dükkanında köpeğimi aldım" diyebilir bir durum hayal edebilirsiniz. "Netshop" olasılığı halen bir bileşik veya kelime İngilizce ve "fabrika sahibiymiş" "Netshop" beri, son derece düşük değil iken ortak bir deyimdir ve çünkü aynı zamanda bağlamsal imkansız, "Pet shop" iyi bir uyum görünüyor Ayrıca kelime "köpek" ile ilgilidir.

Dahası, bir telaffuz kelimelerle ayrılmıştır şekline bağlı olarak farklı anlamları olabilir. Popüler bir örnek, sık sık alanında alıntı, "Nasıl konuşma tanıma" çok benzer sesler, "güzel plaj enkaza nasıl" deyimdir. Bu örneğin de gösterdiği gibi, doğru sözcük segmentasyon bağlam ve bağlı semantik insan bilgi ve tecrübe bütün çizer ve böylece gelişmiş örüntü tanıma ve gerektirecektir yapay zeka teknolojileri bir bilgisayarda uygulanacak.

Sözcük tanıma bilgisayar alanında özel bir değer taşımaktadır konuşma tanıma ölçüde konuşma tanıma yazılımı etkinliğini artıracak semantik bağlı fikirlerin bir ağ kurmak ve arama yeteneği beri. İstatistiksel modeller segmentine kullanılan ve kelime veya telefonlara kaydedilen konuşma hizaya edilebilir. Uygulamalar otomatik karikatür animasyon için dudak senkronizasyon zamanlaması, takip çıkılmamış-top video alt yazılama ve dilsel araştırma bulunmaktadır. Otomatik segmentasyon ve hizalama yazılım ticari olarak mevcuttur.

Phonotactic ipuçları

En çok konuşulan diller için sözcük birimler arasındaki sınırlar tespit etmek zordur; phonotactics bu konuya bir cevaptır. Bir İngilizce veya İspanyolca gibi birçok yazı dili kullandığı sözcükler arası boşluklar kendi konuşulan sürümünde duraklar karşılık gösterebileceği düşünülebilir, ancak hoparlör kasten bu duraklamaları ekler zaman, sadece çok yavaş konuşmada doğrudur. Normal konuşma, bir tipik olarak bir çok ardışık kelime aralarında hiçbir duraklar, ve genellikle bir kelime nihai sesler sonraki sözcüğün ilk sesleri ile düzgün veya sigorta karışımı ile sözü geçen edilen bulur.

Konuşma ayrı ünlü, ünsüz seslerin bir dizi olarak, yazmak gibi üretilir düşüncesi, bazı dil toplulukları için alfabetik mirasının bir kalıntısı olabilir. Aslında, ünlüler üretilmektedir yolu ünsüzleri sesli harfleri çevreleyen etkilenen tıpkı çevreleyen ünsüzler bağlıdır; Bunun adı coarticulation . Örneğin, kelime "kit" in, [k] biz 'yakalandı' deyince daha uzak ileri. Normalde bu duymuyorum gerçi Ama aynı zamanda, "tekme" in ünlü, "kit" in sesli den fonetik olarak farklıdır. Buna ek olarak, imla dan oldukça farklı kılan gündelik konuşmada meydana dile özgü değişiklikler vardır. Örneğin, İngilizce olarak, tanımlama, "hit" genellikle daha uygun "hitcha" yazıldığından olabilir.

Bir decompositional perspektiften bakıldığında, birçok durumda, phonotactics hoparlörler kelime sınırlarını çizmek için nereye bildirerek bir rol oynar. "Saman" ve "berry": İngilizce, sözcük "çilek" (fonetik) iki bölümden oluşan olarak konuşanlar tarafından algılanmaktadır. Örneğin "stra" ve "wberry" gibi diğer yorumların küme "wb" kelime başlangıçta izin vermez İngiliz phonotactics tarafından engellenir. Diğer tür örnekler "gün / rüya" nedeniyle belirli kümeler phonotactic olasılık veya ihtimalinin yokluğuna "da / ydream" veya "mil / Estone" olarak yorumlanmalıdır olası değildir "mil / taş" dir. Fonetik [faɪvwɪmɘnlɛft] olarak transkripsiyonu olabilir cümle "Beş kadın sol", çünkü işaretlenir ne / vw / in / faɪvwɪmɘn / veya / nl / / wɪmɘnlɛft / hece olarak izin verilir içinde başlangıç ve bitiş noktalarının veya CODAS İngiliz phonotactics içinde. Bunlar phonotactic ipuçları genellikle hoparlörler kolayca deyişle sınırlarını ayırt etmenizi sağlar.

Fince gibi dillerde ünlü uyumu da phonotactic ipuçları sağlamak için hizmet edebilir. Sistem ön ünlüler ve arka ünlüler tek morfemlerin içinde birlikte var olmasına izin vermez iken, bileşikler bir kelime yandaş ederken iki biçimbirimler kendi sesli harf uyumu sürdürmek için izin verir. Bu nedenle, "Selka / ongelma" ( 'arka sorunu') gibi bileşikler ses uyumu arasında iki farklı olan bileşenlerin uyum içinde anahtar "a" ve "o arasında yer-alan yerde bir bileşikte, sınır olacak " bu durumda. Yine de, phonotactics segmentasyon yardımcı olmayabilir durumlar vardır. Belirsiz kümeler veya "opinto / uudistus" ( 'öğrenci reformu') gibi kontrast olmayan sesli harf uyumu ile Kelimeler onlar segmentlere ayrılan nasıl olarak phonotactic ipuçları sunmuyoruz.

tam kelime modelinin açısından bakıldığında ise bu sözler tam kelime olarak saklanabilir düşünülen, bu yüzden oluşturan parçalar mutlaka sözcük tanıma alakalı olmaz.

Bebekler ve non-yerli Konuşma segmentasyon

Bebekler konuşma segmentasyon araştırma önemli bir odak vardır. Bebekler henüz yukarıda da belirtildiği gibi, ilk yıl içinde kapsamlı bağlamsal ipuçlarını veya olasılık tabanlı kelime aramaları sağlayabilen bir sözlüğü, kazanılmış değil yana, genellikle (ile öncelikle phonotactic ve ritmik ipuçları dayanmak zorundadır aruz , baskın işaret olmak üzere) tüm dile özgü olan. 6 ve 9 ay arasında, bebekler arasında ayrım yapma yeteneği kaybetmeye başlar etrafında 7,5 ay görünen kelime segmentasyon yetenekleri ile değil, kendi dillerinde mevcut ve kendi dillerinde ses yapısına duyarlı büyümeye duyulur.

Çok daha araştırma bebeklerin konuşma segmentasyon, başlamak için kullanmak tam süreçler üzerinde yapılması gereken rağmen mevcut ve geçmiş çalışmalar İngilizce-yerli bebeklerin kelime başlangıcı olarak vurguladı heceleri yaklaşım olduğunu göstermektedir. 7.5 ayda, bebekler kuvvetli-zayıf olan kesimi bisyllabic kelimelere mümkün görünmektedir stres zayıf güçlü stres desenleri genellikle örneğin, "GUI TARİŞ" olarak "gitar" yorumlama, yanlış olsa, desen. Bebeklerin de yetersiz kalmasına neden olabilir, hece "" ve "köpek" Sıklıkla beraber rağmen, "" da genellikle diğer hece içinde gerçekleştiğini kabul Örneğin, izleme sıklığı ve kelimelerin olasılık bazı karmaşıklığı göstermek gibi görünüyor "köpek" bireysel bir kelime veya kavram yerine yorumlanmasını "thedog" olduğunu analizi.

Dil öğrenenler bireylerin başka dizi konuşma segmentasyon içinde araştırılmaktadır vardır. Bazı açılardan, bölüm konuşma öğrenme ses olasılıkları ve kısıtlamalarla aşinalık eksikliği içinde ama özellikle yerli dilin desen overapplication içinde sadece bir bebek için daha ikinci dil öğrenen için daha zor olabilir. Bazı modeller Fransızca ve İngilizce hece segmentasyonu gibi diller arasında oluşabilir, böyle bir sahiptir Japonca gibi dillerle iyi çalışmayabilir mora tabanlı segmentasyon sistemi. Dahası, Almanca veya Hollandaca sınır işareti küme / ld / gibi phonotactic kısıtlamalar İngilizce (ille sınırları işaretleme olmadan) izin verilir. Stres ve aralarında bile ilişki sesli harf uzunluğunda bir dil ve segmentasyon ipuçlarını öğrenme sırasında diğer dillerde olmayabilir, İngilizce konuşanlara sezgisel görünebilir, bu yüzden ikinci dil öğrenenler özellikle büyük sorunuyla karşı karşıya.

Ayrıca bakınız

Referanslar

Dış bağlantılar