Makine çevirisi - Machine translation

Bazen MT kısaltmasıyla anılan makine çevirisi ( bilgisayar destekli çeviri , makine destekli insan çevirisi veya etkileşimli çeviri ile karıştırılmamalıdır ), metin veya konuşmayı çevirmek için yazılım kullanımını araştıran bir hesaplamalı dilbilim alt alanıdır. bir dilden diğerine.

Temel düzeyde, MT bir dildeki sözcüklerin başka bir dildeki sözcüklerle mekanik olarak değiştirilmesini gerçekleştirir, ancak bu tek başına nadiren iyi bir çeviri üretir çünkü tüm ifadelerin ve bunların hedef dildeki en yakın karşılıklarının tanınması gerekir. Bir dildeki tüm kelimelerin başka bir dilde eşdeğer kelimeleri yoktur ve birçok kelimenin birden fazla anlamı vardır.

Bu sorunu korpus istatistiksel ve sinirsel tekniklerle çözmek, daha iyi çevirilere, dilbilimsel tipolojideki farklılıkların ele alınmasına , deyimlerin çevirisine ve anormalliklerin yalıtılmasına yol açan hızla büyüyen bir alandır .

Mevcut makine çevirisi yazılımı, genellikle etki alanına veya mesleğe göre ( hava durumu raporları gibi ) özelleştirmeye izin vererek, izin verilen ikamelerin kapsamını sınırlayarak çıktıyı iyileştirir. Bu teknik, özellikle resmi veya kalıplaşmış dilin kullanıldığı alanlarda etkilidir. Devlet ve yasal belgelerin makine çevirisinin, konuşma veya daha az standartlaştırılmış metinden daha kolay kullanılabilir çıktı ürettiğini izler.

İyileştirilmiş çıktı kalitesi de insan müdahalesi ile elde edilebilir: örneğin, kullanıcı metindeki hangi kelimelerin özel adlar olduğunu açık bir şekilde tanımlamışsa , bazı sistemler daha doğru tercüme edebilir . Bu tekniklerin yardımıyla MT'nin insan çevirmenlere yardımcı olacak bir araç olarak yararlı olduğu kanıtlanmıştır ve çok sınırlı sayıda durumda olduğu gibi kullanılabilecek çıktılar bile üretebilir (örneğin hava durumu raporları).

Makine çevirisinin ilerlemesi ve potansiyeli, tarihi boyunca çok tartışıldı. 1950'lerden bu yana, başta Yehoshua Bar-Hillel olmak üzere bir dizi akademisyen, yüksek kalitede tam otomatik makine çevirisi elde etme olasılığını sorguladı.

Tarih

kökenler

Makine çevirisinin kökenleri, modern makine çevirisinde kullanılan kriptanaliz , frekans analizi ve olasılık ve istatistik dahil olmak üzere sistemik dil çevirisi için teknikler geliştiren 9. yüzyıl Arap kriptografı Al-Kindi'nin çalışmalarına kadar uzanabilir . Makine çevirisi fikri daha sonra 17. yüzyılda ortaya çıktı. 1629'da René Descartes , bir sembolü paylaşan farklı dillerde eşdeğer fikirlerin olduğu evrensel bir dil önerdi.

Doğal dillerin çevirisi için dijital bilgisayarların kullanılması fikri, 1946 gibi erken bir tarihte İngiltere'nin AD Booth ve Warren Weaver tarafından aynı zamanda Rockefeller Vakfı'nda önerildi . " Warren Weaver tarafından 1949'da yazılan muhtıra , makine çevirisinin ilk günlerinde belki de en etkili yayındır." Diğerleri izledi. 1954'te Birkbeck Koleji'nde ( Londra Üniversitesi ) APEXC makinesinde İngilizce'nin Fransızca'ya ilkel bir çevirisinin bir gösterimi yapıldı . O zamanlar konuyla ilgili birkaç makale ve hatta popüler dergilerde makaleler yayınlandı (örneğin, Wireless World'ün Eylül 1955 sayısında Cleave ve Zacharov'un bir makalesi ). O dönemde Birkbeck Koleji'nde de öncülük edilen benzer bir uygulama, bilgisayarla Braille metinleri okumak ve oluşturmaktı .

1950'ler

Alandaki ilk araştırmacı olan Yehoshua Bar-Hillel , araştırmasına MIT'de başladı (1951). Profesör Michael Zarechnak liderliğindeki bir Georgetown Üniversitesi MT araştırma ekibi, 1954'te Georgetown-IBM deney sisteminin halka açık bir gösterimi ile (1951) izledi . MT araştırma programları Japonya ve Rusya'da (1955) ortaya çıktı ve ilk MT konferansı yapıldı. Londra'da düzenlendi (1956).

David G. Hays "bilgisayar destekli dil işleme hakkında 1957 gibi erken bir tarihte yazdı" ve " Rand'da 1955'ten 1968'e kadar hesaplamalı dilbilim konusunda proje lideriydi ."

1960–1975

ABD'de Makine Çevirisi ve Hesaplamalı Dilbilim Derneği (1962) ve Ulusal Bilimler Akademisi, MT'yi incelemek için Otomatik Dil İşleme Danışma Komitesi'ni (ALPAC) (1964) oluşturduğundan, araştırmacılar alana katılmaya devam ettiler. Bununla birlikte, gerçek ilerleme çok daha yavaştı ve on yıllık araştırmanın beklentileri karşılayamadığını tespit eden ALPAC raporundan (1966) sonra , finansman büyük ölçüde azaldı. Savunma Araştırmaları ve Mühendisliği (DDR&E) Direktörü tarafından hazırlanan 1972 tarihli bir rapora göre, büyük ölçekli MT'nin fizibilitesi, Logos MT sisteminin bu çatışma sırasında askeri kılavuzları Vietnamca'ya çevirmedeki başarısıyla yeniden kuruldu.

Fransız Tekstil Enstitüsü ayrıca özetleri Fransızca, İngilizce, Almanca ve İspanyolca'ya çevirmek için MT'yi kullandı (1970); Brigham Young Üniversitesi, Mormon metinlerini otomatik çeviri yoluyla çevirmek için bir proje başlattı (1971).

1975 ve sonrası

1960'larda "ABD hükümetinin sözleşmeleri kapsamında alana öncülük eden" SYSTRAN , Xerox tarafından teknik kılavuzları çevirmek için kullanıldı (1978). 1980'lerin sonundan başlayarak, hesaplama gücü arttıkça ve daha ucuz hale geldikçe, makine çevirisi için istatistiksel modellere daha fazla ilgi gösterildi . MT, bilgisayarların ortaya çıkışından sonra daha popüler hale geldi. SYSTRAN'ın ilk uygulama sistemi, 1988 yılında Fransız Posta Servisi'nin Minitel adlı çevrimiçi servisi tarafından hayata geçirildi . Çeviri Belleği teknolojisini ilk geliştiren ve pazarlayan (1989) Trados (1984) dahil olmak üzere çeşitli bilgisayar tabanlı çeviri şirketleri de piyasaya sürüldü, ancak bu MT ile aynı değil. Rusça / İngilizce / Almanca-Ukraynaca için ilk ticari MT sistemi Kharkov Devlet Üniversitesi'nde (1991) geliştirildi.

1998'e gelindiğinde, "29,95 $ gibi düşük bir fiyata" bir kişi "İngilizce ile seçtiğiniz ana Avrupa dili arasında tek yönde çeviri yapmak için bir program satın alarak" bir bilgisayarda çalıştırılabilirdi.

Web'de MT, küçük metinlerin ücretsiz çevirisini sunan SYSTRAN (1996) ile başladı ve ardından bunu, günde 500.000 istek alan (1997) AltaVista Babelfish aracılığıyla sağladı. Web'deki ikinci ücretsiz çeviri hizmeti Lernout & Hauspie'nin GlobaLink'iydi. Atlantic Magazine 1998'de "Systran'dan Babelfish ve GlobaLink'ten Comprende"nin "Güvenme"yi "yeterli bir performans"la ele aldığını yazdı.

Franz Josef Och (Google'da Çeviri Geliştirme bölümünün gelecekteki başkanı) DARPA'nın hızlı MT yarışmasını kazandı (2003). Bu süre zarfında daha fazla yenilik, MOSES, açık kaynaklı istatistiksel MT motoru (2007), Japonya'da cep telefonları için bir metin/SMS çeviri hizmeti (2008) ve İngilizce için yerleşik konuşmadan konuşmaya çeviri işlevine sahip bir cep telefonu içeriyordu. , Japonca ve Çince (2009). 2012'de Google, Google Translate'in bir günde 1 milyon kitabı dolduracak kadar kabaca metin çevirdiğini duyurdu .

Çeviri süreci

İnsan çeviri süreci şu şekilde tanımlanabilir:

  1. Decoding anlamını ait kaynak metin ; ve
  2. Yeniden kodlama bu anlam hedef dilde.

Bu görünüşte basit prosedürün arkasında karmaşık bir bilişsel işlem yatmaktadır . Kaynak metnin anlamını bütünüyle çözmek için , çevirmen metnin tüm özelliklerini yorumlamalı ve analiz etmelidir ; bu, kaynak dilin grameri , semantiği , sözdizimi , deyimler vb. hakkında derinlemesine bilgi gerektiren bir süreçtir . , hem de konuşmacılarının kültürü. Çevirmen, hedef dildeki anlamı yeniden kodlamak için aynı derinlemesine bilgiye ihtiyaç duyar.

Makine çevirisindeki zorluk burada yatıyor: Bir metni bir kişinin yaptığı gibi "anlayacak" ve hedef dilde bir kişi tarafından yazılmış gibi görünen yeni bir metin "yaratacak" bir bilgisayarın nasıl programlanacağı . Bir 'bilgi tabanı' tarafından desteklenmedikçe, MT, orijinal metnin kusurlu olmasına rağmen yalnızca genel bir yaklaşımını sağlar ve metnin "özünü" ("öz" olarak adlandırılan bir süreç) elde eder. Bu, toplam doğruluğun vazgeçilmez olduğu durumlar için ayrılmış, bir insan çevirmenin sınırlı ve pahalı zamanını en iyi şekilde kullanmak da dahil olmak üzere birçok amaç için yeterlidir.

Yaklaşımlar

Bernard Vauquois'in piramidi, karşılaştırmalı aracı temsil derinliklerini , zirvede diller arası makine çevirisini , ardından aktarıma dayalı, ardından doğrudan çeviriyi gösteriyor.

Makine çevirisi, dil kurallarına dayalı bir yöntem kullanabilir , bu, kelimelerin dilsel bir şekilde çevrileceği anlamına gelir - hedef dilin en uygun (sözlü konuşma) kelimeleri, kaynak dildekilerin yerini alacaktır.

Makine çevirisinin başarısının, önce doğal dil anlama sorununun çözülmesini gerektirdiği sıklıkla tartışılır .

Genel olarak, kural tabanlı yöntemler bir metni ayrıştırır, genellikle hedef dildeki metnin oluşturulduğu aracı, sembolik bir temsil oluşturur. Aracı temsilin niteliğine göre bir yaklaşım, diller arası makine çevirisi veya aktarım tabanlı makine çevirisi olarak tanımlanmaktadır . Bu yöntemler , morfolojik , sözdizimsel ve anlamsal bilgiler içeren kapsamlı sözlükler ve büyük kurallar kümesi gerektirir.

Yeterli veri verildiğinde, makine çevirisi programları genellikle bir dili anadili olarak konuşan birinin diğer anadili tarafından yazılanların yaklaşık anlamını elde etmesi için yeterince iyi çalışır . Zorluk, belirli yöntemi desteklemek için doğru türden yeterli veriyi elde etmektir. Örneğin, istatistiksel yöntemlerin çalışması için gereken çok dilli büyük veri külliyatı , dilbilgisine dayalı yöntemler için gerekli değildir. Ama sonra, dilbilgisi yöntemleri, kullandıkları dilbilgisini dikkatli bir şekilde tasarlamak için yetenekli bir dilbilimciye ihtiyaç duyar.

Yakın ilişkili diller arasında çeviri yapmak için kural tabanlı makine çevirisi olarak adlandırılan teknik kullanılabilir.

kural tabanlı

Kural tabanlı makine çevirisi paradigması, aktarım tabanlı makine çevirisi, diller arası makine çevirisi ve sözlük tabanlı makine çevirisi paradigmalarını içerir. Bu çeviri türü daha çok sözlüklerin ve dilbilgisi programlarının oluşturulmasında kullanılır . Diğer yöntemlerden farklı olarak, RBMT, her iki dilin morfolojik ve sözdizimsel kurallarını ve anlamsal analizini kullanarak kaynak ve hedef dillerin dilbilimi hakkında daha fazla bilgi içerir . Temel yaklaşım, kaynak dil için bir ayrıştırıcı ve çözümleyici, hedef dil için bir üreteç ve gerçek çeviri için bir aktarım sözlüğü kullanarak giriş cümlesinin yapısı ile çıkış cümlesinin yapısı arasında bağlantı kurmayı içerir. RBMT'nin en büyük dezavantajı, her şeyin açık hale getirilmesi gerektiğidir: imla değişikliği ve hatalı giriş, bununla başa çıkabilmek için kaynak dil çözümleyicisinin bir parçası haline getirilmelidir ve tüm belirsizlik örnekleri için sözcük seçim kuralları yazılmalıdır. Temel dilbilgisi, alanlar arasında aynı olduğundan ve alana özgü ayarlama, sözcük seçimi ayarlamasıyla sınırlı olduğundan, kendi içinde yeni alanlara uyum sağlamak o kadar da zor değildir.

Transfer tabanlı makine çevirisi

Aktarım tabanlı makine çevirisi, orijinal cümlenin anlamını simüle eden bir ara temsilden bir çeviri oluşturması bakımından diller arası makine çevirisine benzer . Diller arası MT'den farklı olarak, kısmen çeviride yer alan dil çiftine bağlıdır.

diller arası

Diller arası makine çevirisi, kural tabanlı makine çevirisi yaklaşımlarının bir örneğidir. Bu yaklaşımda kaynak dil, yani çevrilecek metin, diller arası bir dile, yani herhangi bir dilden bağımsız "dilden bağımsız" bir temsile dönüştürülür. Hedef dil daha sonra interlingua'dan üretilir . Bu sistemin en büyük avantajlarından biri, dönüştürülebilen hedef dil sayısı arttıkça interlingua'nın daha değerli hale gelmesidir. Ancak, ticari düzeyde işlevsel hale getirilmiş tek diller arası makine çevirisi sistemi, Caterpillar Teknik İngilizcesini (CTE) diğer dillere çevirmek için tasarlanmış KANT sistemidir (Nyberg ve Mitamura, 1992).

Sözlük tabanlı

Makine çevirisi, sözlük girişlerine dayalı bir yöntem kullanabilir ; bu, kelimelerin bir sözlük tarafından olduğu gibi çevrileceği anlamına gelir.

istatistiksel

İstatistiksel makine çevirisi , Kanada Hansard corpus'u, Kanada parlamentosunun İngilizce-Fransızca kaydı ve Avrupa Parlamentosu'nun kaydı olan EUROPARL gibi iki dilli metin külliyatına dayalı istatistiksel yöntemler kullanarak çeviriler üretmeye çalışır . Bu tür derlemler mevcut olduğunda, benzer metinleri çevirerek iyi sonuçlar elde edilebilir, ancak bu tür derlemler birçok dil çifti için hala nadirdir. İlk istatistiksel makine çevirisi yazılımı IBM'den CANDIDE idi . Google, SYSTRAN'ı birkaç yıl kullandı, ancak Ekim 2007'de istatistiksel bir çeviri yöntemine geçti. 2005'te Google, sistemlerini eğitmek için Birleşmiş Milletler materyallerinden yaklaşık 200 milyar kelime kullanarak dahili çeviri yeteneklerini geliştirdi; çeviri doğruluğu iyileştirildi. Google Çeviri ve benzeri istatistiksel çeviri programları, daha önce insanlar tarafından çevrilmiş yüz milyonlarca belgedeki kalıpları tespit ederek ve bulgulara dayalı akıllı tahminler yaparak çalışır. Genel olarak, belirli bir dilde ne kadar çok insan tarafından çevrilmiş belgeler mevcutsa, çevirinin iyi kalitede olması o kadar olasıdır. METIS II ve PRESEMT gibi İstatistiksel Makine çevirisine yönelik daha yeni yaklaşımlar, minimum korpus boyutu kullanır ve bunun yerine örüntü tanıma yoluyla sözdizimsel yapının türetilmesine odaklanır. Daha fazla geliştirmeyle, bu istatistiksel makine çevirisinin tek dilli bir metin bütününden çalışmasına izin verebilir. SMT'nin en büyük dezavantajı, çok sayıda paralel metne bağımlı olması, morfoloji açısından zengin dillerle ilgili sorunları (özellikle bu tür dillere çeviri yaparken ) ve tekil hataları düzeltememesidir.

Örnek tabanlı

Örnek tabanlı makine çevirisi (EBMT) yaklaşımı 1984 yılında Makoto Nagao tarafından önerildi . Örnek tabanlı makine çevirisi analoji fikrine dayanmaktadır. Bu yaklaşımda kullanılan derlem, daha önce tercüme edilmiş metinleri içeren bir derlemdir. Çevrilecek bir cümle verildiğinde, bu bütünden benzer alt cümle bileşenleri içeren cümleler seçilir. Benzer cümleler daha sonra orijinal cümlenin alt cümle bileşenlerini hedef dile çevirmek için kullanılır ve bu ifadeler tam bir çeviri oluşturmak için bir araya getirilir.

Hibrit MT

Hibrit makine çevirisi (HMT), istatistiksel ve kural tabanlı çeviri metodolojilerinin güçlü yönlerinden yararlanır. Birkaç MT kuruluşu, hem kuralları hem de istatistikleri kullanan hibrit bir yaklaşım olduğunu iddia ediyor. Yaklaşımlar çeşitli şekillerde farklılık gösterir:

  • İstatistikler tarafından sonradan işlenen kurallar : Çeviriler, kurallara dayalı bir motor kullanılarak gerçekleştirilir. İstatistikler daha sonra kural motorundan gelen çıktıyı ayarlamak/düzeltmek amacıyla kullanılır.
  • Kurallar tarafından yönlendirilen istatistikler : İstatistik motorunu daha iyi yönlendirmek amacıyla verileri önceden işlemek için kurallar kullanılır. Kurallar, normalleştirme gibi işlevleri gerçekleştirmek için istatistiksel çıktıyı sonradan işlemek için de kullanılır. Bu yaklaşım, çeviri yaparken çok daha fazla güce, esnekliğe ve kontrole sahiptir. Ayrıca, hem çeviri öncesi (örn. içeriğin ve çevrilemez terimlerin işaretlenmesi) hem de çeviri sonrası (örn. çeviri sonrası düzeltmeler ve ayarlamalar) sırasında içeriğin işlenme şekli üzerinde kapsamlı kontrol sağlar.

Daha yakın zamanlarda, Neural MT'nin ortaya çıkmasıyla birlikte, kuralların, istatistiksel ve sinirsel makine çevirisinin faydalarını birleştiren yeni bir hibrit makine çevirisi sürümü ortaya çıkıyor. Yaklaşım, kural kılavuzlu bir iş akışında ön ve son işlemeden yararlanmanın yanı sıra NMT ve SMT'den yararlanmaya da olanak tanır. Dezavantajı, yaklaşımı yalnızca belirli kullanım durumları için uygun kılan doğal karmaşıklıktır.

sinirsel MT

Bir derin öğrenme MT tabanlı yaklaşım, nöral makine çevirisi son yıllarda hızlı bir ilerleme kaydettiğini ve Google şimdi önceki istatistiksel yöntemlere göre tercih için bu teknolojiyi kullanan kendi çeviri hizmetleri açıkladı. Bir Microsoft ekibi, 2018'de WMT-2017'de ("EMNLP 2017 İkinci Makine Çevirisi Konferansı") insan paritesine ulaştığını iddia ederek tarihi bir dönüm noktasına işaret etti. Ancak birçok araştırmacı deneylerini tekrarlayarak ve tartışarak bu iddiayı eleştirmiştir; mevcut fikir birliği, elde edilen sözde insan paritesinin gerçek olmadığı, tamamen sınırlı alanlara, dil çiftlerine ve belirli test takımlarına dayalı olduğu, yani istatistiksel anlamlılık gücünden yoksun olduğudur. NMT'nin gerçek insan parite performanslarına ulaşmasına daha uzun bir yolculuk var.

Deyimsel ifade çevirisini, çok kelimeli ifadeleri ve düşük frekanslı kelimeleri (OOV veya kelime dağarcığı dışı kelime çevirisi olarak da adlandırılır) ele almak için, en son teknoloji ürünü sinir makinesinde dil odaklı dilsel özellikler araştırılmıştır. çeviri (NMT) modelleri. Örneğin, Çince karakterin radikallere ve vuruşlara ayrıştırılmasının, NMT'de çok kelimeli ifadeleri çevirmek için yararlı olduğu kanıtlanmıştır.

Büyük sorunlar

Makine çevirisi bazı anlaşılmaz ifadeler üretebilir.
Bali, Endonezya'daki makine çevirisinden bozuk Çince "沒有進入" . Bozuk Çince cümle "bir giriş yok" veya "henüz girmedim" gibi geliyor

anlam ayrımı

Kelime-anlam ayrımı, bir kelimenin birden fazla anlamı olabileceği durumlarda uygun bir çeviri bulma ile ilgilidir. Sorun ilk olarak 1950'lerde Yehoshua Bar-Hillel tarafından gündeme getirildi . "Evrensel bir ansiklopedi" olmadan, bir makinenin bir kelimenin iki anlamını asla ayırt edemeyeceğine dikkat çekti. Bugün bu sorunun üstesinden gelmek için tasarlanmış çok sayıda yaklaşım var. Yaklaşık olarak "sığ" yaklaşımlara ve "derin" yaklaşımlara ayrılabilirler.

Sığ yaklaşımlar metnin hiçbir bilgisinin olmadığını varsayar. Sadece belirsiz kelimeyi çevreleyen kelimelere istatistiksel yöntemler uygularlar. Derin yaklaşımlar, kelimenin kapsamlı bir bilgisini varsayar. Şimdiye kadar, sığ yaklaşımlar daha başarılı olmuştur.

Uzun süredir Birleşmiş Milletler ve Dünya Sağlık Örgütü'nde çevirmenlik yapan Claude Piron , makine çevirisinin en iyi ihtimalle çevirmenin işinin daha kolay kısmını otomatikleştirdiğini yazdı; sert ve zaman alıcı kısmı genellikle çözmek için kapsamlı araştırma yapmayı gerektirmemektedir fazla belirsizlikler içinde kaynak metnin , gramer ve sözcük gereklerine hedef dile çözülecek gerektirir:

Neden bir çevirmenin beş sayfayı çevirmek için bir ya da iki saate değil de bütün bir iş gününe ihtiyacı var? ..... Ortalama bir metnin yaklaşık %90'ı bu basit koşullara karşılık gelir. Ama ne yazık ki, diğer %10 var. Altı [fazla] saatlik çalışma gerektiren kısım budur. Çözmesi gereken belirsizlikler var. Örneğin, kaynak metnin yazarı Avustralyalı bir doktor, 2. Dünya Savaşı sırasında bir "Japon savaş esirleri kampında" ilan edilen bir salgın örneğini aktardı. Japon mahkumların olduğu bir Amerikan kampından mı yoksa Amerikalı mahkumların olduğu bir Japon kampından mı bahsediyordu? İngilizlerin iki duyusu vardır. Bu nedenle araştırma yapmak gerekiyor, belki Avustralya'ya yapılacak bir telefon görüşmesi boyutunda.

İdeal derin yaklaşım, çeviri yazılımının bu tür bir anlam ayrımı için gerekli tüm araştırmaları kendi başına yapmasını gerektirecektir; ancak bu , henüz elde edilenden daha yüksek bir AI derecesi gerektirecektir . Piron'un bahsettiği muğlak İngilizce ifade anlamında basitçe tahminde bulunan sığ bir yaklaşım (belki de belirli bir külliyatta hangi tür savaş esiri kampından daha sık bahsedildiğine dayanarak) makul bir yanlış tahminde bulunma şansına sahip olacaktır. sıklıkla. "Kullanıcıya her belirsizliği sormayı" içeren sığ bir yaklaşım, Piron'un tahminine göre, profesyonel bir çevirmenin işinin yalnızca yaklaşık %25'ini otomatikleştirecek ve daha zor olan %75'lik kısmın bir insan tarafından yapılmasına izin verecektir.

Standart olmayan konuşma

MT'nin en büyük tuzaklarından biri, standart olmayan dili standart dille aynı doğrulukta çevirememesidir. Sezgisel veya istatistiksel tabanlı MT, bir dilin standart biçiminde çeşitli kaynaklardan girdi alır. Kural tabanlı çeviri, doğası gereği standart dışı yaygın kullanımları içermez. Bu, yerel bir kaynaktan veya konuşma diline çeviride hatalara neden olur. Gündelik konuşmadan çeviriyle ilgili sınırlamalar, mobil cihazlarda makine çevirisinin kullanımında sorunlar yaratıyor.

Adlandırılmış varlıklar

Gelen bilgi çıkarma George Washington, Chicago, Microsoft: adında kişiler, dar anlamda, bu tür uygun bir isim olan insanlar, organizasyonlar, şirketler ve yerler olarak gerçek dünyada beton veya soyut varlıklara bakın. Aynı zamanda 1 Temmuz 2011, 500$ gibi zaman, mekan ve miktar ifadelerine de atıfta bulunur.

Cümlede hem "Smith Fabrionix başkanı" Smith ve Fabrionix varlıklar olarak adlandırılır ve ayrıca ilk adı veya diğer bilgileri aracılığıyla nitelikli olabilir; "başkan" değildir, çünkü Smith daha önce Fabrionix'te başka bir pozisyonda olabilirdi, örneğin Başkan Yardımcısı. Terimi, katı dezignatör İstatistiksel makine çeviri analiz için bu kullanımları tanımlayan şeydir.

Adlandırılmış varlıklar önce metinde tanımlanmalıdır; değilse, yanlış bir şekilde ortak isimler olarak çevrilebilirler, bu da büyük olasılıkla çevirinin BLEU derecesini etkilemez, ancak metnin insan tarafından okunabilirliğini değiştirir. Metnin okunabilirliği ve mesajı üzerinde de etkileri olabilecek olan çıktı çevirisinden çıkarılabilirler.

Harf çevirisi , kaynak dildeki isme en yakın olan hedef dildeki harfleri bulmayı içerir. Ancak bu, bazen çevirinin kalitesini kötüleştirdiği olarak belirtilmiştir. "Güney Kaliforniya" için ilk kelime doğrudan çevrilmeli, ikinci kelime ise çevrilmelidir. Makineler genellikle her ikisini de tek bir varlık olarak ele aldıkları için harf çevirisi yapar. Bunun gibi sözcükleri, harf çevirisi bileşenine sahip olanlar da dahil olmak üzere makine çevirmenleri için işlemek zordur.

Aynı nihai hedefi olan bir "çevirme" listesinin kullanılması - çevirinin aksine harf çevirisi. hala adlandırılmış varlıkların doğru tanımlanmasına dayanır.

Üçüncü bir yaklaşım, sınıf tabanlı bir modeldir. Adlandırılmış varlıklar, "sınıflarını" temsil etmek için bir belirteçle değiştirilir; "Ted" ve "Erica", "kişi" sınıfı belirteci ile değiştirilecektir. Daha sonra, "Ted" ve "Erica" ​​dağılımlarına ayrı ayrı bakmak yerine genel olarak kişi adlarının istatistiksel dağılımı ve kullanımı analiz edilebilir, böylece belirli bir dilde belirli bir adın olasılığı atanan olasılığı etkilemeyecektir. bir çeviriden. Stanford'un bu çeviri alanını geliştirmeye yönelik yaptığı bir çalışma, farklı oluşum sayıları nedeniyle hedef dil olarak İngilizce için "David yürüyüşe çıkıyor" ve "Ankit yürüyüşe çıkıyor" için farklı olasılıkların atanacağına dair örnekler veriyor. eğitim verilerindeki her isim için. Stanford tarafından yapılan aynı çalışmanın (ve adlandırılmış tanıma çevirisini iyileştirmeye yönelik diğer girişimlerin) sinir bozucu bir sonucu, birçok kez, adlandırılmış varlık çevirisi için yöntemlerin dahil edilmesinin çeviri için BLEU puanlarında bir düşüşe yol açacağıdır .

"Sütlü çay içmek" ile "Molly ile çay içmek" arasındaki ifadeler biraz ilişkilidir.

Çok paralel kaynaklardan çeviri

3 veya daha fazla dile çevrilmiş bir metin gövdesi olan multiparalel corpora'nın kullanımı konusunda bazı çalışmalar yapılmıştır . Bu yöntemleri kullanarak, 2 veya daha fazla dile çevrilmiş bir metin, bu kaynak dillerden yalnızca birinin tek başına kullanılmasına kıyasla, üçüncü bir dile daha doğru bir çeviri sağlamak için kombinasyon halinde kullanılabilir.

MT'deki ontolojiler

Bir ontoloji bir etki alanındaki ve aralarındaki bazı ilişkiler (örneğin nesnelerin, süreçler vb gibi) kavramları içerir bilginin resmi bir temsilidir. Depolanan bilgi dilsel nitelikteyse, bir sözlükten söz edilebilir. In NLP , ontolojiler makine çevirisi sistemleri için bir bilgi kaynağı olarak kullanılabilir. Geniş bir bilgi tabanına erişimle, sistemlerin birçok (özellikle sözcüksel) belirsizliği kendi başlarına çözmeleri sağlanabilir. Aşağıdaki klasik örneklerde, insanlar olarak edat cümlesini bağlama göre yorumlayabiliyoruz çünkü sözlüklerimizde saklanan dünya bilgimizi kullanıyoruz:

"Mikroskop/teleskop/dürbünlü bir adam/yıldız/molekül gördüm."

Bir makine çeviri sistemi, sözdizimi değişmediği için başlangıçta anlamlar arasında ayrım yapamayacaktır. Bununla birlikte, bir bilgi kaynağı olarak yeterince büyük bir ontoloji ile, belirli bir bağlamda belirsiz kelimelerin olası yorumları azaltılabilir. NLP içindeki ontolojilerin diğer kullanım alanları arasında bilgi alma , bilgi çıkarma ve metin özetleme yer alır .

ontolojiler oluşturmak

1993 yılında PANGLOSS bilgi tabanlı makine çeviri sistemi için oluşturulan ontoloji, NLP amaçlarına yönelik bir ontolojinin nasıl derlenebileceğinin bir örneği olabilir:

  • Makine çeviri sisteminin aktif modüllerinde ayrıştırmaya yardımcı olmak için büyük ölçekli bir ontoloji gereklidir.
  • PANGLOSS örneğinde, yaklaşık 50.000 düğümün , ontolojinin daha küçük, elle oluşturulmuş üst (soyut) bölgesi altında toplanması amaçlandı . Boyutu nedeniyle, otomatik olarak oluşturulması gerekiyordu.
  • Amaç, LDOCE çevrimiçi ve WordNet kaynaklarını birleştirerek her ikisinin faydalarını birleştirmekti: Longman'dan kısa tanımlar ve WordNet'ten ontolojiye yarı otomatik sınıflandırmaya izin veren anlamsal ilişkiler.
    • LDOCE ve WordNet'te bu anlamların tanımlarının ortak olduğu kelimelere dayalı olarak, iki çevrimiçi kaynak arasında belirsiz kelimelerin doğru anlamlarını otomatik olarak birleştirmek için bir tanım eşleştirme algoritması oluşturuldu. Bir benzerlik matrisi kullanan algoritma, bir güven faktörü de dahil olmak üzere anlamlar arasında eşleşmeler sağladı. Ancak bu algoritma tek başına tüm anlamları tek başına doğru bir şekilde eşleştirmedi.
    • Bu nedenle, WordNet'te (derin hiyerarşiler) ve kısmen LDOCE'de (düz hiyerarşiler) bulunan taksonomik hiyerarşileri kullanan ikinci bir hiyerarşi eşleştirme algoritması oluşturuldu. Bu, önce belirsiz olmayan anlamları eşleştirerek, ardından arama alanını yalnızca eşleşen anlamların ilgili ataları ve torunlarıyla sınırlandırarak çalışır. Böylece, algoritma yerel olarak belirsiz olmayan anlamlarla eşleşir (örneğin, mühür sözcüğü bu haliyle belirsiz iken,
    hayvan alt hiyerarşisinde "mühür" ün yalnızca bir anlamı vardır ).
  • Her iki algoritma da birbirini tamamladı ve makine çeviri sistemi için büyük ölçekli bir ontoloji oluşturmaya yardımcı oldu. LDOCE'nin eşleşen tanımlarıyla birleştirilen WordNet hiyerarşileri, ontolojinin üst bölgesine tabi kılındı . Sonuç olarak, PANGLOSS MT sistemi, bu bilgi tabanından, özellikle üretim öğesinde faydalanabildi.
  • Uygulamalar

    Hiçbir sistem, sınırsız metnin tam otomatik yüksek kaliteli makine çevirisinin kutsal kâsesini sağlamazken, birçok tam otomatik sistem makul çıktılar üretir. Etki alanı kısıtlanır ve kontrol edilirse, makine çevirisinin kalitesi önemli ölçüde iyileşir.

    Doğal sınırlamalarına rağmen, MT programları dünya çapında kullanılmaktadır. Muhtemelen en büyük kurumsal kullanıcı Avrupa Komisyonu'dur . NSÖrneğin, Göteborg Üniversitesi tarafından koordine edilen MOLTO projesi,AB dillerinin çoğunu kapsayan güvenilir bir çeviri aracı oluşturmak için AB'den 2.375 milyon Euro'dan fazla proje desteği aldı. MT sistemlerinin daha da geliştirilmesi, insan çevirisinde bütçe kesintilerinin AB'nin güvenilir MT programlarına bağımlılığını artırabileceği bir zamanda geliyor. Avrupa Komisyonu, önceki bir kural tabanlı makine çevirisi sisteminin yerini almak üzere, AB'nin idari ihtiyaçlarına göre uyarlanmış bir istatistiksel makine çevirisi programı olan MT@EC'nin oluşturulması için (ISA programı aracılığıyla) 3.072 milyon Euro katkıda bulunmuştur.

    2005 yılında Google , özel bir istatistiksel makine çevirisi motoru kullanılarak umut verici sonuçların elde edildiğini iddia etti. Google dil araçlarında Arapça <-> İngilizce ve Çince <-> İngilizce için kullanılan istatistiksel çeviri motoru , National tarafından yürütülen testlerde ikinci olan IBM'in BLEU -4 puanı olan 0.3954 (Yaz 2006) üzerinde toplam 0.4281 puan aldı. Standartlar ve Teknoloji Enstitüsü.

    Son zamanlarda teröre odaklanılmasıyla birlikte, Amerika Birleşik Devletleri'ndeki askeri kaynaklar, doğal dil mühendisliğine önemli miktarda para yatırıyor. In-Q-Tel ( özel sektör girişimcileri aracılığıyla yeni teknolojileri teşvik etmek için büyük ölçüde ABD İstihbarat Topluluğu tarafından finanse edilen bir risk sermayesi fonu) Language Weaver gibi şirketler yetiştirdi . Şu anda askeri topluluk Arapça , Peştuca ve Dari gibi dillerin tercümesi ve işlenmesi ile ilgileniyor . Bu dillerde, cep telefonu uygulamalarının kullanımı yoluyla askeri üyeler ve siviller arasında anahtar ifadeler ve hızlı iletişim üzerinde duruluyor. DARPA'daki Bilgi İşlem Teknoloji Ofisi, TIDES ve Babylon çevirmeni gibi programlara ev sahipliği yapıyor . ABD Hava Kuvvetleri, bir dil çeviri teknolojisi geliştirmek için 1 milyon dolarlık bir sözleşme imzaladı.

    Son yıllarda web'de sosyal ağların kayda değer yükselişi, Facebook gibi yardımcı programlarda veya Skype, GoogleTalk, MSN Messenger, vb. gibi anlık mesajlaşma istemcilerinde , makine çevirisi yazılımının uygulanması için başka bir niş yarattı . birbirleriyle iletişim kurmak için farklı diller. Cep telefonları, cep bilgisayarları, PDA'lar vb. dahil olmak üzere çoğu mobil cihaz için makine çevirisi uygulamaları piyasaya sürüldü. Taşınabilirliklerinden dolayı, bu tür araçlar, farklı dilleri konuşan ortaklar arasında mobil iş ağı kurmayı sağlayan mobil çeviri araçları olarak belirlenmiş hale geldi veya insan tercüman aracılığına ihtiyaç duymadan hem yabancı dil öğrenimini hem de yabancı ülkelere refakatsiz seyahat etmeyi kolaylaştırıyor.

    Amerika Birleşik Devletleri hükümeti tarafından bir araya getirilen Otomatik Dil İşleme Danışma Komitesi tarafından 1966'da insan çevirisine layık olmayan bir rakip olarak etiketlenmesine rağmen, makine çevirisinin kalitesi artık çevrimiçi işbirliğinde ve tıp alanında uygulanmasının mümkün olduğu seviyelere yükseltilmiştir. araştırılıyor. Bu teknolojinin insan çevirmenlerin bulunmadığı tıbbi ortamlarda uygulanması başka bir araştırma konusudur, ancak tıbbi teşhislerde doğru çevirilerin önemi nedeniyle zorluklar ortaya çıkmaktadır.

    Değerlendirme

    Makine çeviri sistemlerinin nasıl değerlendirildiğini etkileyen birçok faktör vardır. Bu faktörler, çevirinin kullanım amacını, makine çevirisi yazılımının yapısını ve çeviri sürecinin doğasını içerir.

    Farklı programlar farklı amaçlar için iyi çalışabilir. Örneğin, istatistiksel makine çevirisi (SMT) tipik olarak örnek tabanlı makine çevirisinden (EBMT) daha iyi performans gösterir , ancak araştırmacılar, İngilizce'den Fransızca'ya çeviriyi değerlendirirken EBMT'nin daha iyi performans gösterdiğini buldu. Aynı kavram, resmi dilleri nedeniyle SMT tarafından daha kolay çevrilebilen teknik belgeler için de geçerlidir.

    Bununla birlikte, belirli uygulamalarda, örneğin kontrollü bir dilde yazılmış ürün açıklamalarında , sözlük tabanlı bir makine çeviri sistemi, kalite denetimi dışında insan müdahalesi gerektirmeyen tatmin edici çeviriler üretmiştir.

    Makine çevirisi sistemlerinin çıktı kalitesini değerlendirmek için çeşitli araçlar vardır. En eskisi, bir çevirinin kalitesini değerlendirmek için insan yargıçların kullanılmasıdır. İnsan değerlendirmesi zaman alıcı olsa da, kural tabanlı ve istatistiksel sistemler gibi farklı sistemleri karşılaştırmak için hala en güvenilir yöntemdir. Otomatik değerlendirme araçları arasında BLEU , NIST , METEOR ve LEPOR bulunur .

    Yalnızca düzenlenmemiş makine çevirisine güvenmek, insan dilindeki iletişimin bağlama gömülü olduğu ve bir kişinin orijinal metnin bağlamını makul bir olasılıkla anlaması gerektiği gerçeğini görmezden gelir . Tamamen insan kaynaklı çevirilerin bile hataya açık olduğu kesinlikle doğrudur. Bu nedenle, makine tarafından üretilen bir çevirinin bir insan için faydalı olmasını ve yayınlanabilir kalitede çevirinin elde edilmesini sağlamak için, bu tür çevirilerin bir insan tarafından gözden geçirilmesi ve düzenlenmesi gerekir. Merhum Claude Piron , makine çevirisinin en iyi ihtimalle bir çevirmenin işinin daha kolay olan kısmını otomatik hale getirdiğini yazdı; sert ve zaman alıcı genellikle kısmını çözmek için kapsamlı araştırma yapıyor içerir daha belirsizliklere de kaynak metnin , gramer ve sözcük hedef dilin gereklerine gerektiren çözülecek. Bu tür bir araştırma, çıktının anlamsız olmayacağı şekilde makine-çeviri yazılımına girdi sağlamak için gerekli ön düzenleme için gerekli bir başlangıçtır .

    Belirsizliği giderme sorunlarına ek olarak, makine çeviri programları için değişen eğitim verileri seviyeleri nedeniyle doğrulukta azalma meydana gelebilir. Hem örnek tabanlı hem de istatistiksel makine çevirisi, çeviri için bir temel olarak çok sayıda gerçek örnek cümleye dayanır ve çok fazla veya çok az cümle analiz edildiğinde doğruluk tehlikeye girer. Araştırmacılar, bir program 203.529 cümle eşleştirmesi üzerine eğitildiğinde, doğruluğunun aslında azaldığını buldu. Eğitim verilerinin optimal seviyesi 100.000 cümlenin biraz üzerinde gibi görünüyor, çünkü muhtemelen eğitim verileri arttıkça olası cümle sayısı artıyor ve tam bir çeviri eşleşmesi bulmayı zorlaştırıyor.

    Bir öğretim aracı olarak makine çevirisini kullanma

    Makine çevirisinin doğruluğu konusunda endişeler olsa da, Manchester Üniversitesi'nden Dr. Ana Nino, sınıfta makine çevirisi kullanmanın bazı avantajlarını araştırdı. Böyle bir pedagojik yönteme "Kötü Bir Model Olarak MT"nin kullanılması denir. Kötü Model Olarak MT, dil öğrenicisini bir çevirinin tutarsızlıklarını veya yanlış yönlerini belirlemeye zorlar; buna karşılık, birey (umarım) dili daha iyi kavrayacaktır. Dr. Nino, bu öğretim aracının 1980'lerin sonlarında uygulandığından bahseder. Çeşitli dönemlerin sonunda, Dr. Nino, MT'yi Kötü Model (ve diğer modeller) olarak kullanan öğrencilerden anket sonuçları elde edebildi. Ezici bir şekilde, öğrenciler daha iyi anlama, sözcüksel geri getirme ve artış gözlemlediklerini hissettiler. hedef dilde güven.

    Makine çevirisi ve işaretli diller

    2000'lerin başında, konuşulan ve işaretli diller arasında makine çevirisi seçenekleri oldukça sınırlıydı. Sağır bireylerin geleneksel çevirmenleri kullanabileceği yaygın bir inançtı. Ancak vurgu, tonlama, perde ve zamanlama, konuşulan dillerde işaretli dillere kıyasla çok daha farklı aktarılır. Bu nedenle, sağır bir kişi, konuşulan bir dile dayanan yazılı metnin anlamı hakkında yanlış yorumlayabilir veya kafası karışabilir.

    Araştırmacılar Zhao, et al. (2000), İngilizce'den Amerikan İşaret Dili'ne (ASL) çevirileri tamamlayan TEAM (makine ile İngilizce'den ASL'ye çeviri) adlı bir prototip geliştirdi . Program önce İngilizce metnin sözdizimsel, dilbilgisel ve biçimbilimsel yönlerini analiz eder. Bu adımın ardından program, ASL için sözlük işlevi gören bir işaret sentezleyiciye erişti. Bu sentezleyici, ASL işaretlerini tamamlamak için izlenmesi gereken süreci ve bu işaretlerin anlamlarını barındırıyordu. Metnin tamamı analiz edildikten ve çeviriyi tamamlamak için gerekli işaretler sentezleyiciye yerleştirildikten sonra, bilgisayar tarafından oluşturulan bir insan ortaya çıktı ve İngilizce metni kullanıcıya imzalamak için ASL kullanacaktı.

    Telif hakkı

    Sadece eserler şunlardır orijinal tabidir telif bazı bilim adamları MT içermeyen çünkü makine çevirisi sonuçları telif hakkı koruması hakkına sahip değildir iddia yüzden, koruma yaratıcılık . Söz konusu telif hakkı türev bir çalışma içindir ; Orijinal eserin orijinal dilindeki yazarı, bir eser tercüme edildiğinde haklarını kaybetmez : Bir tercümanın tercümeyi yayımlama iznine sahip olması gerekir .

    Ayrıca bakınız

    Notlar

    daha fazla okuma

    Dış bağlantılar