Paralel metin - Parallel text
Bir paralel metin çevirisinin veya çevirileri yanında yerleştirilmiş bir metindir. Paralel metin hizalama , paralel metnin her iki yarısındaki karşılık gelen cümlelerin tanımlanmasıdır. Loeb Classical Library ve Kil Sanskritçe Kütüphane metinleri çift dilli serisinin iki örnektir. Referans İncilleri , karşılaştırma ve inceleme kolaylığı için orijinal dilleri ve bir çeviriyi veya kendi başlarına birkaç çeviri içerebilir; Origen 'ın Hexapla ( 'altı kat' Yunanca) yan Eski Ahit tarafının altı versiyonlarını yerleştirilir. Ünlü bir örnek , keşfi Eski Mısır dilinin deşifre edilmeye başlamasına izin veren Rosetta Taşıdır .
Paralel Metinlerin Büyük koleksiyonları denir paralel korpus (bkz metin corpus ). Paralel derlemlerin cümle düzeyinde hizalanması, dilbilimsel araştırmaların birçok alanı için ön koşuldur . Çeviri sırasında cümleler, çevirmen tarafından bölünebilir, birleştirilebilir, silinebilir, eklenebilir veya yeniden sıralanabilir. Bu, hizalamayı önemsiz olmayan bir görev haline getirir.
Paralel corpora türleri
Paralel korporalar dört ana kategoride sınıflandırılabilir:
- Bir paralel korpus cümle düzeyinde en az hizalanmış iki veya daha fazla dilde aynı belgenin, çevirileri içerir. Bunlar, daha az karşılaştırılabilir corporalardan daha nadir olma eğilimindedir.
- Bir gürültülü paralel korpus mükemmel hizalanmış veya kalitesiz çeviriler var olmayan iki dilli cümleler içerir. Bununla birlikte, içeriğinin çoğu, belirli bir belgenin iki dilli çevirileridir.
- Bir karşılaştırılabilir korpus olmayan cümle bağlantısız ve çevrilmemiş iki dilli belgelerden inşa edilmiştir, ancak belgelerin konu hizalanmış bulunmaktadır.
- Bir yarı-karşılaştırılabilir korpus veya konu hizalı olabilir ya da olmayabilir çok heterojen ve paralel olmayan ikinci dil belgeleri içermektedir.
Şirket içi gürültü
Makine çevirisi algoritmaları için eğitim setleri olarak kullanılan büyük derlemler , genellikle, benzer olayları açıklayan birinci ve ikinci dillerde yazılmış haber makalelerinin veri tabanları gibi benzer kaynaklardan oluşan büyük gövdelerden çıkarılır.
Bununla birlikte, çıkarılan parçalar, her bir bütünceye ek öğeler eklendiğinde gürültülü olabilir. Çıkarma teknikleri, iki dilli öğelerin daha temiz paralel parçalarını çıkarmak için hem bütüncede temsil edilen iki dilli öğeler hem de yalnızca bir bütüncede temsil edilen tek dilli öğeler arasında ayrım yapabilir . Karşılaştırılabilir derlemler, çeviri amacıyla doğrudan bilgi elde etmek için kullanılır. Bununla birlikte, özellikle yetersiz kaynaklı diller için yüksek kaliteli paralel veri elde etmek zordur.
bit metin
Alanında çeviri çalışmaları bir bitext verilen bir metnin hem kaynak olmayan ve hedef-dil sürümleri oluşan birleştirilmiş bir belgedir.
Bitext'ler, hizalama aracı veya aynı metnin orijinal ve çevrilmiş sürümlerini otomatik olarak hizalayan bir bitext aracı olarak adlandırılan bir yazılım parçası tarafından oluşturulur . Araç genellikle bu iki metni cümle cümle eşleştirir. Bir bit metinler koleksiyonuna, bir biteks veritabanı veya iki dilli bir bütünce denir ve bir arama aracıyla danışılabilir.
Bittext'ler ve çeviri bellekleri
Bittext'lerin çeviri bellekleri ile bazı benzerlikleri vardır. En göze çarpan fark, bir çeviri belleğinin orijinal bağlamı kaybetmesi, bir bit metnin ise orijinal cümle sırasını korumasıdır. Bununla birlikte, bilgisayar destekli çeviri (CAT) programları arasında çeviri belleklerini değiş tokuş etmek için standart bir XML biçimi olan Çeviri Belleği eXchange (TMX) gibi bazı çeviri belleği uygulamaları , orijinal cümle sırasının korunmasına izin verir.
Bittext'ler, bir makine tarafından değil, bir insan tercüman tarafından danışılmak üzere tasarlanmıştır . Bu nedenle, bir çeviri belleğinin başarısız olmasına neden olacak küçük hizalama hataları veya küçük tutarsızlıklar önemli değildir.
Harris, 1988 tarihli orijinal makalesinde ayrıca, bitext'in çevirmenlerin kaynak ve hedef metinleri ilerledikçe zihinsel işleyen belleklerinde nasıl bir arada tuttuklarını temsil ettiğini öne sürdü. Ancak, bu hipotez takip edilmemiştir.
Çevrimiçi bit metinler ve çeviri bellekleri de çağrılabilir çevrimiçi iki dilli uyumlar. Linguée , Reverso ve Tradooit dahil olmak üzere pek çoğu herkese açık Web'de mevcuttur .
Ayrıca bakınız
- iki dilli yazıt
- Bilgisayar destekli inceleme
- Örnek tabanlı makine çevirisi
- Doğal dil işleme
- Çok dilli (kitap)
- yakut karakter
- İstatistiksel makine çevirisi
Referanslar
Dış bağlantılar
paralel corpora
- Avrupa Birliği (AB) hukukunun genel yapısının JRC-Müktesebatı Çok Dilli Paralel Derlemi : 231 dil çifti ile Müktesebat .
- Avrupa Parlamentosu Tutanakları Parallel Corpus 1996-2011
- Opus projesi, ücretsiz olarak erişilebilen paralel corpora toplamayı amaçlamaktadır.
- Japonca-İngilizce İki Dilli Wikipedia'nın Kyoto Maddeleri Derlemi
- COMPARA - Portekizce/İngilizce paralel corpora
- TERMSEARCH - İngilizce/Rusça/Fransızca paralel külliyat (Büyük uluslararası anlaşmalar, sözleşmeler, anlaşmalar vb.
- TradooIT - İngilizce/Fransızca/İspanyolca - Ücretsiz Çevrimiçi araçlar
- Nunavut Hansard - İngilizce/Inuktitut paralel corpus
- ParaSol - Slav ve diğer dillerin paralel bir külliyatı
- Glosbe: Çevrimiçi arama arayüzüne sahip çok dilli paralel corpora
- InterCorp: Çekçe ile uyumlu 40 dilde çok dilli paralel bir külliyat , çevrimiçi arama arayüzü
- myCAT - Olanto , concordancer (açık kaynak AGPL), JCR ve UNO corpus üzerinde çevrimiçi arama ile
- TAUS , çevrimiçi arama arayüzü ile.
- linguatools çok dilli paralel corpora, çevrimiçi arama arayüzü.
- EUR-Lex Corpus - korpus arasında inşa EUR-Lex veritabanı oluşur Avrupa Birliği hukuku ve diğer kamu belgelerine Avrupa Birliği
- Dil Izgarası - Paralel metin hizmetlerini içeren çok dilli hizmet platformu
belgeler
- Paralel metin işleme bibliyografyası J. Veronis ve M.-D. mahimon
- 2003 Paralel Metinler Oluşturma ve Kullanma Çalıştayı Tutanakları
- 2005 Paralel Metinler Oluşturma ve Kullanma Çalıştayı Tutanakları
Hizalama araçları
- GIZA++ hizalama aracı (1999)
- Uplug - paralel corpora işlemek için araçlar (2003)
- Gale ve Church cümle hizalama algoritmasının bir uygulaması (2005)
- Hunalign cümle hizalayıcı (2005)
- Şampolyon (2006)
- MALIGna (2008 - 2020)
- Gargantua cümle hizalayıcı (2010)
- Bluealign - makine çevirisi tabanlı cümle hizalama (2010)
- YASA (2013)
- Hiyerarşik hizalama aracı (HAT) (2018)
- Vecalign cümle hizalama algoritması (2019)
- Grenoble Üniversitesi'nde Web Hizalama Aracı
- ^ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaz Erjavec; Dan Tufiş; Daniel Varga (2006). JRC-Müktesebatı: 20'den fazla dile sahip çok dilli bir paralel yapı . 5. Uluslararası Dil Kaynakları ve Değerlendirme Konferansı Tutanakları (LREC'2006). Cenova, İtalya, 24-26 Mayıs 2006 .