Paralel metin - Parallel text

Rosetta Stone , bir stel aynı Her iki kararname ile kazınmış Eski Mısır komut yanı sıra Antik Yunanca . Keşfi, Eski Mısır dilini deşifre etmenin anahtarıydı .

Bir paralel metin çevirisinin veya çevirileri yanında yerleştirilmiş bir metindir. Paralel metin hizalama , paralel metnin her iki yarısındaki karşılık gelen cümlelerin tanımlanmasıdır. Loeb Classical Library ve Kil Sanskritçe Kütüphane metinleri çift dilli serisinin iki örnektir. Referans İncilleri , karşılaştırma ve inceleme kolaylığı için orijinal dilleri ve bir çeviriyi veya kendi başlarına birkaç çeviri içerebilir; Origen 'ın Hexapla ( 'altı kat' Yunanca) yan Eski Ahit tarafının altı versiyonlarını yerleştirilir. Ünlü bir örnek , keşfi Eski Mısır dilinin deşifre edilmeye başlamasına izin veren Rosetta Taşıdır .

Paralel Metinlerin Büyük koleksiyonları denir paralel korpus (bkz metin corpus ). Paralel derlemlerin cümle düzeyinde hizalanması, dilbilimsel araştırmaların birçok alanı için ön koşuldur . Çeviri sırasında cümleler, çevirmen tarafından bölünebilir, birleştirilebilir, silinebilir, eklenebilir veya yeniden sıralanabilir. Bu, hizalamayı önemsiz olmayan bir görev haline getirir.

Paralel corpora türleri

Paralel korporalar dört ana kategoride sınıflandırılabilir:

  • Bir paralel korpus cümle düzeyinde en az hizalanmış iki veya daha fazla dilde aynı belgenin, çevirileri içerir. Bunlar, daha az karşılaştırılabilir corporalardan daha nadir olma eğilimindedir.
  • Bir gürültülü paralel korpus mükemmel hizalanmış veya kalitesiz çeviriler var olmayan iki dilli cümleler içerir. Bununla birlikte, içeriğinin çoğu, belirli bir belgenin iki dilli çevirileridir.
  • Bir karşılaştırılabilir korpus olmayan cümle bağlantısız ve çevrilmemiş iki dilli belgelerden inşa edilmiştir, ancak belgelerin konu hizalanmış bulunmaktadır.
  • Bir yarı-karşılaştırılabilir korpus veya konu hizalı olabilir ya da olmayabilir çok heterojen ve paralel olmayan ikinci dil belgeleri içermektedir.

Şirket içi gürültü

Makine çevirisi algoritmaları için eğitim setleri olarak kullanılan büyük derlemler , genellikle, benzer olayları açıklayan birinci ve ikinci dillerde yazılmış haber makalelerinin veri tabanları gibi benzer kaynaklardan oluşan büyük gövdelerden çıkarılır.

Bununla birlikte, çıkarılan parçalar, her bir bütünceye ek öğeler eklendiğinde gürültülü olabilir. Çıkarma teknikleri, iki dilli öğelerin daha temiz paralel parçalarını çıkarmak için hem bütüncede temsil edilen iki dilli öğeler hem de yalnızca bir bütüncede temsil edilen tek dilli öğeler arasında ayrım yapabilir . Karşılaştırılabilir derlemler, çeviri amacıyla doğrudan bilgi elde etmek için kullanılır. Bununla birlikte, özellikle yetersiz kaynaklı diller için yüksek kaliteli paralel veri elde etmek zordur.

bit metin

Alanında çeviri çalışmaları bir bitext verilen bir metnin hem kaynak olmayan ve hedef-dil sürümleri oluşan birleştirilmiş bir belgedir.

Bitext'ler, hizalama aracı veya aynı metnin orijinal ve çevrilmiş sürümlerini otomatik olarak hizalayan bir bitext aracı olarak adlandırılan bir yazılım parçası tarafından oluşturulur . Araç genellikle bu iki metni cümle cümle eşleştirir. Bir bit metinler koleksiyonuna, bir biteks veritabanı veya iki dilli bir bütünce denir ve bir arama aracıyla danışılabilir.

Bittext'ler ve çeviri bellekleri

Bittext'lerin çeviri bellekleri ile bazı benzerlikleri vardır. En göze çarpan fark, bir çeviri belleğinin orijinal bağlamı kaybetmesi, bir bit metnin ise orijinal cümle sırasını korumasıdır. Bununla birlikte, bilgisayar destekli çeviri (CAT) programları arasında çeviri belleklerini değiş tokuş etmek için standart bir XML biçimi olan Çeviri Belleği eXchange (TMX) gibi bazı çeviri belleği uygulamaları , orijinal cümle sırasının korunmasına izin verir.

Bittext'ler, bir makine tarafından değil, bir insan tercüman tarafından danışılmak üzere tasarlanmıştır . Bu nedenle, bir çeviri belleğinin başarısız olmasına neden olacak küçük hizalama hataları veya küçük tutarsızlıklar önemli değildir.

Harris, 1988 tarihli orijinal makalesinde ayrıca, bitext'in çevirmenlerin kaynak ve hedef metinleri ilerledikçe zihinsel işleyen belleklerinde nasıl bir arada tuttuklarını temsil ettiğini öne sürdü. Ancak, bu hipotez takip edilmemiştir.

Çevrimiçi bit metinler ve çeviri bellekleri de çağrılabilir çevrimiçi iki dilli uyumlar. Linguée , Reverso ve Tradooit dahil olmak üzere pek çoğu herkese açık Web'de mevcuttur .

Ayrıca bakınız

Referanslar

Dış bağlantılar

paralel corpora

belgeler

Hizalama araçları

  1. ^ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaz Erjavec; Dan Tufiş; Daniel Varga (2006). JRC-Müktesebatı: 20'den fazla dile sahip çok dilli bir paralel yapı . 5. Uluslararası Dil Kaynakları ve Değerlendirme Konferansı Tutanakları (LREC'2006). Cenova, İtalya, 24-26 Mayıs 2006 .