Metin külliyat - Text corpus

Gelen dilbilim , bir korpus (çoğul korpus ) ya da Bütünce bir olan dil kaynak (günümüzde genellikle elektronik olarak depolanan ve işlenen) metinlerinin büyük ve yapılandırılmış setinden oluşan. Gelen korpus dilbilim , bunlar istatistiksel analiz ve yapılacak kullanılır hipotez testi , olayları kontrol eden veya belirli bir dil sınırları içinde dilsel kuralları doğrulayarak.

Genel Bakış

Bir topluluk, tek bir dilde metinler ( tek dilli topluluk ) veya birden çok dilde metin verileri ( çok dilli topluluk ) içerebilir .

Derlemeyi dilbilimsel araştırma yapmak için daha kullanışlı hale getirmek için, genellikle açıklama olarak bilinen bir işleme tabi tutulurlar . Bir külliyatın açıklamasına bir örnek, konuşma parçası etiketleme veya POS etiketlemedir ; burada her bir kelimenin konuşma bölümü (fiil, isim, sıfat, vb.) İle ilgili bilgiler, etiketler şeklinde külliyata eklenir . Başka bir örnek, her kelimenin lemma (temel) biçimini belirtmektir . Külliyatın dili, onu kullanan araştırmacıların çalışma dili olmadığında, açıklamayı iki dilli yapmak için satırlar arası parlatma kullanılır.

Bazı kurumlar, uygulanan daha fazla yapılandırılmış analiz düzeyine sahiptir. Özellikle, bir dizi daha küçük külliyat tamamen ayrıştırılabilir . Bu tür corpora genellikle Treebanks veya Parsed Corpora olarak adlandırılır . Tüm külliyatın tamamen ve tutarlı bir şekilde açıklanmasını sağlamanın zorluğu, bu külliyatın genellikle daha küçük olduğu ve yaklaşık bir ila üç milyon kelime içerdiği anlamına gelir. Morfoloji , anlambilim ve pragmatik ek açıklamalar dahil olmak üzere diğer dilbilimsel yapılandırılmış analiz seviyeleri mümkündür .

Başvurular

Corpora, korpus dilbilimindeki temel bilgi tabanıdır . Diğer önemli uygulama alanları şunları içerir:

  • Makine çevirisi
    • Yan yana karşılaştırma için özel olarak biçimlendirilmiş çok dilli külliyatlara hizalı paralel külliyat denir . İki dilde metinler içeren iki ana tür paralel külliyat vardır. Bir çeviri külliyatında , bir dildeki metinler, diğer dildeki metinlerin çevirileridir. Karşılaştırılabilir bir külliyatta , metinler aynı türdendir ve aynı içeriği kapsar, ancak birbirlerinin tercümesi değildirler. Paralel bir metinden yararlanmak için, eşdeğer metin parçalarını (kelime öbekleri veya cümleler) tanımlayan bir tür metin hizalaması, analiz için bir ön koşuldur. İki dil arasında çeviri yapmak için makine çevirisi algoritmaları, genellikle bir birinci dil külliyatı ve birinci dil külliyatının eleman için bir öge çevirisi olan ikinci bir dil külliyatı içeren paralel parçalar kullanılarak eğitilir.
  • Filolojiler

Bazı önemli metin corpora

Ayrıca bakınız

Referanslar

Dış bağlantılar