Metin külliyat - Text corpus
Gelen dilbilim , bir korpus (çoğul korpus ) ya da Bütünce bir olan dil kaynak (günümüzde genellikle elektronik olarak depolanan ve işlenen) metinlerinin büyük ve yapılandırılmış setinden oluşan. Gelen korpus dilbilim , bunlar istatistiksel analiz ve yapılacak kullanılır hipotez testi , olayları kontrol eden veya belirli bir dil sınırları içinde dilsel kuralları doğrulayarak.
Genel Bakış
Bir topluluk, tek bir dilde metinler ( tek dilli topluluk ) veya birden çok dilde metin verileri ( çok dilli topluluk ) içerebilir .
Derlemeyi dilbilimsel araştırma yapmak için daha kullanışlı hale getirmek için, genellikle açıklama olarak bilinen bir işleme tabi tutulurlar . Bir külliyatın açıklamasına bir örnek, konuşma parçası etiketleme veya POS etiketlemedir ; burada her bir kelimenin konuşma bölümü (fiil, isim, sıfat, vb.) İle ilgili bilgiler, etiketler şeklinde külliyata eklenir . Başka bir örnek, her kelimenin lemma (temel) biçimini belirtmektir . Külliyatın dili, onu kullanan araştırmacıların çalışma dili olmadığında, açıklamayı iki dilli yapmak için satırlar arası parlatma kullanılır.
Bazı kurumlar, uygulanan daha fazla yapılandırılmış analiz düzeyine sahiptir. Özellikle, bir dizi daha küçük külliyat tamamen ayrıştırılabilir . Bu tür corpora genellikle Treebanks veya Parsed Corpora olarak adlandırılır . Tüm külliyatın tamamen ve tutarlı bir şekilde açıklanmasını sağlamanın zorluğu, bu külliyatın genellikle daha küçük olduğu ve yaklaşık bir ila üç milyon kelime içerdiği anlamına gelir. Morfoloji , anlambilim ve pragmatik ek açıklamalar dahil olmak üzere diğer dilbilimsel yapılandırılmış analiz seviyeleri mümkündür .
Başvurular
Corpora, korpus dilbilimindeki temel bilgi tabanıdır . Diğer önemli uygulama alanları şunları içerir:
-
Dil teknolojisi , doğal dil işleme , hesaplamalı dilbilim
- Çeşitli türdeki külliyatların analizi ve işlenmesi, aynı zamanda, genellikle konuşma etiketleme ve diğer amaçlar için gizli Markov modelleri oluşturmak için kullanıldığı hesaplamalı dilbilim , konuşma tanıma ve makine çevirisi alanlarında da pek çok çalışmanın konusudur . Bunlardan türetilen yapı ve sıklık listeleri dil öğretimi için kullanışlıdır . Corpora, anadili olmayan kullanıcılar tarafından corpora'da otantik metinlere maruz bırakılarak elde edilen bağlamsal dilbilgisi bilgisi, öğrencilerin hedef dilde cümle oluşturma şeklini kavramalarına ve etkili yazmayı mümkün kıldığından , bir tür yabancı dil yazma yardımcısı olarak düşünülebilir.
-
Makine çevirisi
- Yan yana karşılaştırma için özel olarak biçimlendirilmiş çok dilli külliyatlara hizalı paralel külliyat denir . İki dilde metinler içeren iki ana tür paralel külliyat vardır. Bir çeviri külliyatında , bir dildeki metinler, diğer dildeki metinlerin çevirileridir. Karşılaştırılabilir bir külliyatta , metinler aynı türdendir ve aynı içeriği kapsar, ancak birbirlerinin tercümesi değildirler. Paralel bir metinden yararlanmak için, eşdeğer metin parçalarını (kelime öbekleri veya cümleler) tanımlayan bir tür metin hizalaması, analiz için bir ön koşuldur. İki dil arasında çeviri yapmak için makine çevirisi algoritmaları, genellikle bir birinci dil külliyatı ve birinci dil külliyatının eleman için bir öge çevirisi olan ikinci bir dil külliyatı içeren paralel parçalar kullanılarak eğitilir.
-
Filolojiler
- Metin külliyatları, tarihi belgelerin incelenmesinde , örneğin eski metinleri deşifre etme girişimlerinde veya İncil bilimlerinde de kullanılır . Bazı arkeolojik külliyat, zaman içinde bir anlık görüntü sağlayacak kadar kısa süreli olabilir. Zaman içindeki en kısa külliyatlardan biri, 15–30 yıllık Amarna mektup metinleri olabilir ( MÖ 1350 ). Korpus antik bir şehrin, (örneğin " Kültepe Türkiye'nin Metinler"), onların bulmak sitesi tarihleri ile belirlenen korporanın bir dizi süreçten geçebilir.
Bazı önemli metin corpora
Ayrıca bakınız
- Uyum
- Derlem dilbilim
- Dağıtımsal-ilişkisel veritabanı
- Dil Veri Konsorsiyumu
- Doğal dil işleme
- Natural Language Toolkit
- Paralel metin hizalaması
- Arama motorları : "web külliyatına" erişirler.
- Konuşma külliyatı
- Çeviri belleği
- Treebank
- Zipf Yasası
Referanslar
Dış bağlantılar
- ACL SIGLEX Kaynak Linkler: Metin Corpora Arşivlenen de 2013/08/13 Wayback Machine
- Dilbilgisel Kurumun Geliştirilmesi: İyi Uygulama Rehberi
- Ücretsiz örnekler (ücretsiz değil), web tabanlı içerik (her biri 45-425 milyon kelime): Amerikan (COCA, COHA, TIME), İngiliz (BNC), İspanyolca, Portekizce
- Intercorp Binası Charles Üniversitesi Sanat Fakültesi'nde öğretilen dillerin senkron paralel korporası.
- Sketch Engine: Ücretsiz erişimle açık corpora
- TS Corpus - Akademik araştırmalar için ücretsiz olarak erişilebilen bir Türkçe Kitap.
- Turkish National Corpus - Çağdaş Türkçe için genel amaçlı bir külliyat
- Siyasi Konuşmalar Corpus, Hong Kong Baptist University Library tarafından geliştirilen Amerikalı ve Çinli politikacıların siyasi konuşmalarına ücretsiz erişim