Lemmatizasyon - Lemmatisation

Lemmatisation ( veya lemmatization olarak) dil da kelimenin ile tanımlanan tek bir öğe olarak analiz edilebilir, böylece birlikte bir kelimenin çekimli formları gruplandırmasıdır lemma , veya sözlük formu.

Olarak hesaplama dil , lemmatisation belirleme algoritmik bir süreçtir lemma amaçlanan anlamı göre bir kelime. Aksine kaynaklanan , lemmatisation doğru amaçlanan tanımlanmasına bağlıdır konuşmanın bir kısmını ve bir cümlede bir kelimenin anlamı, hem de daha büyük dahilinde bağlamda örneğin komşu cümle, hatta bütün bir belge olarak, bu cümleyi çevreleyen. Sonuç olarak, verimli uyumlaştırma algoritmaları geliştirmek açık bir araştırma alanıdır.

Açıklama

Birçok dilde, kelime birkaç görünür çekimli formlar. Örneğin, İngilizcede 'yürümek' fiili 'yürümek', 'yürümek', 'yürümek' veya 'yürümek' olarak görünebilir. Bir sözlükte aranabilecek temel biçim olan 'yürüyüş', sözcüğün lemması olarak adlandırılır . Temel biçimin konuşmanın bir bölümüyle ilişkilendirilmesine genellikle sözcüğün sözlüğü denir .

Lemmatisation yakından ilişkilidir kaynaklanan . Aradaki fark, bir kök yazıcının bağlam bilgisi olmadan tek bir kelime üzerinde çalışması ve bu nedenle, konuşmanın bir kısmına bağlı olarak farklı anlamlara sahip kelimeler arasında ayrım yapamamasıdır. Bununla birlikte, sap çıkarıcıların uygulanması genellikle daha kolaydır ve daha hızlı çalışır. Azaltılmış "doğruluk" bazı uygulamalar için önemli olmayabilir. Aslında, bilgi alma sistemlerinde kullanıldığında , köklendirme, bağımsızlaştırma ile karşılaştırıldığında sorgu geri çağırma doğruluğunu veya gerçek pozitif oranı iyileştirir. Bununla birlikte, kök oluşturma , bu tür sistemler için hassasiyeti veya gerçekte pozitif olan pozitif olarak etiketlenmiş örneklerin oranını azaltır .

Örneğin:

  1. "Daha iyi" kelimesinin lemması olarak "iyi" vardır. Sözlüğe bakılması gerektiği için bu bağlantı köklendirme tarafından kaçırılır.
  2. "Yürüme" kelimesi, "yürüme" kelimesinin temel biçimidir ve bu nedenle bu, hem kök salma hem de lemmizasyonda eşleştirilir.
  3. "Buluşma" kelimesi, bağlama bağlı olarak bir ismin temel formu veya bir fiil ("buluşmak") olabilir; örneğin, "son toplantımızda" veya "Yarın tekrar buluşuyoruz". Köklendirmenin aksine, lemmatizasyon, bağlama bağlı olarak doğru lemmayı seçmeye çalışır.

Lucene gibi belge indeksleme yazılımları , kelimenin temel köklü formatını anlam bilgisi olmadan saklayabilir, ancak yalnızca kelime oluşumu dilbilgisi kurallarını dikkate alır. Köklü kelimenin kendisi geçerli bir kelime olmayabilir: Aşağıdaki örnekte görüldüğü gibi 'tembel', birçok kelime tüfeği tarafından 'lazi' anlamına gelmektedir. Bunun nedeni, kök bulmanın amacının uygun lemmayı üretmek olmamasıdır - bu, bağlam bilgisi gerektiren daha zorlu bir görevdir. Kök bulmanın temel amacı, bir kelimenin farklı biçimlerini tek bir biçime eşlemektir. Yalnızca bir kelimenin yazılışına bağlı olan kural tabanlı bir algoritma olarak, örneğin 'tembellik' 'tembellik' olarak ortaya çıktığında, 'tembel' ile aynı köke sahip olmasını sağlamak için doğruluğu feda eder.

Algoritmalar

Tanımlama yapmanın önemsiz bir yolu, basit sözlük aramasıdır. Bu, basit çekimli formlar için iyi çalışır, ancak uzun bileşik kelimelere sahip diller gibi diğer durumlar için kurala dayalı bir sisteme ihtiyaç duyulacaktır . Bu tür kurallar el yapımı olabilir veya açıklamalı bir külliyattan otomatik olarak öğrenilebilir.

Biyotıpta kullanın

Yayınlanmış biyomedikal literatürün morfolojik analizi faydalı sonuçlar verebilir. Biyomedikal metnin morfolojik olarak işlenmesi, biyotıp için özel bir uyumlaştırma programı ile daha etkili olabilir ve pratik bilgi çıkarma görevlerinin doğruluğunu artırabilir .

Ayrıca bakınız

Referanslar

Dış bağlantılar