Sözcüksel Biçimlendirme Çerçevesi - Lexical Markup Framework

Dil kaynak yönetimi - Sözcük biçimlendirme çerçevesi ( LMF ; ISO 24613: 2008 ), doğal dil işleme (NLP) ve makine tarafından okunabilir sözlük (MRD) sözlükleri için ISO Uluslararası Standardizasyon Örgütü ISO / TC37 standardıdır . Kapsam, çok dilli iletişim bağlamlarında dil kaynaklarıyla ilgili ilkelerin ve yöntemlerin standartlaştırılmasıdır .

Hedefler

LMF'nin hedefleri, sözcük kaynaklarının oluşturulması ve kullanılması için ortak bir model sağlamak, bu kaynaklar arasında ve arasında veri alışverişini yönetmek ve kapsamlı küresel elektronik kaynaklar oluşturmak için çok sayıda bireysel elektronik kaynağın birleştirilmesini sağlamaktır.

LMF'nin bireysel örneklerinin türleri, tek dilli, iki dilli veya çok dilli sözcük kaynaklarını içerebilir. Aynı özellikler hem yazılı hem de sözlü sözlüksel temsiller için hem basit hem de karmaşık sözlükler için hem küçük hem de büyük sözlükler için kullanılacaktır. Açıklamaları arasında değişir morfolojisi , sözdizimi , hesaplamalı semantik için bilgisayar destekli çeviri . Kapsanan diller Avrupa dilleriyle sınırlı olmayıp tüm doğal dilleri kapsar . Hedeflenen NLP uygulamalarının aralığı sınırlı değildir. LMF, WordNet , EDR ve PAROLE sözlükleri dahil çoğu sözlüğü temsil edebilir .

Tarih

Geçmişte, sözlük standardizasyonu GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE ve ISLE gibi bir dizi proje tarafından incelenmiş ve geliştirilmiştir. Ardından, ISO / TC37 Ulusal delegasyonları, NLP ve sözlük temsiline adanmış standartları ele almaya karar verdiler. LMF ile ilgili çalışma, ABD delegasyonu tarafından yayınlanan yeni bir iş öğesi önerisiyle 2003 yazında başladı. 2003 sonbaharında, Fransız delegasyonu NLP sözlüklerine adanmış bir veri modeli için teknik bir teklif yayınladı . 2004 yılının başlarında, ISO / TC37 komitesi, düzenleyici olarak Nicoletta Calzolari ( CNR- ILC İtalya) ve editör olarak Gil Francopoulo (Tagmatica Fransa) ve Monte George ( ANSI ABD) ile ortak bir ISO projesi oluşturmaya karar verdi . LMF geliştirmenin ilk adımı, mevcut sözlüklerin genel özelliklerine dayalı genel bir çerçeve tasarlamak ve bu sözlüklerin bileşenlerini tanımlamak için tutarlı bir terminoloji geliştirmekti. Bir sonraki adım, tüm sözlükleri ayrıntılı olarak en iyi şekilde temsil eden kapsamlı bir modelin gerçek tasarımıydı. 60 uzmandan oluşan geniş bir panel, birçok NLP sözlüğü türünü kapsayan LMF için çok çeşitli gereksinimlere katkıda bulundu. LMF editörleri, en iyi çözümleri belirlemek ve LMF'nin tasarımı üzerinde bir fikir birliğine varmak için uzmanlar paneliyle yakın bir şekilde çalıştı. Çözülmesi zor olarak bilinen birkaç dilde sorunların ele alınmasına yönelik güçlü mekanizmalar sağlamak için morfolojiye özel dikkat gösterildi. Çeşitli ISO teknik toplantılarında 13 versiyon yazılmış, gönderilmiş (Ulusal olarak atanmış uzmanlara), yorumlanmış ve tartışılmıştır. Çok sayıda yüz yüze toplantı ve e-posta alışverişi de dahil olmak üzere beş yıllık çalışmanın ardından, editörler tutarlı bir UML modeline ulaştı. Sonuç olarak, LMF, NLP sözlük alanındaki en son teknolojinin bir sentezi olarak düşünülmelidir.

Mevcut aşama

ISO numarası 24613'tür. LMF spesifikasyonu resmi olarak Uluslararası Standart olarak 17 Kasım 2008'de yayınlanmıştır.

ISO / TC37 standart ailesinin üyelerinden biri olarak

ISO / TC37 standartları şu anda yüksek seviyeli spesifikasyonlar olarak detaylandırılmıştır ve kelime segmentasyonu (ISO 24614), ek açıklamalar (ISO 24611 aka MAF, ISO 24612 aka LAF, ISO 24615 aka SynAF ve ISO 24617-1 aka SemAF / Time), özellik yapıları (ISO 24610), multimedya kapsayıcıları (ISO 24616 aka MLIF) ve sözlükler (ISO 24613 ). Bu standartlar, veri kategorileri ( ISO 12620 revizyonu), dil kodları ( ISO 639 ), komut dosyası kodları ( ISO 15924 ), ülke kodları ( ISO 3166 ) ve Unicode ( ISO 10646 ) gibi sabitlere ayrılmış düşük seviyeli spesifikasyonlara dayanmaktadır .

İki seviyeli organizasyon, aşağıdaki ortak ve basit kurallarla uyumlu bir standartlar ailesi oluşturur:

  • yüksek seviyeli spesifikasyon, standartlaştırılmış sabitler tarafından süslenmiş yapısal elemanlar sağlar;
  • düşük seviyeli belirtimler, meta veri olarak standartlaştırılmış sabitler sağlar.

Anahtar standartlar

/ Feminine / veya / transitive / gibi dilbilim sabitleri LMF içinde tanımlanmamıştır ancak ISO / IEC 11179-3: 2003 ile uyumlu olarak ISO / TC37 tarafından küresel bir kaynak olarak tutulan Veri Kategorisi Kayıt Defterine (DCR) kaydedilir. Ve bu sabitler, yüksek seviyeli yapısal elemanları süslemek için kullanılır.

LMF spesifikasyonu , Object Management Group (OMG) tarafından tanımlanan Unified Modeling Language (UML) modelleme ilkelerine uygundur . Yapı, UML sınıf diyagramları ile belirtilir . Örnekler, UML örnek (veya nesne) diyagramları aracılığıyla sunulmuştur.

LMF belgesinin ekinde bir XML DTD verilmiştir.

Model yapısı

LMF, aşağıdaki bileşenlerden oluşur:

  • Sözcüksel bir girişteki temel bilgi hiyerarşisini tanımlayan yapısal iskelet olan çekirdek paket.
  • Çekirdek paketin, belirli bir sözcüksel kaynak için gerekli ek bileşenlerle birlikte çekirdek bileşenlerin yeniden kullanımını tanımlayan bir çerçevede ifade edilen uzantıları.

Uzantılar özellikle morfoloji , MRD , NLP sözdizimi , NLP semantiği , NLP çok dilli gösterimler , NLP morfolojik kalıpları , çok kelimeli ifade kalıpları ve kısıtlama ifade kalıplarına adanmıştır .

Misal

Aşağıdaki örnekte, sözcüksel giriş bir lemma din adamıyla ve iki çekimli biçimde din adamı ve din adamıyla ilişkilidir . Dil kodlaması tüm sözcük kaynağı için ayarlanmıştır. Dil değeri, aşağıdaki UML örnek diyagramında gösterildiği gibi tüm sözlük için ayarlanır .

LMFMorphoClergymanInflected.svg

Sözcüksel Kaynak , Küresel Bilgi , Sözlük , Sözcüksel Giriş , Lemma ve Sözcük Biçimi öğeleri sözlüğün yapısını tanımlar. LMF belgesinde belirtilirler. Aksine, languageCoding , language , partOfSpeech , commonNoun , writeForm , grammaticalNumber , singular , plural , Data Category Registry'den alınan veri kategorileridir. Bu işaretler yapıyı süslüyor. Değerleri , ISO 639-3 , rahip , din adamlarının sade karakter dizeleridir. Eng değeri , ISO 639-3'te tanımlanan diller listesinden alınır .

DtdVersion ve feat gibi bazı ek bilgilerle , aynı veriler aşağıdaki XML parçasıyla ifade edilebilir :

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Bu örnek oldukça basittir, ancak LMF çok daha karmaşık dilbilimsel açıklamaları temsil edebilirken, XML etiketleme buna göre karmaşıktır.

LMF hakkında seçilmiş yayınlar

ISO tarafından onaylandığı için LMF spesifikasyonu hakkında ilk yayın (bu makale (2015'te) LREC kağıtlarından Dil Kaynakları ve Değerlendirme konferanslarında en çok alıntı yapılan 9. makale oldu):

  • Dil Kaynakları ve Değerlendirme LREC-2006 / Cenova: Gil Francopoulo, Monte George, Nicoletta Calzolari, Monica Monachini, Nuria Bel, Mandy Pet, Claudia Soria: Sözcük Biçimlendirme Çerçevesi (LMF)

Anlamsal temsil hakkında:

  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007 / Tübingen: Gil Francopoulo, Nuria Bel, Monte George Nicoletta Calzolari, Monica Monachini, Mandy Pet, Claudia Soria: NLP sözlüklerinde anlamsal bilgi için Sözcük Biçimlendirme Çerçevesi ISO standardı

Afrika dilleri hakkında:

  • Traitement Automatique des langues naturelles, Marseille, 2014: Mouhamadou Khoule, Mouhamad Ndiankho Thiam, El Hadj Mamadou Nguer: LMF tabanlı bir Wolof dili sözlüğünün kuruluşuna doğru (Vers la mise en place d'un lexique basé sur LMF pour la langue wolof ) [Fransızcada]

Asya dilleri hakkında:

  • Sözlükbilim, ASIALEX Dergisi, Springer 2014: Sözcüksel Biçimlendirme Çerçevesi: Gil Francopoulo, Chu-Ren Huang: Elektronik Sözlükler için bir ISO Standardı ve Asya Dilleri İçin Etkileri DOI 10.1007 / s40607-014-0006-z

Avrupa dilleri hakkında:

  • COLING 2010: Verena Henrich, Erhard Hinrichs: ISO Standard LMF'de Wordnet'leri Standartlaştırma: Wordnet-LMF for GermaNet
  • EACL 2012: Judith Eckle-Kohler, Iryna Gurevych: Subcat-LMF: Alt kategorilendirme çerçevesi birlikte çalışabilirliği için standartlaştırılmış bir biçim ortaya koyuyor
  • EACL 2012: Iryna Gurevych, Judith Eckle-Kohler, Silvana Hartmann, Michael Matuschek, Christian M Meyer, Christian Wirth: UBY - LMF'ye Dayalı Büyük Ölçekli Birleştirilmiş Sözcük-Anlamsal Kaynak.

Semitik diller hakkında:

  • Journal of Natural Language Engineering , Cambridge University Press (2015 İlkbaharında çıkacak): Aida Khemakhem, Bilel Gargouri, Abdelmajid Ben Hamadou, Gil Francopoulo: Büyük bir Arapça Sözlüğün ISO Standart Modellemesi.
  • Yedinci Küresel Wordnet Konferansı 2014 Bildirileri: Nadia BM Karmani, Hsan Soussou, Adel M Alimi: aeb dili için ISO LMF'de standartlaştırılmış bir Wordnet oluşturma.
  • Çalıştayın bildirileri: Arap dünyasında HLT & NLP, LREC 2008: Noureddine Loukil, Kais Haddar, Abdelmajid Ben Hamadou: Arapça Fiillerin sözdizimsel sözlüğüne doğru.
  • Traitement Automatique des Langues Naturelles, Toulouse (Fransızca) 2007: Khemakhem A, Gargouri B, Abdelwahed A, Francopoulo G: Modélisation des paradigmes de flexion des verbes arabes selon la norme LMF-ISO 24613.

Adanmış kitap

2013'te yayınlanan bir kitap var: LMF Lexical Markup Framework , tamamen LMF'ye adanmış. İlk bölüm sözlük modellerinin tarihini ele alırken, ikinci bölüm veri modelinin resmi bir sunumudur ve üçüncü bölüm ISO-DCR'nin veri kategorileri ile ilişkisini ele almaktadır. Diğer 14 bölüm, ya bilimsel araştırma laboratuvarları ya da endüstriyel uygulamalar için sivil ya da askeri alanda bir sözlük ya da sistemle ilgilidir. Bunlar Wordnet-LMF, Prolmf, DUELME, UBY-LMF , LG-LMF, RELISH, GlobalAtlas (veya Global Atlas) ve Wordscape'dir.

İlgili bilimsel iletişimler

Ayrıca bakınız

Referanslar

Dış bağlantılar