Bağlantı dilbilgisi - Link grammar

Bağlantı dilbilgisi (LG), Davy Temperley ve Daniel Sleator tarafından , bir cümle yapısı hiyerarşisinde bileşenler oluşturmak yerine, kelime çiftleri arasında ilişkiler kuran bir sözdizimi teorisidir . Bağlantı dilbilgisi, bağımlılık dilbilgisine benzer , ancak bağımlılık dilbilgisi, başa bağımlı bir ilişki içerirken, Bağlantı Dilbilgisi, kafaya bağlı ilişkiyi isteğe bağlı hale getirir (bağlantıların yönü göstermesi gerekmez). Renkli Çok Düzlemli Bağlantı Dilbilgisi (CMLG), LG'nin sözcük çiftleri arasında çapraz ilişkilere izin veren bir uzantısıdır. Sözcükler arasındaki ilişki bağlantı türleri ile belirtilir , böylece Bağlantı dilbilgisi belirli kategorik dilbilgileriyle yakından ilişkili hale gelir .

Örneğin, İngilizce gibi bir özne-fiil-nesne dilinde, fiil özne bağı oluşturmak için sola, nesne bağı oluşturmak için sağa bakar. İsimler, konu bağlantısını tamamlamak için sağa veya nesne bağlantısını tamamlamak için sola bakar.

Farsça gibi bir özne-nesne-fiil dilinde , fiil bir nesne bağı oluşturmak için sola ve bir özne bağı oluşturmak için daha uzak bir sola bakar. İsimler hem özne hem de nesne bağlantıları için sağa bakardı.

genel bakış

Bağlantı dilbilgisi, bir cümledeki sözcükleri, biçim olarak bir catena'ya benzer şekilde bağlantılarla birleştirir . Katenadan veya geleneksel bir bağımlılık dilbilgisinden farklı olarak, baş-bağımlı ilişkinin işaretlenmesi çoğu dil için isteğe bağlıdır ve yalnızca serbest sözcük sıralı dillerde ( Türkçe , Fince , Macarca , Litvanca gibi ) zorunlu hale gelir . Yani, İngilizce'de özne-fiil ilişkisi "barizdir", çünkü özne neredeyse her zaman fiilin solundadır ve bu nedenle belirli bir bağımlılık belirtisinin yapılması gerekmez. Özne-fiil tersine çevrilmesi durumunda, ayrı bir bağlantı türü kullanılır. Serbest kelime sıralamalı diller için bu artık geçerli olamaz ve özne ile fiil arasındaki bağlantı, iki kelimeden hangisinin hangisi olduğunu belirtmek için açık bir yön oku içermelidir.

Bağlantı dilbilgisi , kelimeler arasında döngüsel ilişkilere izin vererek geleneksel bağımlılık dilbilgilerinden de farklıdır . Böylece örneğin hem cümlenin baş fiilini, cümlenin baş öznesini belirten bağlar hem de özne ile fiil arasında bir bağ olabilir. Bu üç bağlantı böylece bir döngü oluşturur (bu durumda bir üçgen). Döngüler, aksi halde belirsiz ayrıştırma olabilecekleri sınırlamada faydalıdır; döngüler, bir cümlenin izin verilen ayrıştırma kümesini "sıkılaştırmaya" yardımcı olur.

Örneğin, ayrıştırmada

    +---->WV--->+       
    +--Wd--+-Ss-+--Pa--+
    |      |    |      |
LEFT-WALL he  runs   fast

SOL DUVAR, cümlenin başlangıcını veya kök düğümü gösterir. Yönlü WV bağlantısı (oklarla birlikte) cümlenin baş fiilini gösterir; Duvar-Fiil bağlantısıdır. Wd bağlantısı (burada oklar olmadan çizilmiştir) cümlenin baş ismini (konu) belirtir. Wd bağlantı tipi , hem duvara bağlandığını (W) hem de cümlenin bir bildirim cümlesi olduğunu (küçük harf "d" alt tipi) gösterir. Ss bağlantı özne-fiil ilişkisini gösterir; öznenin tekil olduğunu belirten küçük harfli "s". Bir döngü için WV, Wd ve Ss bağlantılarına dikkat edin. Pa bağlantısı fiili bir tamamlayıcıya bağlar; küçük harf "a" bu durumda bir yüklem sıfatı olduğunu belirtir .

Ayrıştırma algoritması

Ayrıştırma, yapboz parçalarından (bireysel kelimeleri temsil eden) bir yapbozun (ayrıştırılmış cümleyi temsil eden) birleştirilmesine benzer şekilde gerçekleştirilir . Bir dil bir sözlük ya vasıtasıyla temsil edilir kelime kullanımı , sözcükten oluşur ve her bir kelime sahip olabileceği izin "yapboz şekiller" setinde. Şekil, bir bağlantı tipi olan bir "bağlayıcı" ve sağı veya solu gösteren bir yön göstergesi + veya - ile gösterilir . Örneğin, geçişli bir fiil , fiilin solunda (" - ") bir Özne (" S ") bağlantısı ve sağında bir nesne bağlantısı (" O ") oluşturabileceğini belirten S- & O+ bağlaçlarına sahip olabilir ( " + "). Benzer şekilde, ortak bir isim , soldaki bir belirleyiciye (" D- ") bağlanabileceğini ve sağdaki bir fiile (" S+ ") bağlanırken bir özne olarak hareket edebileceğini belirten D- & S+ bağlaçlarına sahip olabilir . Daha sonra ayrıştırma eylemi , iki kelime arasında bir " S " bağlantısı oluşturarak S+ bağlayıcısının S- bağlayıcısına eklenebileceğini belirlemektir . Tüm konektörler bağlandığında ayrıştırma tamamlanır.

Belirli bir kelimenin düzinelerce hatta yüzlerce izin verilen bulmaca şekli olabilir ("ayrık" olarak adlandırılır): örneğin, birçok fiil isteğe bağlı olarak geçişli olabilir, bu nedenle O+ bağlayıcısını isteğe bağlı hale getirir ; bu tür fiiller , doğası gereği isteğe bağlı olan zarf değiştiricileri ( E bağlaçları) da alabilir . Daha karmaşık fiiller, dolaylı nesneler veya parçacıklar veya edatlar için ek bağlaçlara sahip olabilir . Bu nedenle, ayrıştırmanın bir kısmı aynı zamanda bir kelime için tek bir benzersiz ayrım seçmeyi de içerir; son ayrıştırma , bu ayrık için tüm bağlayıcıları karşılamalıdır (bağlamalıdır) .

Bağımlılık

Konektörler ayrıca kafaya bağlı göstergeler h ve d içerebilir . Bu durumda, bir kafa göstergesi içeren bir konektörün yalnızca bağımlı göstergeyi içeren bir konektöre (veya üzerinde herhangi bir hd göstergesi olmayan bir konektöre) bağlanmasına izin verilir. Bu göstergeler kullanıldığında, bağlantı yönünü belirtmek için bağlantı oklarla süslenir.

Yakın tarihli bir uzantı, Litvanca gibi sözcük sıralamasında çok az veya hiç kısıtlaması olmayan diller için bağlayıcıların belirtimini basitleştirir . Birleştirici morfolojilere sahip dilleri desteklemeyi kolaylaştıran uzantılar da vardır .

düzlemsellik

Ayrıştırma algoritması ayrıca son grafiğin düzlemsel bir grafik olmasını , yani hiçbir bağlantının kesişmemesini gerektirir. Bu kısıtlama, aslında çoğu dil için, neredeyse tüm durumlarda, bağımlılık bağlantılarının gerçekten kesişmediğine dair ampirik psiko-dilbilimsel kanıtlara dayanmaktadır. Nadir istisnalar vardır, örneğin Fince ve hatta İngilizce; sadece bu durumları yakalamak için daha karmaşık ve seçici bağlayıcı türleri tanıtılarak bağlantı dilbilgisi ile ayrıştırılabilirler.

Maliyetler ve seçim

Bağlayıcılar isteğe bağlı bir kayan noktalı maliyet marjına sahip olabilir, böylece bazıları diğerlerinden daha "ucuz" olur ve böylece belirli ayrıştırmaların diğerlerine göre tercih edilmesini sağlar. Diğer bir deyişle, ayrıştırmanın toplam maliyeti, kullanılan bağlayıcıların tek tek maliyetlerinin toplamıdır; en ucuz ayrıştırma, en olası ayrıştırmayı gösterir. Bu, birden çok belirsiz ayrıştırmayı ayrıştırmak için kullanılır. Maliyetlerin bağlayıcılar için yerel olması ve algoritmanın küresel bir özelliği olmaması, onları esasen Markovyen yapar .

Bağlantılara log-olasılığının atanması, bağlantı dilbilgisinin yüklem-argüman ilişkilerinin anlamsal seçimini uygulamasına izin verir . Yani, belirli yapılar, sözdizimsel olarak geçerli olmalarına rağmen, son derece olası değildir. Bu şekilde, bağlantı dilbilgisi, işleç dilbilgisinde bulunan bazı fikirleri somutlaştırır .

Maliyetler toplamsal olduğu için, olasılığın logaritması gibi (log-olasılıklar toplam olduğundan) veya eşdeğer olarak, bir şekilde entropi gibi (çünkü entropiler toplamsal olduğundan) davranırlar . Bu, Link Grammar'ı gizli Markov modelleri ve Viterbi algoritması gibi makine öğrenme teknikleriyle uyumlu hale getirir , çünkü link maliyetleri Markov ağlarındaki veya Bayes ağlarındaki link ağırlıklarına karşılık gelir .

Tip teorisi

Bağlantı Dilbilgisi bağlantı türleri, tür teorisi anlamında türler olarak anlaşılabilir . Aslında, Bağlantı Dilbilgisi, grup öncesi dilbilgisi gibi belirli (simetrik olmayan) kompakt kapalı kategorilerin iç dilini modellemek için kullanılabilir . Bu anlamda, Bağlantı Dilbilgisi bazı kategorik dilbilgilerine göre izomorfik veya homomorfik görünmektedir . Böylece, örneğin, kategorik bir dilbilgisinde " kötü çocuk " isim tamlaması şu şekilde yazılabilir:

oysa Link Dilbilgisi'nde karşılık gelen ayrılmalar

the: D+;
bad: A+;
boy: D- & A-;

Lambek hesabının daraltma kuralları (çıkarım kuralları), Bağlantı Dilbilgisi'ndeki bağlayıcıların bağlanmasıyla eşlenebilir. + Ve - yönlü göstergeler ileri ve kategorik gramer geriye eğik gelmektedir. Son olarak, tek harfli A ve D adları, daha ayrıntılı NP/N vb. türler için etiketler veya "okunması kolay" anımsatıcı adlar olarak anlaşılabilir .

Buradaki birincil ayrım, kategorik dilbilgilerinin temel türlerden ( NP ve N gibi) yeni türler (örneğin NP/N ) oluşturmak için kullanılabilen iki tür kurucuya, ileri ve geri eğik çizgilere sahip olmasıdır . Bağlantı dilbilgisi, tür oluşturucuların kullanımını atlar, bunun yerine kompakt, hatırlaması kolay anımsatıcılara sahip çok daha büyük bir temel tür kümesi tanımlamayı seçer.

Örnekler

örnek 1

Bir SVO dili için temel bir kural dosyası şöyle görünebilir:

<determiner>     D+;
<noun-subject>  {D−} &  S+;
<noun-object>   {D−} &  O−;
<verb>           S−  & {O+};

Böylece, "Çocuk bir resim çizdi" İngilizce cümlesi şu şekilde görünecektir:

           +-----O-----+
 +-D-+--S--+     +--D--+
 |   |     |     |     |
The boy painted  a  picture

Benzer ayrıştırmalar Çince için de geçerlidir.

Örnek 2

Tersine, boş bir konu SOV dili için bir kural dosyası aşağıdaki bağlantılardan oluşabilir:

<noun-subject>   S+;
<noun-object>    O+;
<verb>          {O−} & {S−};

Ve basit bir Farsça cümle, man nAn xordam (من نان خوردم) 'Ekmek yedim' şöyle görünür:

 +-----S-----+
 |     +--O--+
 |     |     |
man   nAn xordam

Arapça için olduğu gibi VSO siparişi de aynı şekilde karşılanabilir.

Örnek 3 (Morfoloji)

Birleştirici morfolojiye sahip birçok dilde, kök gramer rolü oynamaz; gramer eklerle belirlenir. Böylece, Rusça'da 'вверху плыли редкие облачка' cümlesi şu şekilde ayrıştırılabilir:

    +------------Wd-----------+---------------SIp---------------+
    |         +-------EI------+              +--------Api-------+
    |         |      +--LLCZD-+       +-LLAQZ+         +--LLCAO-+
    |         |      |        |       |      |         |        |
LEFT-WALL вверху.e плы.= =ли.vnndpp ре.= =дкие.api облачк.= =а.ndnpi

'.vnndpp' gibi alt simgeler, dilbilgisi kategorisini belirtmek için kullanılır. Birincil bağlantılar: Wd, EI, SIp ve Api, ilke olarak, cümlenin yapısını değiştirmeden burada başka kökler ortaya çıkabileceğinden, son ekleri birbirine bağlar. Api bağlantısı sıfatı belirtir; SIp, özne-fiil ters çevrilmesini ifade eder; EI bir değiştiricidir. Wd bağlantısı baş ismi belirtmek için kullanılır; baş fiil bu cümlede gösterilmemiştir. LLXXX bağlantıları yalnızca son eklere kök eklemeye yarar.

Örnek 4 (Fonoloji)

Bağlantı dilbilgisi, komşu kelimeler arasındaki fonolojik anlaşmayı da gösterebilir . Örneğin:

                     +---------Ost--------+
    +------>WV------>+   +------Ds**x-----+
    +----Wd---+-Ss*b-+   +--PHv-+----A----+
    |         |      |   |      |         |
LEFT-WALL that.j-p is.v an abstract.a concept.n

Burada, 'PH' bağlayıcısı, 'soyut' kelimesinden önce görünebilecek belirleyicileri sınırlamak için kullanılır. Bu cümlede 'a' belirleyicisinin kullanılmasını etkili bir şekilde engeller (maliyetli hale getirir), 'an' bağlantısı ucuz hale gelir. Diğer bağlantılar kabaca önceki örneklerdeki gibidir: S ifade eden özne, O ifade eden nesne, D ifade eden belirleyici. 'WV' bağlantısı baş fiili belirtir ve 'W' bağlantısı baş ismi belirtir. Büyük harf bağlantı türlerinden sonra gelen küçük harfler, türü iyileştirmeye yarar; yani örneğin, D'ler yalnızca tekil bir isme bağlanabilir; Ss sadece tekil bir özneye, Os tekil bir nesneye. PHv'deki küçük v harfi 'sesli harf' anlamına gelir; Wd'deki küçük d harfi bir bildirim cümlesini ifade eder.

Örnek 5 - Vietnamca

Vietnamca dil cümle "Bua TIEC Hom olmaz là Mot Thanh Cong boylam" - şöyle "dün büyük bir başarıydı partisi" ayrıştırılır edilebilir:

Vietnamlar bağlantı dilbilgisi example.png

Uygulamalar

Bağlantı Dilbilgisi ayrıştırıcısı
Geliştirici(ler) OpenCog
İlk sürüm Ekim 1991 ; 29 yıl önce ( 1991-10 )
kararlı sürüm
5.8.1 / 8 Ocak 2021 ; 7 ay önce ( 2021-01-08 )
depo
Yazılmış C++ ; aslen C
İşletim sistemi Çapraz platform
platformu GNU
Tip NLP
Lisans LGPLv2
İnternet sitesi www .abisource .com /projects /link-grammar /

Bağlantı dilbilgisi sözdizimi ayrıştırıcısı , C ile yazılmış doğal dil işleme için bir kitaplıktır . LGPL lisansı altında mevcuttur . Ayrıştırıcı devam eden bir projedir. Son sürümler, geliştirilmiş cümle kapsamı, Rusça, Farsça ve Arapça dil desteği, Almanca, İbranice, Litvanca, Vietnamca ve Türkçe için prototipler ve Perl için 3. taraf bağlamalarıyla Python , Java , Common LISP , AutoIt ve OCaml için programlama API'lerini içerir , Ruby ve JavaScript node.js .

Mevcut büyük bir girişim, denetimsiz öğrenme algoritmaları kullanarak yeni dillerin dilbilgisini ve morfolojisini öğrenme projesidir.

Bağlantı çözümleyici İngilizce için kural ve kelime listeleri ile birlikte programı standart bulunabilir Linux dağıtımlarında bir şekilde, örneğin, Debian bunların çoğunun güncel yıllar olmasına rağmen, paketin.

Uygulamalar

AbiWord , Link Grammar'ı kullanarak dilbilgisini kontrol eder

Ücretsiz bir kelime işlemci olan AbiWord , anında dilbilgisi kontrolü için Link Grammar'ı kullanır. Hiçbir yere bağlanamayan kelimelerin altı yeşil renkle çizilir.

Bağlantı Dilbilgisi kitaplığının üstünde katmanlanan anlamsal ilişki çıkarıcı RelEx, bir cümledeki sözcükler arasındaki anlamsal ilişkileri açık hale getirerek bir bağımlılık dilbilgisi çıktısı üretir . Çıktısı, Anlam-Metin Teorisinin SSyntR ve DSyntR seviyeleri arasında bir seviyede olarak sınıflandırılabilir . Ayrıca, çerçeveleme/topraklama, anafora çözümleme , baş-kelime tanımlama, sözcük öbekleme , konuşma parçası tanımlama ve varlık, tarih, para, cinsiyet vb. etiketleme dahil etiketleme sağlar. Stanford ayrıştırıcı ve Penn Treebank uyumlu POS etiketleme ile uyumlu bağımlılık çıktısı oluşturmak için bir uyumluluk modu içerir .

Link Grammar, haber makalelerinde açıklanan biyomedikal metinlerin ve olayların bilgi çıkarımı ve ayrıca İngilizce'den Almanca, Türkçe, Endonezyaca'ya deneysel makine çeviri sistemleri için de kullanılmıştır. ve Farsça.

Link Dilbilgisi bağlantı sözlüğü, üç farklı doğal dil oluşturma sisteminin sözdizimsel doğruluğunu oluşturmak ve doğrulamak için kullanılır : NLGen, NLGen2 ve mikro planlayıcı/gerçeküstü. OpenCog AI projesinde NLP ardışık düzeninin bir parçası olarak da kullanılır .

Notlar

daha fazla okuma

Dış bağlantılar

Dil uzantıları