All-words word sense disambiguation in Turkish

Yükleniyor...
Küçük Resim

Tarih

2019-09-06

Dergi Başlığı

Dergi ISSN

Cilt Başlığı

Yayıncı

Işık Üniversitesi

Erişim Hakkı

info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivs 3.0 United States

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı

Özet

Word sense disambiguation (WSD) is the identi cation of the meaning of words in context in a computational manner. The main subject of this study is to implement and compare the WSD results of various supervised classi ers (Naive Bayes, K Nearest Neighbor, Rocchio and C4.5) in all-words setting. To this end, we have constructed an all-words sense annotated Turkish corpus, using traditional method of manual tagging. During the annotation, a pre-built parallel treebank (aligned from Penn Treebank) has been tagged with the senses of Turkish Language Institutions dictionary. The approach of annotating a treebank allowed us to generate a full-coverage resource, in which syntactic and semantic information merged. In the WSD evaluations, three distinct experiments have been organized to determine the efect of using different feature sets on the disambiguation performance. First experiment has been conducted with a simple feature set that includes the fundamental local features. In the second experiment, the initial feature set has been augmented with several effective morphological features, and in the third one, the feature set has further been extended with the syntactic features. Our test results show that all classi ers have achieved better results in parallel to growing feature set. Additionally, integration of syntactic features has proved to be useful for WSD.
Anlam belirsizliğini giderme, kelimelerin bağlam içerisindeki anlamının hesaplamalı yöntemlerle belirlenmesidir. Bu çalışmanın ana konusu, çeşitli gözetimli sınıflandırma metodlarını (Naive Bayes, K Nearest Neighbor, Rocchio ve C4.5) Türkçe bir metindeki tüm sözcüklerin anlam belirsizliğini gidermek için uygulamak ve elde edilen sonuçları karşılaştırmaktır. Bu amaçla, geleneksel elle işaretleme yöntemini kullanarak Türkçe tüm sözcükler için bir derlem oluşturduk. Etiketleme esnasında, önceden çözümlenmiş (Penn Treebank) ve Türkçe ye uyarlanmış paralel bir derlem Türk Dil Kurumunun sözlüğündeki anlamlarla etiketlenmiştir. Çözümlenmiş bir derlemin etiketlenmesi bize içerisinde anlamsal ve sözdizimsel bilginin harmanlandığı tam kapsamlı bir derlem meydana getirme imkanı tanımıştır. Anlam belirsizliğini giderme testlerinde farklı özellik kümelerinin performansa olan etkisini saptamak için üç ayrı deney hazırlanmıştır. Birinci deney, temel lokal özellikleri içeren yalın bir özellik seti ile yapılmıştır. İkinci deneyde bu yalın küme çeşitli morfolojik (biçimbilimsel) özelliklerle genişletilmiştir. Üçüncü deneyde ise sözdizimsel özelliklerin eklenmesiyle daha da kapsamlı bir özellik kümesi oluşturulmuştur. Deney sonuçları tüm sınıflandırma yöntemlerinin özellik kümesinin genişletilmesine paralel olarak daha yüksek performans değerleri elde ettiğini göstermektedir. Ayrıca, sözdizimsel özelliklerin entegrasyonunun anlam belirsizliğini gidermede faydalı olduğu gösterilmiştir.

Açıklama

Text in English ; Abstract: English and Turkish
Includes bibliographical references (leaves 41-43)
x, 43 leaves

Anahtar Kelimeler

All-words WSD, Natural language processing, Supervised learning, Syntactic features, Anlam belirsizliğini giderme, Denetimli öğrenme, Doğal dil işleme, Sözdizimsel özellikler

Kaynak

WoS Q Değeri

Scopus Q Değeri

Cilt

Sayı

Künye

Akçakaya, S. (2019). All-words word sense disambiguation in Turkish. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü.