All-words word sense disambiguation in Turkish
dc.contributor.advisor | Yıldız, Olcay Taner | en_US |
dc.contributor.author | Akçakaya, Sinan | en_US |
dc.contributor.other | Işık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programı | en_US |
dc.date.accessioned | 2019-10-21T02:54:34Z | |
dc.date.available | 2019-10-21T02:54:34Z | |
dc.date.issued | 2019-09-06 | |
dc.department | Işık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programı | en_US |
dc.description | Text in English ; Abstract: English and Turkish | en_US |
dc.description | Includes bibliographical references (leaves 41-43) | en_US |
dc.description | x, 43 leaves | en_US |
dc.description.abstract | Word sense disambiguation (WSD) is the identi cation of the meaning of words in context in a computational manner. The main subject of this study is to implement and compare the WSD results of various supervised classi ers (Naive Bayes, K Nearest Neighbor, Rocchio and C4.5) in all-words setting. To this end, we have constructed an all-words sense annotated Turkish corpus, using traditional method of manual tagging. During the annotation, a pre-built parallel treebank (aligned from Penn Treebank) has been tagged with the senses of Turkish Language Institutions dictionary. The approach of annotating a treebank allowed us to generate a full-coverage resource, in which syntactic and semantic information merged. In the WSD evaluations, three distinct experiments have been organized to determine the efect of using different feature sets on the disambiguation performance. First experiment has been conducted with a simple feature set that includes the fundamental local features. In the second experiment, the initial feature set has been augmented with several effective morphological features, and in the third one, the feature set has further been extended with the syntactic features. Our test results show that all classi ers have achieved better results in parallel to growing feature set. Additionally, integration of syntactic features has proved to be useful for WSD. | en_US |
dc.description.abstract | Anlam belirsizliğini giderme, kelimelerin bağlam içerisindeki anlamının hesaplamalı yöntemlerle belirlenmesidir. Bu çalışmanın ana konusu, çeşitli gözetimli sınıflandırma metodlarını (Naive Bayes, K Nearest Neighbor, Rocchio ve C4.5) Türkçe bir metindeki tüm sözcüklerin anlam belirsizliğini gidermek için uygulamak ve elde edilen sonuçları karşılaştırmaktır. Bu amaçla, geleneksel elle işaretleme yöntemini kullanarak Türkçe tüm sözcükler için bir derlem oluşturduk. Etiketleme esnasında, önceden çözümlenmiş (Penn Treebank) ve Türkçe ye uyarlanmış paralel bir derlem Türk Dil Kurumunun sözlüğündeki anlamlarla etiketlenmiştir. Çözümlenmiş bir derlemin etiketlenmesi bize içerisinde anlamsal ve sözdizimsel bilginin harmanlandığı tam kapsamlı bir derlem meydana getirme imkanı tanımıştır. Anlam belirsizliğini giderme testlerinde farklı özellik kümelerinin performansa olan etkisini saptamak için üç ayrı deney hazırlanmıştır. Birinci deney, temel lokal özellikleri içeren yalın bir özellik seti ile yapılmıştır. İkinci deneyde bu yalın küme çeşitli morfolojik (biçimbilimsel) özelliklerle genişletilmiştir. Üçüncü deneyde ise sözdizimsel özelliklerin eklenmesiyle daha da kapsamlı bir özellik kümesi oluşturulmuştur. Deney sonuçları tüm sınıflandırma yöntemlerinin özellik kümesinin genişletilmesine paralel olarak daha yüksek performans değerleri elde ettiğini göstermektedir. Ayrıca, sözdizimsel özelliklerin entegrasyonunun anlam belirsizliğini gidermede faydalı olduğu gösterilmiştir. | en_US |
dc.description.tableofcontents | Approaches to WSD Problem | en_US |
dc.description.tableofcontents | WSD Variants | en_US |
dc.description.tableofcontents | WSD Approaches | en_US |
dc.description.tableofcontents | Knowledge-Based Disambiguation | en_US |
dc.description.tableofcontents | Corpus-Based Disambiguation | en_US |
dc.description.tableofcontents | Supervised Disambiguation | en_US |
dc.description.tableofcontents | k-Nearest Neighbor | en_US |
dc.description.tableofcontents | Rocchio Algorithm | en_US |
dc.description.tableofcontents | Naive Bayes | en_US |
dc.description.tableofcontents | C4.5 Algorithm | en_US |
dc.description.tableofcontents | Semi-supervised Disambiguation | en_US |
dc.description.tableofcontents | Unsupervised Disambiguation | en_US |
dc.description.tableofcontents | The SENSEVAL/SEMEVAL Competitions | en_US |
dc.description.tableofcontents | Turkish WSD Works | en_US |
dc.description.tableofcontents | Dataset Construction | en_US |
dc.description.tableofcontents | Input Corpus | en_US |
dc.description.tableofcontents | Alignment | en_US |
dc.description.tableofcontents | Morphological Analysis | en_US |
dc.description.tableofcontents | Annotation Methodology | en_US |
dc.description.tableofcontents | Sense Inventory | en_US |
dc.description.tableofcontents | Basic Data Format | en_US |
dc.description.tableofcontents | Annotation Tool | en_US |
dc.description.tableofcontents | Features and Statistics of the Corpus | en_US |
dc.description.tableofcontents | Features | en_US |
dc.description.tableofcontents | Evaluation | en_US |
dc.description.tableofcontents | Evaluation Measures | en_US |
dc.description.tableofcontents | Baselines | en_US |
dc.identifier.citation | Akçakaya, S. (2019). All-words word sense disambiguation in Turkish. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü. | en_US |
dc.identifier.uri | https://hdl.handle.net/11729/2204 | |
dc.institutionauthor | Akçakaya, Sinan | en_US |
dc.language.iso | en | en_US |
dc.publisher | Işık Üniversitesi | en_US |
dc.relation.publicationcategory | Tez | en_US |
dc.rights | info:eu-repo/semantics/openAccess | en_US |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
dc.subject | All-words WSD | en_US |
dc.subject | Natural language processing | en_US |
dc.subject | Supervised learning | en_US |
dc.subject | Syntactic features | en_US |
dc.subject | Anlam belirsizliğini giderme | en_US |
dc.subject | Denetimli öğrenme | en_US |
dc.subject | Doğal dil işleme | en_US |
dc.subject | Sözdizimsel özellikler | en_US |
dc.subject.lcc | QA76.9.N38 A33 2019 | |
dc.subject.lcsh | Natural language processing (Computer science) | en_US |
dc.title | All-words word sense disambiguation in Turkish | en_US |
dc.title.alternative | Türkçe tüm sözcükler için anlam belirsizliğini giderme | en_US |
dc.type | Master Thesis | en_US |
dspace.entity.type | Publication |