Yıldız, Olcay TanerAkçakaya, SinanIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programı2019-10-212019-10-212019-09-06Akçakaya, S. (2019). All-words word sense disambiguation in Turkish. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü.https://hdl.handle.net/11729/2204Text in English ; Abstract: English and TurkishIncludes bibliographical references (leaves 41-43)x, 43 leavesWord sense disambiguation (WSD) is the identi cation of the meaning of words in context in a computational manner. The main subject of this study is to implement and compare the WSD results of various supervised classi ers (Naive Bayes, K Nearest Neighbor, Rocchio and C4.5) in all-words setting. To this end, we have constructed an all-words sense annotated Turkish corpus, using traditional method of manual tagging. During the annotation, a pre-built parallel treebank (aligned from Penn Treebank) has been tagged with the senses of Turkish Language Institutions dictionary. The approach of annotating a treebank allowed us to generate a full-coverage resource, in which syntactic and semantic information merged. In the WSD evaluations, three distinct experiments have been organized to determine the efect of using different feature sets on the disambiguation performance. First experiment has been conducted with a simple feature set that includes the fundamental local features. In the second experiment, the initial feature set has been augmented with several effective morphological features, and in the third one, the feature set has further been extended with the syntactic features. Our test results show that all classi ers have achieved better results in parallel to growing feature set. Additionally, integration of syntactic features has proved to be useful for WSD.Anlam belirsizliğini giderme, kelimelerin bağlam içerisindeki anlamının hesaplamalı yöntemlerle belirlenmesidir. Bu çalışmanın ana konusu, çeşitli gözetimli sınıflandırma metodlarını (Naive Bayes, K Nearest Neighbor, Rocchio ve C4.5) Türkçe bir metindeki tüm sözcüklerin anlam belirsizliğini gidermek için uygulamak ve elde edilen sonuçları karşılaştırmaktır. Bu amaçla, geleneksel elle işaretleme yöntemini kullanarak Türkçe tüm sözcükler için bir derlem oluşturduk. Etiketleme esnasında, önceden çözümlenmiş (Penn Treebank) ve Türkçe ye uyarlanmış paralel bir derlem Türk Dil Kurumunun sözlüğündeki anlamlarla etiketlenmiştir. Çözümlenmiş bir derlemin etiketlenmesi bize içerisinde anlamsal ve sözdizimsel bilginin harmanlandığı tam kapsamlı bir derlem meydana getirme imkanı tanımıştır. Anlam belirsizliğini giderme testlerinde farklı özellik kümelerinin performansa olan etkisini saptamak için üç ayrı deney hazırlanmıştır. Birinci deney, temel lokal özellikleri içeren yalın bir özellik seti ile yapılmıştır. İkinci deneyde bu yalın küme çeşitli morfolojik (biçimbilimsel) özelliklerle genişletilmiştir. Üçüncü deneyde ise sözdizimsel özelliklerin eklenmesiyle daha da kapsamlı bir özellik kümesi oluşturulmuştur. Deney sonuçları tüm sınıflandırma yöntemlerinin özellik kümesinin genişletilmesine paralel olarak daha yüksek performans değerleri elde ettiğini göstermektedir. Ayrıca, sözdizimsel özelliklerin entegrasyonunun anlam belirsizliğini gidermede faydalı olduğu gösterilmiştir.Approaches to WSD ProblemWSD VariantsWSD ApproachesKnowledge-Based DisambiguationCorpus-Based DisambiguationSupervised Disambiguationk-Nearest NeighborRocchio AlgorithmNaive BayesC4.5 AlgorithmSemi-supervised DisambiguationUnsupervised DisambiguationRelated WorkThe SENSEVAL/SEMEVAL CompetitionsTurkish WSD WorksDataset ConstructionInput CorpusAlignmentMorphological AnalysisAnnotation MethodologySense InventoryBasic Data FormatAnnotation ToolFeatures and Statistics of the CorpusFeaturesEvaluationEvaluation MeasuresBaselinesExperimental Resultseninfo:eu-repo/semantics/openAccessAttribution-NonCommercial-NoDerivs 3.0 United StatesAll-words WSDNatural language processingSupervised learningSyntactic featuresAnlam belirsizliğini gidermeDenetimli öğrenmeDoğal dil işlemeSözdizimsel özelliklerQA76.9.N38 A33 2019Natural language processing (Computer science)All-words word sense disambiguation in TurkishTürkçe tüm sözcükler için anlam belirsizliğini gidermeMaster Thesis