Sense distinction using computational methods in Turkish dictionaries

dc.contributor.advisorSolak, Ercanen_US
dc.contributor.authorErtopçu, Buraken_US
dc.contributor.otherIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.date.accessioned2018-11-07T22:56:42Z
dc.date.available2018-11-07T22:56:42Z
dc.date.issued2018-01-25
dc.departmentIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 35)en_US
dc.descriptionx, 35 leavesen_US
dc.description.abstractNLP(Natural Language Processing) refers to general name of the study elds related with processing languages by using computer-based systems. In NLP studies, dictionaries are required as lexical and semantic resources. Because in some cases, there are necessities to match the words with their correct senses for all possible words. There are some electronic dictionaries for Turkish such as \Contemporary Turkish Dictionary(CTD)" and \Kubbealt Turkish Dictionary". However, both of these two dictionaries cover similar and redundant senses for several words. There are 86.382 words exist in CTD that written by Turkish Linguistic Society( TDK). There can be more than ten senses for a single word in some cases. By that reason, it can be hard to determine which meanings are explanatory and/or required and which of them are multiplexed needlessly. This problem of finding distinguishing senses of the words is called as \Sense Distinction Problem". The aim of this study is to simplify the sense distinction decisions by using some computational methods. In this study, we focused on to analyse the similarities of word senses by using some computational methods such as; Edit Distance, Cosine Similarity and Jaccard Index Similarity on two well-known Turkish Dictionaries Contemporary Turkish Dictionary (CTD) and Kubbealt Dictionary (KD).en_US
dc.description.abstractDoğal Dil İşleme(NLP) herhangi bir dili bilgisayar bazlı sistemlerle işlemekle ilgili çalışma alanlarınn genel ismidir. NLP çalışmalarında, sözcüksel ve anlamsal kaynaklar olarak sözlüklere ihtiyaç duyulmaktadır. Bunun sebebi, bazı durumlarda sözcük ile uygun anlamını eşleştirme gereksinimi bulunmasıdır. Türkçe için; \Güncel Türkçe Sözlük" ve \Kubbealtı Lugatı" gibi elektronik sözlükler bulunmaktad ır. Ancak, bu iki sözlük de birçok sözcük için benzer ve çoklanmış sözcük anlamı içermektedir. Türk Dil Kurumu(TDK)'nun Güncel Türkçe Sözlüğünü 86.382 adet süzcük içermektedir. Tek bir sözcük için ondan fazla anlam karşılığı bulunabilir. Bu sebeple, hangi anlamların açıklayıcı ve/veya gerekli hangilerinin ise gereksizce çoklanmış olduğunu bulmak oldukça zorlaşabilir. Sözcüklerin anlamıyla ilgili yaşanan bu ayrıştırma problemine \Anlam Ayrımı Problemi" denir. Bu problem, NLP çalışmaları için minimal ve verimli bir sözlük üretmede önemli bir husustur. Özellikle Türkçe için, kelimelerin anlamları içerisinden en aydınlatıcı olanını seçmek pek kolay değildir. Biz bu çalışmada, en çok bilinen Türkçe Sözlük'lerden ikisinin(Kubbe Altı Lugatı ve TDK Güncel Türkçe Sözlük) üzerinde Levenshtein Mesafe Alogritması, Kosinüs Benzerliği ve Jaccard Benzerliği gibi hesaplamaya dayalı bazı metodlar kullanarak sözcük anlamlarının benzerliklerini analiz etmeye odaklandık.en_US
dc.description.tableofcontentsReasons That Make Turkish Dictionaries Largeren_US
dc.description.tableofcontentsSense Distinction Problems in Turkish Dictionariesen_US
dc.description.tableofcontentsDataen_US
dc.description.tableofcontentsProblem About Collecting Dataen_US
dc.description.tableofcontentsData Conversion Processen_US
dc.description.tableofcontentsImplementation of Similarity Analysisen_US
dc.description.tableofcontentsPre-processing Stageen_US
dc.description.tableofcontentsTextToVec Approachen_US
dc.description.tableofcontentsEdit Distanceen_US
dc.description.tableofcontentsCosine Similarityen_US
dc.description.tableofcontentsJaccard Similarity Indexen_US
dc.description.tableofcontentsDictionary Visualization Toolen_US
dc.description.tableofcontentsSimilarity Ratios Between Dictionaries in Terms of Word Sensesen_US
dc.description.tableofcontentsSimilarities Between Word Senses inside Each Dictionaries Separatelyen_US
dc.identifier.citationErtopçu, B. (2018).Sense distinction using computational methods in Turkish dictionaries.İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü.en_US
dc.identifier.urihttps://hdl.handle.net/11729/1378
dc.institutionauthorErtopçu, Buraken_US
dc.language.isoenen_US
dc.publisherIşık Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subjectAnalysis of textual distance and similarityen_US
dc.subjectSense distinctionen_US
dc.subjectAnlam ayrımıen_US
dc.subjectYazılar arası mesafe ve benzerliken_US
dc.subject.lccQA76.9.N38 E78 2018
dc.subject.lcshNatural language processing.en_US
dc.subject.lcshComputational linguistics.en_US
dc.subject.lcshSemantic computing.en_US
dc.titleSense distinction using computational methods in Turkish dictionariesen_US
dc.title.alternativeTürkçe sözlüklerde hesaplamaya dayalı yöntemler ile anlam ayrımıen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
1378.pdf
Boyut:
467.4 KB
Biçim:
Adobe Portable Document Format
Açıklama:
MasterThesis
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: