Unsupervised morphological analysis using tries

dc.contributor.advisorYıldız, Olcay Taneren_US
dc.contributor.authorAk, Korayen_US
dc.contributor.otherIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.date.accessioned2016-06-02T11:00:08Z
dc.date.available2016-06-02T11:00:08Z
dc.date.issued2011-04-29
dc.departmentIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 36-39)en_US
dc.descriptionviii, 40 leavesen_US
dc.description.abstractMorphological analysis or decomposition studies the structure, formation, function of words, identifies the morphemes (smallest meaning-bearing elements) of the language and attempts to formulate rules that model the language. It is widely used in different areas such as speech recognition, machine translation, information retrieval, text understanding, and statistical language modeling. Considering that the natural language processing applications are dealing with large amounts of data, it is not feasible to use linguists to analyze text corpus by hand, the complexity and real time Processing requirements leads to automated morphological analysis. As an alternative to the hand-made systems, there exist algorithms that work unsupervised manner and autonomously do morphological analysis for the words in an unannotated text corpus. In this thesis, an unsupervised leaming algorithm is proposed to extract infor-mation about the text corpus and the model of the language. The proposed algorithm constructs a trie that consists of characters and the occurrences of the words as nodes. The algorithm then detects roots of the given words by examining the occurrences in the path of the word. When the root is revealed, the algorithm creates a new trie from the affix parts, left after the root for each word. The algorithm continues recursively until there is no affbc left to process. Experimental results on three languages (Finnish, English and Turkish) show that our novel algorithm performs better than most of the previous algorithms in the field.en_US
dc.description.abstractBiçimbirim analizi ya da ayrıştırması, kelimelerin yapısını, dizilimini ve fonksiyonlarını inceler, kelimeler içindeki en küçük anlam taşıyan morfemleri belirler ve dilin modelini çıkarmaya çalışır. Konuşma işleme, bilgisayarlı çeviri, bilgi bulgetir, metin anlama ve istatiksel dil modelleme gibi alanlarda kullanılır. Biçimbirim analizi, metin içinde bir çok sözcük formu olduğundan çoğu dil için hem zor hem de gereklidir. Çekimli dillerde aynı köke ait binlerce değişik sözcük formu olabilir, bu da çekimlenmiş sözcük dizilerini oluşturmayı zor kılar. Doğal dil işleme uygulamalarının büyük verilerle çalıştığı düşünülürse bu işin dilbilimciler tarafından el ile yapılması karmaşıklık ve gerçek zamanlı işleme açısından mümkün değildir. Bu nedenle bu işlemin otomatikleşmiş biçimbirim algoritmaları tarafından yapılması gerekmektedir. Bu bağlamda öğreticisiz biçimbirim çözümleyicilerin kullanıldığı sistemlerle işlenmemiş metin bütünceleri işlenebilir. Bu çalışmada metin bütünceleri ve dilin modeli hakkında bilgi çıkarımı yapacak bir gözetimsiz öğrenme algoritması önerilmiştir. Tasarlanan algoritma, metin bütünce- sinde geçen kelimelerden oluşturduğu ağaçlar ile verilen kelimelerin kök ve eklerini kelimelerin geçme sıklığına göre bulmaya çalışmaktadır. Kelimelerin kökleri çıkarıldıktan sonra algoritma geri kalan sözcük kısımları ile ek ağaçları oluşturup özyineli bir şekilde tüm ekleri bulur. Algoritma Fince, İngilizce ve Türkçe dillerinde denenip önceki çalışmaların çoğundan iyi sonuçlar vermiştir.en_US
dc.description.tableofcontentsMorphologyen_US
dc.description.tableofcontentsLexemes and Word Formsen_US
dc.description.tableofcontentsInflection and Word Formationen_US
dc.description.tableofcontentsAllomorphyen_US
dc.description.tableofcontentsMorphological Approachesen_US
dc.description.tableofcontentsMorpho Challengeen_US
dc.description.tableofcontentsMorpho Challenge 2005en_US
dc.description.tableofcontentsMorpho Challenge 2007en_US
dc.description.tableofcontentsMorpho Challenge 2008en_US
dc.description.tableofcontentsMorpho Challenge 2009en_US
dc.identifier.citationAk, K. (2011). Unsupervised morphological analysis using tries. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsüen_US
dc.identifier.urihttps://hdl.handle.net/11729/912
dc.institutionauthorAk, Korayen_US
dc.language.isoenen_US
dc.publisherIşık Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subject.lccTK7885.6 .K67 2011
dc.subject.lcshComputer engineering.en_US
dc.titleUnsupervised morphological analysis using triesen_US
dc.title.alternativeAğaç yapısı kullanarak gözetimsiz biçimbirim analizien_US
dc.typeMaster Thesisen_US
dspace.entity.typePublication

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
11729-912.pdf
Boyut:
389.37 KB
Biçim:
Adobe Portable Document Format
Açıklama:
MasterThesis
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: