Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan co-training ile Türkçe konuşma dilinin otomatik cümle bölütlemesi

Güz, Ümit; Gürkan, Hakan

Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan co-training ile Türkçe konuşma dilinin otomatik cümle bölütlemesi

dc.authorid	0000-0002-4597-0954
dc.authorid	0000-0002-7008-4778
dc.contributor.author	Güz, Ümit	en_US
dc.contributor.author	Gürkan, Hakan	en_US
dc.date.accessioned	2020-05-13T08:49:48Z
dc.date.available	2020-05-13T08:49:48Z
dc.date.issued	2015-04
dc.department	Işık Üniversitesi, Mühendislik Fakültesi, Elektrik-Elektronik Mühendisliği Bölümü	en_US
dc.department	Işık University, Faculty of Engineering, Department of Electrical-Electronics Engineering	en_US
dc.description.abstract	Co-training, web sayfası sınıflandırması, kelime anlam açıklaştırma ve adlandırılmış varlık tanıma gibi pek çok sınıflandırma işlevinde başarı ile kullanılan oldukça etkili bir makine öğrenme algoritmasıdır. Co-training, elle etiketlenmiş eğitim veri setine, etiketlenmemiş büyük miktarlardaki veriyi belirli miktarlarda etiketleyerek katmak suretiyle öğreticili öğrenme algoritmalarının performansını arttıran bir yarı öğreticili öğrenme metodudur. Co-training algoritmaları etiketlenmiş giriş verisine ilişkin farklı bakışlar üzerinde eğitilmiş iki veya daha fazla sınıflandırıcının üretilmesi ve daha sonra bu sınıflandırıcıların etiketlenmemiş veriyi ayrı ayrı etiketlemesi için kullanıldığı algoritmalardır. Otomatik olarak en güvenilir biçimde etiketlenmiş örnekler daha sonra insanlar tarafından elle etiketlenmiş veriye katılmaktadır. Bu işlem pekçok defa devam ettirilmektedir. Bu projede konuşma verisine ilişkin bürünsel, sözcüksel ve biçimbilgisel bilgilerin bakış olarak kullanıldığı co-training ile cümle bölütlemenin gerçekleştirilmesi ele alınmıştır. Cümle Bölütleme işlevi standart konuşma tanıyıcılarının çıkışından elde edilen işlenmemiş kelime dizisi biçimindeki veriyi zenginleştirmeyi amaçlayan bir işlemdir. Bu işlemin rolü, kelime dizisi biçiminde olan verinin cümle ünitelerine ayrılmasını sağlamaktır. Cümle Bölütleme konuşma anlamaya kadar olan süreçte ilk adımdır. Cümle bölütleme işlevi, çözümleme, makine çevirimi, bilgi çıkarımı gibi cümle bölütlemenin yapıldığının varsayıldığı konuşma işlemenin daha ileri uygulamaları için bir ön adım olarak gerçekleştirilmektedir. Cümle sınırları belirlendikten sonra bu cümleler üzerinde daha ileri düzeydeki sözdizimsel ve/veya anlamsal analizler gerçekleştirilebilmektedir. Bu projede konuşma özellikleri (bürünsel, sözcüksel ve biçimbilgisel) ayrışık ve doğal özellik seti olarak ele alınmış ve bu özellik setlerinin co-training algoritması ile kullanılması ile baseline sistemin performansının arttırılmasına çalışılmıştır. Ayrıca, co-training için uzlaşma ve uzlaşmama adı verilen farklı öğrenme stratejileri de araştırılmıştır. Buna ek olarak, self-combined adını verdiğimiz ve kendi kendine eğitme ile co-training yaklaşımlarının bir araya getirildiği bir yaklaşım da öne sürülmüştür.	en_US
dc.description.abstract	Co-training is a very effective machine learning technique that has been used successfully in several classification tasks like web page classification, word sense disambiguation, and named entity recognition. Co-training is a semi-supervised learning method that aims to improve performance of a supervised learning algorithm by incorporating large amounts of unlabeled data into the training data set. Co-training algorithms work by generating two or more classifiers trained on different views of the input labeled data that are then used to label the unlabeled data separately. The most confidently labeled examples of the automatically labeled data can then be added to the set of manually labeled data. The process may continue for several iterations. In this project, we have described the application of the co-training method for sentence segmentation where we used the prosodic, lexical and morphological information as the views of the data. Sentence segmentation from speech is part of a process that aims at enriching the unstructured stream of words that are the output of standard speech recognizers. Its role is to find the sentence units in this stream of words. Sentence segmentation is a preliminary step toward speech understanding. It is of particular importance for speech related applications, as most of the further processing steps, such as parsing, machine translation and information extraction, assume the presence of sentence boundaries. In this project, we consider the speech features (prosodic, lexical and morphological) as disjoint and natural feature sets or views and we try to improve performance of the baseline by using these feature sets with the co-training algorithm, Furthermore we have tried to investigate the different learning strategies for the co-training such as agreement and disagreement. In addition to these strategies it has been proposed that a new approach that we called self-combined which is the mixed version of the self-training and co-training approaches.	en_US
dc.description.sponsorship	TÜBİTAK	en_US
dc.identifier.citation	Güz, Ü. & Gürkan, H. (2015). Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan co-training ile Türkçe konuşma dilinin otomatik cümle bölütlemesi. Tübitak, 1-155.	en_US
dc.identifier.endpage	155
dc.identifier.startpage	1
dc.identifier.uri	https://hdl.handle.net/11729/2316
dc.identifier.uri	https://search.trdizin.gov.tr/tr/yayin/detay/614499
dc.indekslendigikaynak	TR-Dizin	en_US
dc.institutionauthor	Güz, Ümit	en_US
dc.institutionauthor	Gürkan, Hakan	en_US
dc.institutionauthorid	0000-0002-4597-0954
dc.institutionauthorid	0000-0002-7008-4778
dc.language.iso	tr	en_US
dc.publisher	Tübitak	en_US
dc.relation.tubitak	info:eu-repo/grantAgreement/TUBITAK/EEEAG/111E228
dc.rights	info:eu-repo/semantics/openAccess	en_US
dc.subject	Co-training	en_US
dc.subject	Cümle bölütleme	en_US
dc.subject	Bürünsel	en_US
dc.subject	Biçimbilgisel	en_US
dc.subject	Sözcüksel	en_US
dc.subject	Kendi kendine eğitme	en_US
dc.subject	Boosting	en_US
dc.title	Bürünsel, sözcüksel ve biçimbilgisel bilgiyi kullanan co-training ile Türkçe konuşma dilinin otomatik cümle bölütlemesi	en_US
dc.type	Project	en_US
dspace.entity.type	Project

Dosyalar

Orijinal paket

Listeleniyor 1 - 1 / 1

İsim:: 2316.pdf
Boyut:: 1.82 MB
Biçim:: Adobe Portable Document Format
Açıklama:: Proje Dosyası

İndir

Lisans paketi

Listeleniyor 1 - 1 / 1

İsim:: license.txt
Boyut:: 1.44 KB
Biçim:: Item-specific license agreed upon to submission
Açıklama:

İndir

Koleksiyon

Makale Koleksiyonu | Elektrik-Elektronik Mühendisliği Bölümü
Projeler
TR-Dizin İndeksli Yayınlar Koleksiyonu