Automatic speech recognition system for Turkish spoken language
dc.authorid | 0000-0002-7035-8724 | |
dc.contributor.advisor | Güz, Ümit | en_US |
dc.contributor.author | Dalva, Doğan | en_US |
dc.contributor.other | Işık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Yüksek Lisans Programı | en_US |
dc.date.accessioned | 2016-06-09T06:30:09Z | |
dc.date.available | 2016-06-09T06:30:09Z | |
dc.date.issued | 2012-06-21 | |
dc.department | Işık Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik Mühendisliği Yüksek Lisans Programı | en_US |
dc.description | Text in English ; Abstract: English and Turkish | en_US |
dc.description | Includes bibliographical references (leaves 207-211) | en_US |
dc.description | xvii, 212 leaves | en_US |
dc.description.abstract | The transmission and storage of speech sounds is possible for decades. In addition by using signal processing techniques, it is also possible tp process speech signals. By using time abd frequency analysis od speech signal and several machine learning algorithms, it is possible to build a system which is used to recognize spoken words. Such systems are called Automatic Speech Recognition systems. In our work, We have used the Automatic Speech Recognition system for Turkish spoken language which has built by BUSIM speech group. However, the output of the recognizer is the list of spoken words. Even for humans it is avery hard to understand a text without punctuation symbols. Hence to build more complex recognizer whose goal to perform topic segmentation and topic summarization, the output of ASR should be divided into sentences at first. Our goal is to build a system which performs the sentence segmentation. In our work We have used ASR system to obtain word level and phoneme level time marks and by using that time marks with the audio files, We have extracted prosodic features, where the prosodic properties of speech contains information about the punctuation in the text, which is not available at the output of ASR system. | en_US |
dc.description.abstract | Uzun yıllardan beri ses ve konuşmaların saklanması ve iletilmesi mümkündür. Ayrık zamanlı ve sürekli zamanlı işaret işleme yöntemleri sayesinde ses ve konuşma işaretleri de işaretleri de işlenebilmektedir. Bununla beraber, eğitilebilen algoritmalar kullanılarak Otomatik Konuşma Tanıma ve Otomatik Konuşmacı tanıma sistemleri de geliştirilebilmektedir. Bu çalışamada Boğaziçi Üniversitesi'nde bulunan ''BUSİM spech group'' tarafından geliştirilmiştir, Türkçe dili için otomatik konuşma tanıma sistemi kullanılmıştır. Bu sistem; konuşmacıların söylediği kelimeleri bir liste halinde dökebilmektedir. Ancak; bir insan için bile noktalama işaretlerinden yoksun bir metinden bilgi alabilmek oldukça zordur. Bu sebebten dolayı konu bölütleme veya konu özetleme gibi daha ileri uygulamaları yapabilmek için, öncelikle cümle bölütleme işlemenin yapılması gerekmektedir. Dil bilgisine uygun bir yazılı metindeki noktalama işaretleri, diksiyonda vurgu ile belirtilmektedir. Başka bir deyişle bu özellikler konuşma işaretinin bürünsel özellikleridir. Amacımız, Otomatik Konuşma Sisteminin çıktıları ile ses işaretinin bürünsel özelliklerini kullanarak cümle bölütlenmesini otamatik yapabilenbir sistem geliştirmektedir. | en_US |
dc.description.tableofcontents | Communication of Human | en_US |
dc.description.tableofcontents | The Speech Chain | en_US |
dc.description.tableofcontents | The Process of Human Speech Production | en_US |
dc.description.tableofcontents | The Process of Human Hearing and Perception the Sound | en_US |
dc.description.tableofcontents | Speech Signal Processing | en_US |
dc.description.tableofcontents | Speech Properties and Speech Waveform | en_US |
dc.description.tableofcontents | Short-Time Fourier Representation of Speech | en_US |
dc.description.tableofcontents | Acoustic Phonetics | en_US |
dc.description.tableofcontents | Speech Signal Processing in Time Domain | en_US |
dc.description.tableofcontents | Speech Signal Processing in Frequency Domain | en_US |
dc.description.tableofcontents | Homomorphic Speech Signal Processing | en_US |
dc.description.tableofcontents | Linear Predictive Analysis | en_US |
dc.description.tableofcontents | The Speech Recognition Problem | en_US |
dc.description.tableofcontents | Introduction to Automatic Speech Recognition | en_US |
dc.description.tableofcontents | Approaches of ASR | en_US |
dc.description.tableofcontents | Complexity of the ASR System | en_US |
dc.description.tableofcontents | Building a Speech Recognition System | en_US |
dc.description.tableofcontents | Performance Evaluation of Speech Recognizers | en_US |
dc.description.tableofcontents | Modeling a Speech Recognizer | en_US |
dc.description.tableofcontents | Dynamic Time Warping | en_US |
dc.description.tableofcontents | One Stage (OS) Algorithm | en_US |
dc.description.tableofcontents | Hidden Markov Modeling | en_US |
dc.description.tableofcontents | Acoustic Modeling | en_US |
dc.description.tableofcontents | Language Modeling | en_US |
dc.description.tableofcontents | Hidden Markov Model Toolkit | en_US |
dc.description.tableofcontents | Prosody and Prosodic Feature Extraction | en_US |
dc.description.tableofcontents | The Definition of Prosody | en_US |
dc.description.tableofcontents | The Prosodic Features | en_US |
dc.description.tableofcontents | Prosodic Feature Extraction | en_US |
dc.description.tableofcontents | Sentence Boundary Detection Using Prosodic Features and Learning Algorithms | en_US |
dc.description.tableofcontents | Sentence Segmentation Problem | en_US |
dc.description.tableofcontents | Supervised and Semi-Supervised Learning Algorithms | en_US |
dc.description.tableofcontents | Model Training Procedure | en_US |
dc.description.tableofcontents | Conclusion and Test Results | en_US |
dc.description.tableofcontents | Data Sets and Overview of the Used Method | en_US |
dc.description.tableofcontents | Single-Speaker Based Tests | en_US |
dc.description.tableofcontents | Multi-Speaker Based Tests | en_US |
dc.identifier.citation | Dalva, D. (2012). Automatic speech regognition system for Turkish spoken language. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü | en_US |
dc.identifier.uri | https://hdl.handle.net/11729/973 | |
dc.institutionauthor | Dalva, Doğan | en_US |
dc.institutionauthorid | 0000-0002-7035-8724 | |
dc.language.iso | en | en_US |
dc.publisher | Işık Üniversitesi | en_US |
dc.relation.publicationcategory | Tez | en_US |
dc.rights | info:eu-repo/semantics/openAccess | en_US |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
dc.subject | Prosody | en_US |
dc.subject | Speech recognition | en_US |
dc.subject | Konuşma tanıma | en_US |
dc.subject | Prozodi | en_US |
dc.subject.lcc | TK7882.S65 D35 2012 | |
dc.subject.lcsh | Speech processing systems. | en_US |
dc.subject.lcsh | Speech synthesis. | en_US |
dc.subject.lcsh | Automatic speech recognition. | en_US |
dc.title | Automatic speech recognition system for Turkish spoken language | en_US |
dc.title.alternative | Türkçe dili için otomatik konuşma tanıma sistemi | en_US |
dc.type | Master Thesis | en_US |
dspace.entity.type | Publication |