Improved microphone array design with statistical speaker identification methods
dc.contributor.advisor | Eskil, Mustafa Taner | en_US |
dc.contributor.author | Demir, Kadir Erdem | en_US |
dc.contributor.other | Işık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programı | en_US |
dc.date.accessioned | 2016-08-02T13:51:05Z | |
dc.date.available | 2016-08-02T13:51:05Z | |
dc.date.issued | 2016-05-17 | |
dc.department | Işık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programı | en_US |
dc.description | Text in English ; Abstract: English and Turkish | en_US |
dc.description | Includes bibliographical references (leaves 45-48) | en_US |
dc.description | xi, 48 leaves | en_US |
dc.description.abstract | Conventional microphone array implementations aim to lock onto a source with given location and if required, tracking it. This implementation is straightforward when the location or the path of the sourceand interference are provided. It becomes a challenge to detect the intended source when multiple unknown sources exist in the same environment. Performance of speaker identification degrades drastically when the speech signal is severely distorted by additive noise and reverberation. In such environments microphone arrays are often utilized as a means of improving the quality of capture speech signals. Both microphone array and speaker identification are mature fields. The advances of these two distinct fields can be combined into one system that maximizes gain on the intended speaker, which is the topic of this thesis. We utilize microphone array methods to improve the accuracy of speaker identification in a cocktail party environment. When the source and interferences are localized microphone array can be tuned to further reduce noise and increase the gain. In this thesis we developed a robust simulation environment to demonstrate to proposed improved microphone array design with statistical speaker identification. This is an open source implementation in which users can assign spakers anywhere in the room. We proposed two features; fusion based, and computationally efficient N-Gram for speaker identification. We demonstrated that the proposed features and the algorithm that leverages the synergy of microphone array processing and speaker identification methods outperforms conventional algorithms. | en_US |
dc.description.abstract | Mikrofon dizilerinin kazancı dizini boyutlarını büyüterek artırabilir fakat kazancı artırmak için sensör eklemek çok maliyetlidir. Bu nedenle eğer ortamda yeterince ortam olsa bile algoritma karışıklığını artırarak kazancı artırma tercih edilir. Spektral dizi işleme metodlarında odaklanılmak istenen kişinin ve gürültünün bulunduğu pozisyonların bilinmesi büyük avantaj sağlar. Geleneksel metodlar bu problemi istatistiksel olmayan yöntemlerle çözmeye çalışır. Ayrıca ses tanıma metodlarının performansları gürültü oranının yüksek olduğu ortamlarda azalır. Bu gibi ortamlarda mikrofon dizilerinin kullanılması ses sinyalinin kalitesini artırır. Bu nedenlerden dolayı mikrofon dizileri ve ses tanıma metodları birbirine katkı sağlar. Bu çalışmamızda mikrofon dizisi sistemi ses tanıma sistemi tek bir sistemin parçaları olarak tasarlanmıştır. Mikrofon dizisi kullanarak ses tanıma sisteminin doğruluğu artırılırken ses tanıma sisteminin sonuçları kullanılarakta mikrofon dizisinin kazancı artırılmıştır. Ses tanıma sistemi uygulamasında Fusion ve N-Gram temel frekans yöntemleri önerilmiştir. Gelişmiş mikrofon tasarımını gösterebilmek için simülasyon ortamı konuşmacıların odanın herhangi bir yerine eklenebileceği bir simülasyon ortamı geliştirilmiştir.Simülasyon ortamında deneyler sonucu önerilen metodların geleneksel metodlar üstün olduğu gözlemlenmiştir. | en_US |
dc.description.tableofcontents | Introduction | en_US |
dc.description.tableofcontents | Conventional Microphone Array Processing | en_US |
dc.description.tableofcontents | Description Of Problem | en_US |
dc.description.tableofcontents | Mathematical Description Of Problem | en_US |
dc.description.tableofcontents | Spatial Aliasing | en_US |
dc.description.tableofcontents | Near Field Behaviour | en_US |
dc.description.tableofcontents | Delay-sum Beam former | en_US |
dc.description.tableofcontents | Conventional Microphone Array Summary | en_US |
dc.description.tableofcontents | Speaker Identification | en_US |
dc.description.tableofcontents | Speaker Identification Fundamentals | en_US |
dc.description.tableofcontents | Front-End Overview | en_US |
dc.description.tableofcontents | Spectral Features | en_US |
dc.description.tableofcontents | Prosodic Features | en_US |
dc.description.tableofcontents | Speaker Modelling | en_US |
dc.description.tableofcontents | Gaussian Mixture Model | en_US |
dc.description.tableofcontents | N-Gram Model | en_US |
dc.description.tableofcontents | Microphone Array Post Filtering | en_US |
dc.description.tableofcontents | Narrow Band and Broad Band Beamformers | en_US |
dc.description.tableofcontents | Similarities With FIR Filtering | en_US |
dc.description.tableofcontents | Pattern Shaping | en_US |
dc.description.tableofcontents | Speaker Identification Experiments And Results | en_US |
dc.description.tableofcontents | Feature Selection And Modelling | en_US |
dc.description.tableofcontents | Exprimental Results | en_US |
dc.description.tableofcontents | Microphone Array Experiments and Results | en_US |
dc.description.tableofcontents | Parameters of Directivity Pattern | en_US |
dc.description.tableofcontents | Simulation Environment | en_US |
dc.description.tableofcontents | Effect Of Frequency On Directivity Pattern | en_US |
dc.description.tableofcontents | Effect Of Distance Between Microphones | en_US |
dc.description.tableofcontents | Effects of Aperture Count | en_US |
dc.description.tableofcontents | Microphone Array Experiments and Results | en_US |
dc.description.tableofcontents | Localization Experiments and Results | en_US |
dc.description.tableofcontents | Pattern Shaping Results | en_US |
dc.description.tableofcontents | Conclusion | en_US |
dc.description.tableofcontents | Findings and Contributions | en_US |
dc.description.tableofcontents | Some Remaining Questions And Directions For Further Research | en_US |
dc.identifier.citation | Demir, K. E. (2016). Improved microphone array design with statistical speaker identification methods. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü. | en_US |
dc.identifier.uri | https://hdl.handle.net/11729/1069 | |
dc.institutionauthor | Demir, Kadir Erdem | en_US |
dc.language.iso | en | en_US |
dc.publisher | Işık Üniversitesi | en_US |
dc.relation.publicationcategory | Tez | en_US |
dc.rights | info:eu-repo/semantics/openAccess | en_US |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 United States | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/us/ | * |
dc.subject.lcc | TK5102.9 .D46 2016 | |
dc.subject.lcsh | Signal processing--Digital techniques. | en_US |
dc.subject.lcsh | Signal processing--Statistical methods. | en_US |
dc.subject.lcsh | Adaptive signal processing. | en_US |
dc.subject.lcsh | Signal processing--Digital techniques--Data processing. | en_US |
dc.subject.lcsh | Signal processing--Mathematical models. | en_US |
dc.title | Improved microphone array design with statistical speaker identification methods | en_US |
dc.title.alternative | İstatistiksel ses tanıma metodları ile gelişmiş mikrofon dizisi tasarımı | en_US |
dc.type | Master Thesis | en_US |