Improved microphone array design with statistical speaker identification methods

Küçük Resim



Dergi Başlığı

Dergi ISSN

Cilt Başlığı


Işık Üniversitesi

Erişim Hakkı

Attribution-NonCommercial-NoDerivs 3.0 United States

Araştırma projeleri

Organizasyon Birimleri

Dergi sayısı


Conventional microphone array implementations aim to lock onto a source with given location and if required, tracking it. This implementation is straightforward when the location or the path of the sourceand interference are provided. It becomes a challenge to detect the intended source when multiple unknown sources exist in the same environment. Performance of speaker identification degrades drastically when the speech signal is severely distorted by additive noise and reverberation. In such environments microphone arrays are often utilized as a means of improving the quality of capture speech signals. Both microphone array and speaker identification are mature fields. The advances of these two distinct fields can be combined into one system that maximizes gain on the intended speaker, which is the topic of this thesis. We utilize microphone array methods to improve the accuracy of speaker identification in a cocktail party environment. When the source and interferences are localized microphone array can be tuned to further reduce noise and increase the gain. In this thesis we developed a robust simulation environment to demonstrate to proposed improved microphone array design with statistical speaker identification. This is an open source implementation in which users can assign spakers anywhere in the room. We proposed two features; fusion based, and computationally efficient N-Gram for speaker identification. We demonstrated that the proposed features and the algorithm that leverages the synergy of microphone array processing and speaker identification methods outperforms conventional algorithms.
Mikrofon dizilerinin kazancı dizini boyutlarını büyüterek artırabilir fakat kazancı artırmak için sensör eklemek çok maliyetlidir. Bu nedenle eğer ortamda yeterince ortam olsa bile algoritma karışıklığını artırarak kazancı artırma tercih edilir. Spektral dizi işleme metodlarında odaklanılmak istenen kişinin ve gürültünün bulunduğu pozisyonların bilinmesi büyük avantaj sağlar. Geleneksel metodlar bu problemi istatistiksel olmayan yöntemlerle çözmeye çalışır. Ayrıca ses tanıma metodlarının performansları gürültü oranının yüksek olduğu ortamlarda azalır. Bu gibi ortamlarda mikrofon dizilerinin kullanılması ses sinyalinin kalitesini artırır. Bu nedenlerden dolayı mikrofon dizileri ve ses tanıma metodları birbirine katkı sağlar. Bu çalışmamızda mikrofon dizisi sistemi ses tanıma sistemi tek bir sistemin parçaları olarak tasarlanmıştır. Mikrofon dizisi kullanarak ses tanıma sisteminin doğruluğu artırılırken ses tanıma sisteminin sonuçları kullanılarakta mikrofon dizisinin kazancı artırılmıştır. Ses tanıma sistemi uygulamasında Fusion ve N-Gram temel frekans yöntemleri önerilmiştir. Gelişmiş mikrofon tasarımını gösterebilmek için simülasyon ortamı konuşmacıların odanın herhangi bir yerine eklenebileceği bir simülasyon ortamı geliştirilmiştir.Simülasyon ortamında deneyler sonucu önerilen metodların geleneksel metodlar üstün olduğu gözlemlenmiştir.


Text in English ; Abstract: English and Turkish
Includes bibliographical references (leaves 45-48)
xi, 48 leaves

Anahtar Kelimeler


WoS Q Değeri

Scopus Q Değeri




Demir, K. E. (2016). Improved microphone array design with statistical speaker identification methods. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü.