Improved microphone array design with statistical speaker identification methods

dc.contributor.advisorEskil, Mustafa Taneren_US
dc.contributor.authorDemir, Kadir Erdemen_US
dc.contributor.otherIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.date.accessioned2016-08-02T13:51:05Z
dc.date.available2016-08-02T13:51:05Z
dc.date.issued2016-05-17
dc.departmentIşık Üniversitesi, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Yüksek Lisans Programıen_US
dc.descriptionText in English ; Abstract: English and Turkishen_US
dc.descriptionIncludes bibliographical references (leaves 45-48)en_US
dc.descriptionxi, 48 leavesen_US
dc.description.abstractConventional microphone array implementations aim to lock onto a source with given location and if required, tracking it. This implementation is straightforward when the location or the path of the sourceand interference are provided. It becomes a challenge to detect the intended source when multiple unknown sources exist in the same environment. Performance of speaker identification degrades drastically when the speech signal is severely distorted by additive noise and reverberation. In such environments microphone arrays are often utilized as a means of improving the quality of capture speech signals. Both microphone array and speaker identification are mature fields. The advances of these two distinct fields can be combined into one system that maximizes gain on the intended speaker, which is the topic of this thesis. We utilize microphone array methods to improve the accuracy of speaker identification in a cocktail party environment. When the source and interferences are localized microphone array can be tuned to further reduce noise and increase the gain. In this thesis we developed a robust simulation environment to demonstrate to proposed improved microphone array design with statistical speaker identification. This is an open source implementation in which users can assign spakers anywhere in the room. We proposed two features; fusion based, and computationally efficient N-Gram for speaker identification. We demonstrated that the proposed features and the algorithm that leverages the synergy of microphone array processing and speaker identification methods outperforms conventional algorithms.en_US
dc.description.abstractMikrofon dizilerinin kazancı dizini boyutlarını büyüterek artırabilir fakat kazancı artırmak için sensör eklemek çok maliyetlidir. Bu nedenle eğer ortamda yeterince ortam olsa bile algoritma karışıklığını artırarak kazancı artırma tercih edilir. Spektral dizi işleme metodlarında odaklanılmak istenen kişinin ve gürültünün bulunduğu pozisyonların bilinmesi büyük avantaj sağlar. Geleneksel metodlar bu problemi istatistiksel olmayan yöntemlerle çözmeye çalışır. Ayrıca ses tanıma metodlarının performansları gürültü oranının yüksek olduğu ortamlarda azalır. Bu gibi ortamlarda mikrofon dizilerinin kullanılması ses sinyalinin kalitesini artırır. Bu nedenlerden dolayı mikrofon dizileri ve ses tanıma metodları birbirine katkı sağlar. Bu çalışmamızda mikrofon dizisi sistemi ses tanıma sistemi tek bir sistemin parçaları olarak tasarlanmıştır. Mikrofon dizisi kullanarak ses tanıma sisteminin doğruluğu artırılırken ses tanıma sisteminin sonuçları kullanılarakta mikrofon dizisinin kazancı artırılmıştır. Ses tanıma sistemi uygulamasında Fusion ve N-Gram temel frekans yöntemleri önerilmiştir. Gelişmiş mikrofon tasarımını gösterebilmek için simülasyon ortamı konuşmacıların odanın herhangi bir yerine eklenebileceği bir simülasyon ortamı geliştirilmiştir.Simülasyon ortamında deneyler sonucu önerilen metodların geleneksel metodlar üstün olduğu gözlemlenmiştir.en_US
dc.description.tableofcontentsIntroductionen_US
dc.description.tableofcontentsConventional Microphone Array Processingen_US
dc.description.tableofcontentsDescription Of Problemen_US
dc.description.tableofcontentsMathematical Description Of Problemen_US
dc.description.tableofcontentsSpatial Aliasingen_US
dc.description.tableofcontentsNear Field Behaviouren_US
dc.description.tableofcontentsDelay-sum Beam formeren_US
dc.description.tableofcontentsConventional Microphone Array Summaryen_US
dc.description.tableofcontentsSpeaker Identificationen_US
dc.description.tableofcontentsSpeaker Identification Fundamentalsen_US
dc.description.tableofcontentsFront-End Overviewen_US
dc.description.tableofcontentsSpectral Featuresen_US
dc.description.tableofcontentsProsodic Featuresen_US
dc.description.tableofcontentsSpeaker Modellingen_US
dc.description.tableofcontentsGaussian Mixture Modelen_US
dc.description.tableofcontentsN-Gram Modelen_US
dc.description.tableofcontentsMicrophone Array Post Filteringen_US
dc.description.tableofcontentsNarrow Band and Broad Band Beamformersen_US
dc.description.tableofcontentsSimilarities With FIR Filteringen_US
dc.description.tableofcontentsPattern Shapingen_US
dc.description.tableofcontentsSpeaker Identification Experiments And Resultsen_US
dc.description.tableofcontentsFeature Selection And Modellingen_US
dc.description.tableofcontentsExprimental Resultsen_US
dc.description.tableofcontentsMicrophone Array Experiments and Resultsen_US
dc.description.tableofcontentsParameters of Directivity Patternen_US
dc.description.tableofcontentsSimulation Environmenten_US
dc.description.tableofcontentsEffect Of Frequency On Directivity Patternen_US
dc.description.tableofcontentsEffect Of Distance Between Microphonesen_US
dc.description.tableofcontentsEffects of Aperture Counten_US
dc.description.tableofcontentsMicrophone Array Experiments and Resultsen_US
dc.description.tableofcontentsLocalization Experiments and Resultsen_US
dc.description.tableofcontentsPattern Shaping Resultsen_US
dc.description.tableofcontentsConclusionen_US
dc.description.tableofcontentsFindings and Contributionsen_US
dc.description.tableofcontentsSome Remaining Questions And Directions For Further Researchen_US
dc.identifier.citationDemir, K. E. (2016). Improved microphone array design with statistical speaker identification methods. İstanbul: Işık Üniversitesi Fen Bilimleri Enstitüsü.en_US
dc.identifier.urihttps://hdl.handle.net/11729/1069
dc.institutionauthorDemir, Kadir Erdemen_US
dc.language.isoenen_US
dc.publisherIşık Üniversitesien_US
dc.relation.publicationcategoryTezen_US
dc.rightsinfo:eu-repo/semantics/openAccessen_US
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 United States*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/us/*
dc.subject.lccTK5102.9 .D46 2016
dc.subject.lcshSignal processing--Digital techniques.en_US
dc.subject.lcshSignal processing--Statistical methods.en_US
dc.subject.lcshAdaptive signal processing.en_US
dc.subject.lcshSignal processing--Digital techniques--Data processing.en_US
dc.subject.lcshSignal processing--Mathematical models.en_US
dc.titleImproved microphone array design with statistical speaker identification methodsen_US
dc.title.alternativeİstatistiksel ses tanıma metodları ile gelişmiş mikrofon dizisi tasarımıen_US
dc.typeMaster Thesisen_US

Dosyalar

Orijinal paket
Listeleniyor 1 - 1 / 1
Yükleniyor...
Küçük Resim
İsim:
1069.pdf
Boyut:
19.55 MB
Biçim:
Adobe Portable Document Format
Açıklama:
MasterThesis
Lisans paketi
Listeleniyor 1 - 1 / 1
Küçük Resim Yok
İsim:
license.txt
Boyut:
1.71 KB
Biçim:
Item-specific license agreed upon to submission
Açıklama: