DSpace@Çankaya

Design of robust speaker idintification with built-in noise immunity

Basit öğe kaydını göster

dc.contributor.author Nasret Coran, Ali Najdet
dc.date.accessioned 2023-07-11T07:47:23Z
dc.date.available 2023-07-11T07:47:23Z
dc.date.issued 2021
dc.identifier.citation Nasret Coran, Ali Najdet (2021). Design of robust speaker idintification with built-in noise immunity / Gürültü ayırıma özellikli hoparlör tasarımı. Yayımlanmış doktora tezi. Ankara: Çankaya Üniversitesi, Fen Bilimleri Entitüsü. tr_TR
dc.identifier.uri http://hdl.handle.net/20.500.12416/6515
dc.description.abstract Bu tez çalışmasında, Konuşma Tanıma Sistemindeki ses izlerine göre tanımlanmasını amaçlanmış, ses izler denetimli veya denetimsiz model içerisinde işlenmiştir. Konuşma sinyali zaman değişken niteliği olarak kabul edilip frekansları zaman içerisinde değişmeye devam etmektedir. Yani sıfır geçiş sayısı ve Fourier dönüşümü gibi geleneksel konuşma tanımla sistemleri konuşmanın belirsiz doğasına dayanamaz. Bu tez çalışması, iki hedefe ulaşmayı amaçlamıştır. Birincisi gürültüye dayanıklı konuşma tanıma sistemlerini ele almak için yapılmıştır. Önerilen sistem konuşmacıyı modüle etmek için temel frekans özelliği katsayısıyla artırılan değiştirilmiş MEL frekans spektrum (cepstrum) katsayıları metodunun içerilmesinden oluşur. İki yüz elli konuşma izinden oluşan veri seti önerilen sisteme uygulanır böylece veri seti elemanlarının etiketli döngüleri kullanan özellik çıkarma şemaları altında işlendiği için özellikler matrisi oluşturulur. Bu çalışma Rastgele Orman, Besleme İleri Sinir Ağı, Model Dondurma Besleme İleri Sinir Ağı, Parçacık Yığını Optimizasyon tabanlı besleme ileri sinir ağır gibi makine öğrenme algoritmalarının uygulanmasını içerir. Her bir algoritma özellikler matrisiyle öğrenmek üzere yapılır ve daha sonra her biri kısmi verilerle test edilir. ( özellikler matrisindeki verilerin yüzde ellisi). Konuşma algılama modelini artan doğrulukla uygulamak üzere bu algoritmalar invazif olarak ele alınmıştır. Doğruluğa ulaşmak için algoritma tarafından alınan Ortalama kare hatası, Kök Ortalama hatası ve zamanın yanında Performans izleme faktörleri(ölçütler) her bir algoritma için tekrar türetilmiştir. Sonuçlar Besleme İleri Sinir Ağı tabanlı Parçacık Yığını Optimizasyonu algoritmasının diğerlerinin arasında daha iyi olduğunu ortaya çıkarmıştır. Bu modelle birlikte girdilerin yüzde doksan altısı göreceli daha kısa sürede doğru şekilde tanınmıştır. Sonuçlar Çok muhtemelen Parçacık yığını optimizasyonu yöntemi kullanarak konuşmacıların tanınmasında doğrulukta artış olduğunu gösterir, aynısı doğruluğu yüzde doksan altı seviyesine artırmıştır. Tezin ikinci aşamasında istenen sesi diğer seslerden ( Kokteyl parti etkisi olarak ifade edilir) odaklayabilen ve izole edebilen model önermektir. Problem motivasyon ise aynı anda bir çok kişinin konuşması ve ilave olarak TV, araçlar vb gibi farklı kaynaklardan sesler olması durumunda tüm bu akustiklere bağlı olarak bozulma ve kakafoni(ahenksizlik) ortaya çıkmasıdır. Spesifik bir sesi algılayabilmek için arka plandaki diğer tüm sesleri susturmak gerekir. Önerilen model kaynak ayrıştırması için Tam Evrişimli Ağ (FCN) ve İki Yönlü Kısa Süreli Hafıza(BLTSM) metotlarını birleştirerek her bir kişiyi ayrı ayrı tanıyabilecek derin öğrenme kullanır. FCN görüntü piksellerini piksel sınıflarına dönüştürmek için evrişimli sinir ağı kullanır. CNN'nin aksine FCN tahminlerin girdi görüntü için bire bir karşılık içermesini sağladığından emin olmak için dönüştürüşmüş evrişim (konvolüsyon) katmanı aracılığıyla girdi görüntü boyutu elde etmek için ara katman özellik haritasının genişlik ve yüksekliğini dönüştürür. BLSTM girdi/çıktı dizilerinden geçmiş ve gelecekten içeriksel bilgileri kullanan tekrarlayan NN'dir. Burada saklı katmanlar BLSTM katmanlarıdır ve LSTM çıkış katmanınıdır. FCN-BLSTM ağır tekli modele göre (FCN veya BLSTM) ses verilerinin spektro-zamansal özelliklerini daha iyi şekilde uygulayabilir. Bu yaklaşımda ilk olarak girdi dizisinde gelen spesifik kaynak büyüklük spektrogramının ilk öngörüsünü elde etmek üzere FCN uygulanır. Daha sonra FCN çıkış dizisini iyileştirmek için ilk öngörü BLSTM'ye geçer. Sonuçlar elde edilen ses sinyalinden elde edilen doğruluğun gösterdiği gibi istenen konuşmacı ses sinyalini diğer seslerden başarılı şekilde izole edebildiğini göstermektedir. tr_TR
dc.description.abstract Speaker recognition system aims to identify the speakers by their voice imprint as these imprints are processed with supervised or unsupervised model. Speech signal is considered as time variant quantity where its frequencies are keep changing with time. So, the conventional speech recognition schemes such as number of zero crossings and Fourier Transform cannot stand with uncertain nature of speech. This work intends to be achieved two goals. The first part is made to discuss noise resistive speaker recognition system. The proposed system is composed contained of modified mel frequency cepstrum coefficients method enhances by Fundamental frequency feature coefficient to modulate the speaker. A dataset consisting of two-hundred and fifty speech imprints are applied to the proposed system so that features matrix is constructed as the dataset elements are treated under features extraction schemes using of labelled loops. The study involved deploying of machine learning algorithms such as Random Forest, Feed Forward Neural Network, Model Freezing Feed Forward Neural Network and Particle Swarm Optimization based Feed Forward Neural Network. Each algorithm is made to learn through the feature's matrix and then, each is tested by partial data (thirty percent of total data in features matrix). The algorithms are studied invasively in order to implement a speaker recognition model with enhanced accuracy. Performance monitoring factors (metrics) re derived for each algorithm to identify the recognition accuracy as well as the Mean Square Error, Root Mean Square Error and the time taken by the algorithm to reach that accuracy. The results revealed that Feed Forward Neural Network based Particle Swarm Optimization algorithm is outperformed among the others. A ninety-six percent of the input are correctly recognized by this model with relatively short processing time. The results show an accuracy enhancement in identification of the speakers which is made using advance optimization algorithm that is more likely Particle swarm optimization, the same enhanced the accuracy to be ninety-six percent. The second part of thesis is to propose a model that can focus and isolate desired voice from other voices (which is termed as Cocktail Party effect). The problem motivation is, in case there are many people talking at the same time in addition to various voices form different resources such as TVs, cars, etc, then there will be a form of cacophony and interference due to all these acoustics. In order to recognized specific voice, there is a need to shut out all other voices in the background. The proposed model is utilized deep learning that have ability to recognize each person separately. combining Fully Convolutional Network (FCN) and a Bidirectional Long Short-Term Memory (BLSTM) for source separation. The FCN utilizes a convolutional neural network (CNN) to convert image pixels to pixel classes. In contrast to the CNN, an FCN converts the width and height of the intermediate layer feature map returning to the input image size throughout the transposed convolution layer, to make sure that the predictions include a one-to-one correspondence for input image. BLSTM is an (LSTM) recurrent NN that utilizes contextual info from past and future from the input/output sequences. In which the hidden layers are BLSTM layers and LSTM is the output layer. The FCN-BLSTM network is able to captures the characteristics of spectro-temporal of the audio data much better than single model (FCN or BLSTM). In this approach the FCN is applied first to acquire an initial estimation of the magnitude spectrogram of the specific source coming from the input sequence. Then the initial estimation is passed to BLSTM network to improve the output sequence of the FCN. The results show that the system is successfully isolate desired speaker voice from other voices with good accuracy as shown from retrieve voice signal. tr_TR
dc.language.iso eng tr_TR
dc.rights info:eu-repo/semantics/openAccess tr_TR
dc.subject Mel Frequency Cepstrum Coefficients tr_TR
dc.subject Feed Forward Neural Network tr_TR
dc.subject Neural Network and Particle Swarm Optimization tr_TR
dc.subject Cocktail Party Effect tr_TR
dc.subject Fully Convolutional Network tr_TR
dc.subject Bidirectional Long Short-Term Memory tr_TR
dc.subject Mel Frekans Cepstrum Katsayıları tr_TR
dc.subject Besleme İleri Sinir Ağı tr_TR
dc.subject Rastgele Orman Sinir Ağı tr_TR
dc.subject Model Dondurma Besleme İleri Sinir Ağu ve Parçacık Yığın Optimizasyonu tr_TR
dc.title Design of robust speaker idintification with built-in noise immunity tr_TR
dc.title.alternative Gürültü ayırıma özellikli hoparlör tasarımı tr_TR
dc.type doctoralThesis tr_TR
dc.identifier.startpage 1 tr_TR
dc.identifier.endpage 120 tr_TR
dc.contributor.department Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Elektronik ve Haberleşme Mühendisliği Bölümü tr_TR


Bu öğenin dosyaları:

Bu öğe aşağıdaki koleksiyon(lar)da görünmektedir.

Basit öğe kaydını göster