АНАЛІЗ ЕФЕКТИВНОСТІ СИСТЕМИ ГОЛОСОВОЇ ІДЕНТИФІКАЦІЇ НА ОСНОВІ MFCC ТА GMM-SVM ЗА УМОВ ВПЛИВУ ЗАВАД У КАНАЛІ ЗВ’ЯЗКУ

Автор(и)

  • Олександр Лавриненко Національний авіаційний університет, Київ, Україна
  • Денис Бахтiяров Національний авіаційний університет, Київ, Україна
  • Георгій Конахович Національний авіаційний університет, Київ, Україна
  • Віталій Курушкін Національний авіаційний університет, Київ, Україна

DOI:

https://doi.org/10.18372/2310-5461.59.17950

Ключові слова:

мовний сигнал, голосова ідентифікація, короткочасна енергія, кількість перетинів нуля, адаптивна вейвлет-фільтрація, мел-частотні кепстральні коефіцієнти, суміши Гаусових розподілів, метод опорних векторів

Анотація

У статті розглядається проблематика голосової ідентифікації особи за умов впливу завад у каналі зв’язку інформаційно-телекомунікаційних мереж. При такій ідентифікації виникають всілякі апаратні спотворення і завади, зумовлені особливостями апаратури і пристроїв для запису, обробки і зберігання інформації, а також слід зауважити, що на мовний сигнал неминуче накладаються зовнішні акустичні шуми, які можуть істотно спотворювати індивідуальні інформативні характеристики. З огляду на це системи ідентифікації, що демонстрували досить високу ефективність у лабораторних умовах, під час аналізу мовної інформації із зовнішніми шумами можуть показати надійність, значно нижчу. Нарешті, у низці завдань доводиться проводити ідентифікацію у вельми складних умовах накладення голосів кількох дикторів, зокрема з близькими акустичними характеристиками. Зазначимо, що дослідження можливостей голосової ідентифікації для цього найскладнішого випадку практично не проводилися. Зважаючи на це, головне завдання дослідження полягає в аналізі ефективності системи голосової ідентифікації на основі MFCC та GMM-SVM за умов впливу завад у каналі зв’язку інформаційно-телекомунікаційних мереж, що дасть змогу кількісно оцінити порогові значення потужності шуму при впливі яких ідентифікація особи буде вірною, а при яких хибною. Запропоновану систему голосової ідентифікації особи реалізовано за допомогою таких технологій: 1) виділення ділянок активної мови зі знаходженням значень зміни короткочасної енергії та кількості перетинів нуля між суміжними кадрами мовного сигналу; 2) адаптивна вейвлет-фільтрації мовного сигналу для вирішення задачі шумоочищення, де необхідно провести адаптивну генерацію мікролокальних порогів, що дасть змогу зменшити вплив адитивного шуму на чисту форму мовного сигналу; 3) виділення ознак розпізнавання, де як інформативні ознаки розпізнавання мовних сигналів під час автоматичної ідентифікації особи за голосом використовують мел-частотні кепстральні коефіцієнти, які засновані на двох ключових поняттях – кепстр та мел-шкала; 4) класифікації ознак розпізнавання мовних сигнаів на основі сумішей Гауссових розподілів та методу опорних векторів з використанням лінійного ядра Кампбелла та методу головних компонент з проекцією на латентні структури, що у сумі забезпечить підвищення надійності ідентифікації, що проявляється у зменшенні помилок 1-го та 2-го роду. Запропоновано методику, що дає змогу проводити класифікацію мовних сигналів при накладенні шуму шляхом математичного моделювання спотворень через застосування алгоритму предискретизації, що ґрунтується на використанні дискретного перетворення Фур'є та дає змогу підвищувати частоту дискретизації у задане ціле чи дробове число разів, де як величину, яка кількісно характеризує спотворення, використовують коефіцієнт нелінійних спотворень, який вводиться як відношення середньоквадратичної суми спектральних компонентів вихідного мовного сигналу  до середньоквадратичної суми спектральних компонентів вхідного мовного сигналу. Математичне моделювання спотворень мовних сигналів дало змогу провести кількісну оцінку величини цих спотворень, за яких можлива правильна ідентифікація особи. Це показує, що запропонований підхід до оцінки впливів спотворень може використовуватися для аналізу надійності методів голосової ідентифікації. 

 

Біографії авторів

Олександр Лавриненко, Національний авіаційний університет, Київ, Україна

Кандидат технічних наук, доцент кафедри телекомунікаційних та радіоелектронних систем Факультету аеронавігації, електроніки та телекомунікацій НАУ

Денис Бахтiяров, Національний авіаційний університет, Київ, Україна

Кандидат технічних наук, заступник декана Факультету аеронавігації, електроніки та телекомунікацій НАУ

Георгій Конахович, Національний авіаційний університет, Київ, Україна

Доктор технічних наук, професор кафедри телекомунікаційних та радіоелектронних систем Факультету аеронавігації, електроніки та телекомунікацій НАУ

Віталій Курушкін, Національний авіаційний університет, Київ, Україна

Кандидат технічних наук, доцент кафедри телекомунікаційних та радіоелектронних систем Факультету аеронавігації, електроніки та телекомунікацій НАУ

Посилання

S. Kinkiri and S. Keates, “Speaker Identification: Variations of a Human voice,” 2020 International Conference on Advances in Computing and Communication Engineering (ICACCE), Las Vegas, NV, USA, 2020, pp. 1-4, doi: 10.1109/ICACCE49060.2020.9154998.

M. Saleh and I. Jouny, “Multimodal Person Identification through the Fusion of Face and Voice Biometrics,” 2022 17th Annual System of Systems Engineering Conference (SOSE), Rochester, NY, USA, 2022, pp. 164-169, doi: 10.1109/SOSE55472.2022.9812670.

J. Gomes, H. Fernandes, S. Abraham and S. Chavan, “Person identification based on voice recognition,” 2021 4th Biennial International Conference on Nascent Technologies in Engineering (ICNTE), NaviMumbai, India, 2021, pp. 1-5, doi: 10.1109/ICNTE51185.2021.9487756.

O. Tymchenko, B. Havrysh, O. O. Tymchenko, O. Khamula, B. Kovalskyi and K. Havrysh, “Person Voice Recognition Methods,” 2020 IEEE Third International Conference on Data Stream Mining & Processing (DSMP), Lviv, Ukraine, 2020, pp. 287-290, doi: 10.1109/DSMP47368.2020.9204023.

V. UmaRani, M. P, S. M and S. Nischitha, “A Hybrid Mel Frequency Cepstral Coefficients and Bayesian Gaussian Mixure Model for Voice based Authentication Websites,” 2023 International Conference on Device Intelligence, Computing and Communication Technologies, (DICCT), Dehradun, India, 2023, pp. 367-370, doi: 10.1109/DICCT56244.2023.10110176.

Q. Chen, J. Li and Y. Li, “Forensic identification for electronic disguised voice based on supervector and statistical analysis,” 2016 Conference of The Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques (O-COCOSDA), Bali, Indonesia, 2016, pp. 147-150, doi: 10.1109/ICSDA.2016.7919001.

M. Nalini, R. Gayathiri, A. V, A. L. G and H. D, “Automatic Optimized Voice Based Gender Identification for Speech Recognition,” 2022 International Conference on Power, Energy, Control and Transmission Systems (ICPECTS), Chennai, India, 2022, pp. 1-4, doi: 10.1109/ICPECTS56089.2022.10047573.

M. Aliaskar, T. Mazakov, A. Mazakova, S. Jomartova and T. Shormanov, “Human voice identification based on the detection of fundamental harmonics,” 2022 IEEE 7th International Energy Conference (ENERGYCON), Riga, Latvia, 2022, pp. 1-4, doi: 10.1109/ENERGYCON53164.2022.9830471.

B. A. Alsaify, H. S. Abu Arja, B. Y. Maayah, M. M. Al-Taweel, R. Alazrai and M. I. Daoud, “Voice-Based Human Identification using Machine Learning,” 2022 13th International Conference on Information and Communication Systems (ICICS), Irbid, Jordan, 2022, pp. 205-208, doi: 10.1109/ICICS55353.2022.9811154.

O. Lavrynenko, G. Konakhovych and D. Bakhtiiarov, “Method of voice control functions of the UAV,” 2016 4th International Conference on Methods and Systems of Navigation and Motion Control (MSNMC), 2016, pp. 47-50, doi: 10.1109/MSNMC.2016.7783103.

O. Veselska, O. Lavrynenko, R. Odarchenko, M. Zaliskyi, D. Bakhtiiarov, M. Karpinski and S. Rajba, “A Wavelet-based steganographic method for text hiding in an audio signal,” Sensors, vol. 22, no. 15, pp. 1-25, doi: 10.3390/s22155832.

R. Odarchenko, O. Lavrynenko, D. Bakhtiiarov, S. Dorozhynskyi and V. A. O. Zharova, “Empirical Wavelet Transform in Speech Signal Compression Problems,” 2021 IEEE 8th International Conference on Problems of Infocommunications, Science and Technology (PIC S&T), 2021, pp. 599-602, doi: 10.1109/PICST54195.2021.9772156.

O. Lavrynenko, R. Odarchenko, G. Konakhovych, A. Taranenko, D. Bakhtiiarov and T. Dyka, “Method of Semantic Coding of Speech Signals based on Empirical Wavelet Transform,” 2021 IEEE 4th International Conference on Advanced Information and Communication Technologies (AICT), 2021, pp. 18-22, doi: 10.1109/AICT52120.2021.9628985.

O. Lavrynenko, A. Taranenko, I. Machalin, Y. Gabrousenko, I. Terentyeva and D. Bakhtiiarov, “Protected Voice Control System of UAV,” 2019 IEEE 5th International Conference Actual Problems of Unmanned Aerial Vehicles Developments (APUAVD), 2019, pp. 295-298, doi: 10.1109/APUAVD47061.2019.8943926.

##submission.downloads##

Опубліковано

31.10.2023

Номер

Розділ

Електроніка, телекомунікації та радіотехніка