Точність систем автоматичного розпізнавання мовлення, навчених на зашумленому мовленні

Автор(и)

  • A. Prodeus Національний технічний університет України «Київський політехнічний інститут ім. І. Сікорського»
  • K. Kukharicheva Національний технічний університет України «Київський політехнічний інститут ім. І. Сікорського»

DOI:

https://doi.org/10.18372/1990-5548.49.11230

Ключові слова:

автоматичне розпізнавання мовлення, точність розпізнавання мовлення, метод навчання, чисте мовлення, зашумлене мовлення

Анотація

Виконано порівняння двох методів навчання системи автоматичного розпізнавання мовлення на зашумленому мовленні із методом навчання на чистому мовленні. Порівняння виконано для чотирнадцяти видів шумів із використанням такої міри, як точність розпізнавання. Використано шуми побутової техніки та комп’ютерів, вуличні шуми та шуми транспорту, шуми в навчальних приміщеннях та вестибюлях. Одержано оцінки ступеню переваги методів навчання на зашумленому мовленні над конкурентним методом. Показано, що при навчанні назашумленому мовленні точності розпізнавання 95% можна досягнути при відношеннях сигнал-шум, не меншихза 10 дБ, тоді як при навчанні на чистому мовленні можна досягнути такої ж точності при відношенні сигнал-шум, не менших за 20 дБ

Біографії авторів

A. Prodeus, Національний технічний університет України «Київський політехнічний інститут ім. І. Сікорського»

Доктор технічних наук. Професор. Кафедра акустики та акустоелектроніки

K. Kukharicheva, Національний технічний університет України «Київський політехнічний інститут ім. І. Сікорського»

Аспірант. Кафедра акустики та акустоелектроніки

Посилання

Researchers fine-tune F-35 pilot-aircraft speech system. Available: https://web.archive.org/web/20071020030310/http://www.af.mil/news/story.asp? id=123071861

E. Craparo, and E. Feron, “Natural Language Processing in the Control of Unmanned Aerial Vehicles”, Proceeding of AIAA Guidance, Navigation, and Control Conference, pp. 1-13, August 2004.

X. Huang, A. Acero, and H.-W.Hon, Spoken Language Processing: a Guide to Theory, Algorithm, and system development. Prentice Hall, Inc., 2001, 965 p.

R.P. Lippmann, E.A. Martin, and D.P. Paul, "Multi-Style Training for Robust Isolated-Word Speech Recognition," Int. Conf. on Acoustics, Speech and Signal Processing, pp. 709-712, 1987, Dallas, TX.

J. Rajnoha, “Multi-Condition Training for Unknown Environment Adaptation in Robust ASR Under Real Conditions,” Acta Polytechnica vol. 49, no. 2–3, pp. 3-7, 2009.

J. Li, L. Deng, Y. Gong, and R. Haeb-Umbach, “An Overview of Noise-Robust Automatic Speech Recognition,” IEEE/ACM Trans. Audio, Speech, and Language Processing, vol. 22, no. 4, pp. 745-777, February 2014.

The HTK Book / Ed. S. Young, G. Evermann, M. Gales. Cambridge: University Engineering Department, 2009, 375 p.

A. Prodeus and V. P. Ovsianyk, “Estimation of late reverberation spectrum: Optimization of parameters,” Radioelectronics and Communications Systems, vol. 58, Is. 7, pp.322-328, July 2015.

V.S. Didkovskyi, S.A. Naida, and O.A. Zubchenko, “Technique for rigidity determination of the materials for ossicles prostheses of human middle ear,” Radioelectronics and Communications Systems, vol. 58, no. 3, pp. 134-138, 2015.

K. Pylypenko and A. Prodeus, “Noise Impact Assessment on the Accuracy of the Determination of Speaker’s Gender by Using Method of the Cumulant Coefficients,” XIth International Conference "Perspective Technologies and Methods in MEMS Design (MEMSTECH 2015), Lviv–Polyana, Ukraine, pp. 102-106, 2-6 September 2015.

##submission.downloads##

Номер

Розділ

ТЕОРІЯ ТА МЕТОДИ ОБРОБЛЕННЯ СИГНАЛІВ