N-фонемна модель розпізнавання мовних сигналів на основі прихованих Марківських процесів

Автор(и)

DOI:

https://doi.org/10.18372/2073-4751.82.20366

Ключові слова:

мовні сигнали, фонемне розпізнавання мови, приховані Марківські процеси, вплив завад, ймовірність розпізнавання мови

Анотація

В даній роботі вирішено актуальну наукову задачу підвищення ймовірності розпізнавання команд та злитної мови в радіотехнічних пристроях та засобах телекомунікацій в умовах дії спотворюючих факторів шляхом розробки нових моделей розпізнавання. Запропоновано з допомогою використання прихованих Марківських процесів проводити ймовірнісний опис одно-, трьох- та чотирьохфонемної моделі розпізнавання мовних сигналів, що дає можливість теоретично оцінити ймовірність розпізнавання з використанням кожної з моделей. На основі порівняльного аналізу було досліджено чотирьохфонемну модель розпізнавання мовних сигналів, яка за рахунок вдосконалення трьохфонемної, шляхом додавання ще одного стану до моделі, дозволяє, на відміну від інших моделей розпізнавання мовних сигналів, підвищити ймовірність їх розпізнавання. Встановлена ймовірність розпізнавання мовних сигналів і команд з використанням чотирьохфонемного методу, і показано, що його застосування на практиці за допомогою розробленого програмного забезпечення дозволяє досягнути ймовірності на рівні 98%. Проведено дослідження впливу на ймовірність розпізнавання амплітудного та фазового спотворення мовного сигналу, які показали, що ймовірність розпізнавання зменшується при внесені амплітудної завади (ймовірність розпізнавання становить 81,7%) та фазової завади (ймовірність розпізнавання 92,3%) у мовний сигнал. Проведено порівняльний аналіз чотирьох- та трьохфонемних моделей, в результаті чого показано, що помилка ймовірності розпізнавання чотирьохфонемної моделі на 40% менша ніж у трьохфонемної.

Посилання

Shahamiri S. R. Speech Vision: An End-to-End Deep Learning-Based Dysarthric Automatic Speech Recognition System. IEEE Transactions on Neural Systems and Rehabilitation Engineering. 2021. Vol. 29. P. 852–861. DOI: 10.1109/TNSRE.2021.3076778.

Shi Y. et al. Keyword Guided Target Speech Recognition. IEEE Signal Processing Letters. 2024. Vol. 31. P. 1945–1949. DOI: 10.1109/LSP.2024.3432324.

Yu Z., Wang H., Ren J. RealPRNet: A Real-Time Phoneme-Recognized Network for “Believable” Speech Animation. IEEE Internet of Things Journal. 2022. Vol. 9(7). P. 5357–5367. DOI: 10.1109/JIOT.2021.3110468.

Zhu D. et al. TWLip: Exploring Through-Wall Word-Level Lip Reading Based on Coherent SISO Radar. IEEE Internet of Things Journal. 2024. Vol. 11(19). P. 32310–32323. DOI: 10.1109/JIOT.2024.3427329.

Hsiao C.-H. et al. A Text-Dependent End-to-End Speech Sound Disorder Detection and Diagnosis in Mandarin-Speaking Children. IEEE Transactions on Instrumentation and Measurement. 2024. Vol. 73. P. 1–11. doi: 10.1109/TIM.2024.3438853.

Kurtoğlu E. et al. ASL Trigger Recognition in Mixed Activity/Signing Sequences for RF Sensor-Based User Interfaces. IEEE Transactions on Human-Machine Systems. 2022. Vol. 52(4). P. 699–712. DOI: 10.1109/THMS.2021.3131675.

Lee S. et al. IR-UWB Radar-Based Contactless Silent Speech Recognition of Vowels, Consonants, Words, and Phrases. IEEE Access. 2023. Vol. 11. P. 144844–144859. DOI: 10.1109/ACCESS.2023.3344177.

Xue J. et al. Auffusion: Leveraging the Power of Diffusion and Large Language Models for Text-to-Audio Generation. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2024. Vol. 32. P. 4700–4712. DOI: 10.1109/TASLP.2024.3485485.

O'Shaughnessy D. Review of Methods for Automatic Speaker Verification. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2024. Vol. 32. P. 1776–1789. DOI: 10.1109/TASLP.2023.3346293.

Rademacher P., Wagner K. Efficient Bayesian Sequential Classification Under the Markov Assumption for Various Loss Functions. IEEE Signal Processing Letters. 2020. Vol. 27. P. 401–405. DOI: 10.1109/LSP.2020.2973854.

Marie B. et al. Phase-Sensitive Optical Time-Domain Reflectometry-Based Audio Excitation Signal Demodulation and Reproduction. IEEE Transactions on Instrumentation and Measurement. 2025. Vol. 74. P. 1–14. DOI: 10.1109/TIM.2025.3529561.

Lehmann F., Pieczynski W. Suboptimal Kalman Filtering in Triplet Markov Models Using Model Order Reduction. IEEE Signal Processing Letters. 2020. Vol. 27. P. 1100–1104. DOI: 10.1109/LSP.2020.3002420.

Liu Q. et al. Modular End-to-End Automatic Speech Recognition Framework for Acoustic-to-Word Model. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 2020. Vol. 28. P. 2174–2183. DOI: 10.1109/TASLP.2020.3009477.

Truong L. V. Replica Analysis of the Linear Model With Markov or Hidden Markov Signal Priors. IEEE Transactions on Information Theory. 2023. Vol. 69(12). P. 7953–7975. DOI: 10.1109/TIT.2023.3299490.

##submission.downloads##

Опубліковано

2025-08-23

Номер

Розділ

Статті