Method of synchronization of audio and text information using speech recognition technology

Authors

  • Victor Andreevich Mishustin Donetsk National Technical University
  • Sergey Vasilyevich Ivanitsa Donetsk National Technical University

Keywords:

speech recognition system, text and audio information, hidden Markov chains, Needleman-Wunsch algorithm

Abstract

The prerequisites for using a speech recognition system to solve the problem of synchronizing audio and text information are considered. A new method of synchronization of text and audio information is proposed – by the method of speech recognition. The features of the new method are noted. A program code for word recognition is proposed to obtain time stamps of recognized words. An algorithm for synchronizing text and audio information is proposed. A study was conducted, the accuracy and completeness of synchronization were determined.

Author Biographies

Victor Andreevich Mishustin, Donetsk National Technical University

магистрант кафедры компьютерной инженерии факультета интеллектуальных систем и программирования

Sergey Vasilyevich Ivanitsa, Donetsk National Technical University

кандидат технических наук, доцент кафедры компьютерной инженерии факультета интеллектуальных систем и программирования

References

Мишустин, В. А. Исследование способов синхронизации текстовой и аудио информации

для мобильных приложений / В. А. Мишустин, С. В. Иваница // Информатика и кибернетика. – 2021. – №3(25). – С. 32–36.

Алимурадов, А. К. Обзор и классификация методов обработки речевых сигналов в системах распознавания речи / А. К. Алимурадов, П.П. Чураков // Измерение. Мониторинг. Управление. Конроль, 2015. – №2(12). – С. 27–35.

Винцюк, Т. К. Анализ, распознавание и интерпретация речевых сигналов / Т. К. Винцюк. – Киев: Наукова думка, 1987. – 264 с.

Рабинер, Л. Р. Цифровая обработка речевых сигналов: пер. с англ. / Л. Р. Рабинер, Р. В. Шафер. – М.: Радио и связь, 1981. – 496 с.

Фролов, А. В. Синтез и распознавание речи. Современные решения / А. В. Фролов, Г. В. Фролов. – М.: Связь, 2003. – 216 с.

Методы автоматического распознавания речи: в 2 кн.: пер. с англ. / У. А. Ли, Э. П. Нейбург, Т. Б. Мартин [и др.]; под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. – 328 с.

Методы автоматического распознавания речи: в 2 кн.: пер. с англ. / Д. Х. Клетт, Дж. А. Барнет, М. И. Бернстейн [и др.]; под ред. У. Ли. – М.: Мир, 1983. – Кн. 2. – 392 с.

Моттль, В. Скрытые марковские модели в структурном анализе сигналов / В. Моттль, И. Мучник. – М.: Физматлит, 1999. – 352 с.

Huang, X. Spoken Language Processing. Guide to Algorithms and System Developmen / X. Huang, A. Acero, H.-W. Hon. – Prentice Hall, 2001. – 980 p.

Open source speech recogmition toolkit [Электронный ресурс]. – Режим доступа: https://cmusphinx.github.io/

Sankoff, D. Matching Sequences under Deletion/Insertion Constraints // Proc. Nat. Acad. Sci., 1972. – РР. 4–6.

Published

2022-05-09

How to Cite

Mishustin В. А. ., & Ivanitsa С. В. . (2022). Method of synchronization of audio and text information using speech recognition technology. Informatics and Cybernetics, (1(27), 25–30. Retrieved from https://ojs.donntu.ru/index.php/infcyb/article/view/32

Issue

Section

Статьи