Описана разработанная авторами техника автоматической сегментации речевых сигналов и DTW-распознавания русской речи с использованием малых речевых единиц. Предложено использовать дифоны, содержащие межфонемные переходы. Предлагаемые подходы реализованы в реальных программах распознавания, которые показывают достаточно высокий уровень надежности.
Описано розроблену авторами техніку автоматичної сегментації мовних сигналів і DTW-розпізнавання російської мови з використанням малих мовних одиниць. Запропоновано використовувати дифони, що містять міжфонемні переходи. Запропоновані підходи реалізовано в реальних програмах розпізнавання, які показують досить високий рівень надійності.
Introduction: The article describes a technique of automatic speech segmentation and DTW-recognition using minor language units, developed by the authors for Russian speech. The main tool for segmentation is a numerical analogue of the total variation. In [11, 17,19] the authors suggest using the diphones containing interphoneme transitions as the minor language units. The templates for these are used to synthesize the templates of the semantic units, i.e. words and phrases. Then the DTW algorithm (with its advantages) is applied to the recognition of a word as a whole. As the result of this procedure there is no need to pronounce the words of the vocabulary under recognition during the training, thus a possibility to set the vocabulary just in text form is created. Purpose: The purpose of the research is to reduce the size of the reference template database, and, as a consequence, the training time for a particular speaker. Results: An innovation of this research is the use of exclusively diphones, whose first sound is one of explosive (b, g, d, k, p, t), and the stationary parts of other sounds. A set of automatically generated vocabulary words’ transcriptions is organized in a tree structure, which considerably speeds up the process of recognition. The proposed approach is implemented in realrecognition software, demonstrating the high reliability.