В статті представлені результати поточних досліджень багаторівневого багатозначного підходу до автоматичного розуміння мовлення, який призначений для мов з розвинутою словозміною та з відносно вільним порядком слів. Ідея використовувати мовленнєві образи на рівні частин слова для пофонемного
розпізнавання є продуктивною, оскільки зростання обсягу лексикону практично не призводить до збільшення множини частин слова. Дослідження зосереджено на рівні пофонемного розпізнавання з метою подальшого переходу на лексичний рівень. Щоб зменшити показник помилково розпізнаних фонем, будується граматика декодера на основі вільного слідування частин слова. Подаються способи побудови множини (алфавіту) складів за текстовим корпусом. Описуються підходи до формування навчальної та контрольних вибірок для пофонемного розпізнавання злитого мовлення. Для експериментальних досліджень проведено роботу зі створення корпусу опорного диктора. Порівнюється надійність пофонемного розпізнавання з використанням граматик на основі складів і фонем. Обговорюються придатність отриманих результатів для використання в лексичному рівні, проблеми та майбутні дослідження.
В работе представлены результаты текущих исследований в рамках подхода многоуровневого многозначного автоматического понимания речи, предназначенного для языков с развитым словоизменением и с относительно свободным порядком слов, поскольку рост объема лексикона практически не приводит к увеличению множества частей слова. Предлагаются способы построения множества (алфавита) слогов по текстовому корпусу. Описываются подходы к формированию обучающей выборки и контрольных выборок для фонемного распознавания слитной речи. Сравнивается надежность фонемного распознавания с использованием грамматик на основе слогов и фонем. Пригодность результатов к использованию в качестве входных данных лексического уровня является предметом будущих исследований.
The paper presents advances in a multi-level automatic speech understanding approach that is initially developed for highly inflective languages with relatively free word order since word lexicon growth leads to practically no new sub-word items. The ways to select a set of sub-word units like syllables are considered. The proposed procedure to select a set of sentences containing all phoneme-triphones allowed for creation the text for training corpus. Three control sets were formed by different ways. The recognition accuracy has been compared to free phoneme order grammar. The results show the promising input for the next lexical level of the multi-level automatic speech understanding system.