В статье рассматривается проблема влияния речевых сбоев на процесс автоматического распознавания спонтанной украинской речи на примере автоматизированного стенографа для получения текста стенограммы из звукового файла. Записанная фонограмма обрабатывается системой распознавания слитной речи многих дикторов из больших словарей (больше 10 тыс. слов). Рассматриваются и систематизируются основные типы речевых сбоев в спонтанной украинской речи. На основе учета речевых сбоев и коррекции стенограммы производится очистка данных, что позволяет улучшать показатели надёжности распознавания речи.
У статті розглядається проблема впливу мовних збоїв на процес автоматичного розпізнавання спонтанної української мови на прикладі автоматизованого стенографа для отримання тексту стенограми із звукового файла. Записана фонограма обробляється системою розпізнавання злитого мовлення багатьох дикторів з великих словників (більше 10 тис. слів). Розглядаються і систематизуються основні типи мовних збоїв спонтанної української мови. На основі врахування мовних збоїв та корекції стенограми робиться очищення даних, що дозволяє покращувати показники надійності розпізнавання мови.
The paper is about the problem of disfluencies effect on the processing of automatic recognition of spontaneous Ukrainian speech. It is considered by example of a computerized stenographer. It makes the text from sound records based on the speech recognition system aided by human. Large vocabulary (more than 10K words) continuous speech recognition system for a number of speakers is used to process recorded files. The paper investigates and classifies the basic types of disfluencies in spontaneous Ukrainian speech. On the basis of disfluencies annotation and transcript correction the cleaning of the speech data was provided. It was made to improve the recognition rate in automatic speech recognition possible.