DOI

Актуальность работы обусловлена сложностями устного взаимодействия людей с нарушениями речи с нормотипичными собеседниками, а также низким качеством распознавания аномальной речи стандартными системами распознавания речи и невозможностью создания системы, способной обработать любые нарушения речи. В связи с этим данная статья направлена на разработку метода автоматического распознавания дизартричной речи с применением предобученной нейронной сети для распознавания фонем и скрытых марковских моделей для преобразования фонем в текст и последующей коррекции результатов распознавания с помощью поиска в пространстве допустимых слов ближайшего по расстоянию Левенштейна слова и динамического алгоритма разбиения выхода модели на отдельные слова. Основное преимущество использования скрытых марковских моделей по сравнению с нейронными сетями заключается в малом размере обучающего набора данных, собираемого индивидуально для каждого пользователя, а также в простоте дообучения модели в случае прогрессирующих нарушений речи. Описывается набор данных для обучения модели, и даются рекомендации по сбору и разметке данных для обучения модели. Эффективность предложенного метода проверяется на индивидуальном наборе данных, записанных человеком с дизартрией; качество распознавания сравнивается с нейросетевыми моделями, обученными на используемом наборе данных. Материалы статьи представляют практическую ценность для создания средства дополненной коммуникации для людей с нарушениями речи.
Переведенное названиеРАСПОЗНАВАНИЕ ДИЗАРТРИЧНОЙ РЕЧИ ПО ФОНЕМАМ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ
Язык оригиналаАнглийский
Номер статьи20
ЖурналМоделирование, оптимизация и информационные технологии
Том12
Номер выпуска1 (44)
DOI
СостояниеОпубликовано - 2024

    Уровень публикации

  • Перечень ВАК

ID: 55704531