DOI

В статье рассматривается применение архитектуры UNetFormer для решения задачи семантической сегментации текстовых строк и таблиц в документах. Цель исследования - решение задачи семантической сегментации для документов, имеющих особенности, которые могут встречаться на одной странице документа: различные ориентации текста, таблицы, шумы и инородные объекты (печати, подписи). В качестве решения поставленной задачи была выбрана архитектура нейронной сети для семантической сегментации - UNetFormer, которая показывает высокую эффективность в других задачах: семантической сегментации спутниковых и медицинских снимков. Также для более эффективного обучения авторы предлагают использование метода аугментации данных в реальном времени с помощью генерации и преобразования реальных данных. Для определения ориентации текста в обучающих данных использовались карты, соответствующие различным ориентациям текста, а также карты для детекции таблиц (их ребер и узлов) и ядер строк для более точного вырезания текстовых прямоугольников с последующей обработкой моделью распознавания текста. Полученные результаты демонстрируют высокий показатель среднего значения индекса Жаккара (mIoU = 0,833) на датасете из 1230 размеченных документов, собранном авторами.
Переведенное названиеSEMANTIC SEGMENTATION OF TEXT FIELDS AND TABLES IN A DOCUMENT BASED ON THE UNETFORMER ARCHITECTURE
Язык оригиналаРусский
Страницы (с-по)49-55
Число страниц7
ЖурналСовременные наукоемкие технологии
Номер выпуска3
DOI
СостояниеОпубликовано - 2024

    Уровень публикации

  • Перечень ВАК

ID: 55416282