DOI

В настоящее время одной из актуальных задач автоматизации документооборота организации в условиях поступления разнообразной документации от большого количества контрагентов является проверка и классификация сканированных материалов. В статье представлен анализ и основные характеристики существующих способов решения данной задачи. Целью исследования является разработка программного модуля, позволяющего классифицировать документы с точностью не менее 97 % в режиме реального времени, что актуально для электронного документооборота в крупных и средних компаниях. Приведено описание решения поставленной задачи на основе сверточной нейросети (CNN - Convolutional Neural Network). Входными данными для программного модуля является pdf-файл сканированного документа, выходными данными является xml-файл с классом документа. Для повышения точности и скорости работы программы были решены задачи по кодированию сигнала для нейронной сети и определению ее структуры. Приведено описание этапов обработки сканированных документов и архитектуры разработанной нейросети. Предложенный метод классификации позволяет классифицировать страницы с высокой точностью на небольшом датасете. Проведено тестирование программы на датасете из 9628 страниц и 22 возможных классов. Точность составила 99,1 %. Время классификации одной страницы без учета чтения файла и копирования в GPU составляет 2 мс на GeForce 780TI. Полное время классификации страницы составляет примерно 22,3 мс.
Переведенное названиеCLASSIFICATION OF SCANNED DOCUMENTS USING A CONVOLUTIONAL NEURAL NETWORK
Язык оригиналаРусский
Страницы (с-по)45-49
Число страниц5
ЖурналСовременные наукоемкие технологии
Номер выпуска6-1
DOI
СостояниеОпубликовано - 2021

    ГРНТИ

  • 28.23.00 Искусственный интеллект

    Уровень публикации

  • Перечень ВАК

ID: 22846309