Проектирование и разработка системы интеллектуальной обработки документов
Аннотация
Целью работы является разработка ядра системы извлечения данных из печатных документов, в которую входит система детекции текстовых полей, таблиц и изображений, система оптического распознавания текста в выделенной предыдущей системой области, а также языковая модель, позволяющая исправлять неточности распознавания моделью OCR.
Объект исследования - системы оптического распознавания текста, а предмет - усовершенствование подхода к задаче OCR методами применения новых архитектурных решений, а также подходом к формированию обучающих данных для моделей.
В работе выдвигается гипотеза о том, что подход с использованием моделей с механизмами внимания позволит превзойти открытые решения в качестве распознавания текста как по метрикам сегментации (выделения текстовых строк), так и по метрикам распознавания текста (символьная точность и точность).
В исследовании впервые применен UNetFormer для семантической сегментации текстовых документов: выделения текстовых областей, таблиц и изображений, разработан новый подход обработки сегментационных карт для более точного вырезания строк, разработан уникальный подход с непрерывной генерацией новых данных для обучения моделей, использованы GPT-2 блоки как декодер последовательности визуальных признаков, а также разработан набор алгоритмов, позволяющих формировать структуру документа из результата работы системы. В работе используются метод эксперимента, а также сравнительного анализа: все сравниваемые модели тестировались на одинаковых данных, на которых не обучалась ни одна из представленных моделей. Результаты исследования показывают, что подход с непрерывной генерацией данных, а также использование блоков внимания в моделях приводит к более высоким метрическим результатам в задаче OCR.
Объект исследования - системы оптического распознавания текста, а предмет - усовершенствование подхода к задаче OCR методами применения новых архитектурных решений, а также подходом к формированию обучающих данных для моделей.
В работе выдвигается гипотеза о том, что подход с использованием моделей с механизмами внимания позволит превзойти открытые решения в качестве распознавания текста как по метрикам сегментации (выделения текстовых строк), так и по метрикам распознавания текста (символьная точность и точность).
В исследовании впервые применен UNetFormer для семантической сегментации текстовых документов: выделения текстовых областей, таблиц и изображений, разработан новый подход обработки сегментационных карт для более точного вырезания строк, разработан уникальный подход с непрерывной генерацией новых данных для обучения моделей, использованы GPT-2 блоки как декодер последовательности визуальных признаков, а также разработан набор алгоритмов, позволяющих формировать структуру документа из результата работы системы. В работе используются метод эксперимента, а также сравнительного анализа: все сравниваемые модели тестировались на одинаковых данных, на которых не обучалась ни одна из представленных моделей. Результаты исследования показывают, что подход с непрерывной генерацией данных, а также использование блоков внимания в моделях приводит к более высоким метрическим результатам в задаче OCR.