Технологии интеллектуальной обработки документов в группе газовых компаний методами компьютерного зрения
Аннотация
Магистерская диссертация посвящена разработке интеллектуальной системе обработки документов в нефтегазовой сфере.
Актуальность темы обусловлена тем, что организация имеет большой документооборот на предприятии, к каждому объекту прикладываются акты, из которых необходимо извлечь и перенести в архив ключевую информацию, в данный момент происходит вручную и сопровождается ошибками.
Цель диссертационного исследования заключается в разработке программного продукта, способного распознавать символы разных шрифтов и фрагментов текста, распределять документы по классам и извлекать значимые данные.
Для достижения вышеуказанной цели важно решить следующие задачи:
1. Проанализировать основные подходы к распознаванию документов;
2. Разработать метод распознавания страниц документов;
3. Разработать конвейер обработки большого потока данных.
Объектом исследования данной работы является применение технологий компьютерного зрения в рамках интеллектуальной обработки документов.
Предмет исследования: проблема обработки большого количества данных методом компьютерного зрения.
Гипотеза разработки продукта предполагает, что разработка технологий интеллектуальной обработки документов позволит предприятию повысить эффективность организационно–распорядительного документооборота и работы специалистов за счет средств интеллектуального анализа и последующей кластеризации документов.
Научная новизна работы обусловлена краткосрочным внедрением системы интеллектуальной обработки документов в эксплуатацию на предприятие за счет быстро обучаемой модели. Сотрудники предприятия самостоятельно могут добавлять новые типы документов и указывать в них нужные им ключевые поля. В работе используется два уникальных алгоритма такие как система памяти и коррекция поворота страницы.
Результатом работы является разработанные программный продукт, способный распознавать символы разных шрифтов и фрагментов текста, распределять документы по классам, извлекать значимые данные и повысить производительность бизнес-процесов
Актуальность темы обусловлена тем, что организация имеет большой документооборот на предприятии, к каждому объекту прикладываются акты, из которых необходимо извлечь и перенести в архив ключевую информацию, в данный момент происходит вручную и сопровождается ошибками.
Цель диссертационного исследования заключается в разработке программного продукта, способного распознавать символы разных шрифтов и фрагментов текста, распределять документы по классам и извлекать значимые данные.
Для достижения вышеуказанной цели важно решить следующие задачи:
1. Проанализировать основные подходы к распознаванию документов;
2. Разработать метод распознавания страниц документов;
3. Разработать конвейер обработки большого потока данных.
Объектом исследования данной работы является применение технологий компьютерного зрения в рамках интеллектуальной обработки документов.
Предмет исследования: проблема обработки большого количества данных методом компьютерного зрения.
Гипотеза разработки продукта предполагает, что разработка технологий интеллектуальной обработки документов позволит предприятию повысить эффективность организационно–распорядительного документооборота и работы специалистов за счет средств интеллектуального анализа и последующей кластеризации документов.
Научная новизна работы обусловлена краткосрочным внедрением системы интеллектуальной обработки документов в эксплуатацию на предприятие за счет быстро обучаемой модели. Сотрудники предприятия самостоятельно могут добавлять новые типы документов и указывать в них нужные им ключевые поля. В работе используется два уникальных алгоритма такие как система памяти и коррекция поворота страницы.
Результатом работы является разработанные программный продукт, способный распознавать символы разных шрифтов и фрагментов текста, распределять документы по классам, извлекать значимые данные и повысить производительность бизнес-процесов