Разработка прототипа системы получения юридической информации из документов

Бородин Степан Алексеевич

Аннотация


Цель работы – создать прототип онлайн системы, способный получать различного рода информацию из всех популярных форматов файлов, таких как DOCS, EXEL, PDF, PNG и JPEG, производить их ранжирование, а также предоставлять совместный доступ к ним.
Результатом проделанной работы стала разработка web-приложения, которое позволяет получать различную юридическую информацию из документов и изображений.
Приложение разработано на языке Python, для хранения данных выбрана СУБД SQLite3, для детектирования подписей была обучена модель YOLOv5x, для получения русского печатного текста использовалась библиотека PyTesseract, для получения русского рукописного текста была создана и обучена собственная модель ResNet, для извлечения именованных сущностей была дообучена модель RuBert. Потенциальными пользователями системы могут стать любые организации и предприятия, которые нуждаются в автоматизации документооборота.