Интеллектуальное извлечение данных из документов на основе системы распознавания ocrNet
Аннотация
Целью работы является проведение оценки эффективности распознавания систем OCR, а также разработка системы непрерывной аугментации данных, обеспечивающих повышение качества распознавания.
Задачи магистерской диссертации:
• провести обзор предметной области;
• изучить основные методы для распознавания символов;
• рассмотреть системы OCR;
• провести сравнительный анализ OCR систем;
• проверить тестовый набор данных;
• улучшить систему ocrNet за счет непрерывной аугментации на основе синтетических данных;
• апробировать систему распознавания ocrNet.
Объектом исследования является процесс распознавания печатных документов.
Предметом исследования выступает система оптического распознавания ocrNet.
Гипотеза. Можно предположить, что разработка системы непрерывной аугментации на основе синтетических данных повысит эффективность обучения нейронной сети, тем самым улучшит качество распознавания печатного текста.
Научная новизна магистерской диссертации заключается в разработке системы непрерывной аугментации на основе синтетических данных.
Результатом данной работы является модель непрерывной аугментации данных, преобразующая обучающую выборку непосредственно в процессе обучения нейронной сети.
Задачи магистерской диссертации:
• провести обзор предметной области;
• изучить основные методы для распознавания символов;
• рассмотреть системы OCR;
• провести сравнительный анализ OCR систем;
• проверить тестовый набор данных;
• улучшить систему ocrNet за счет непрерывной аугментации на основе синтетических данных;
• апробировать систему распознавания ocrNet.
Объектом исследования является процесс распознавания печатных документов.
Предметом исследования выступает система оптического распознавания ocrNet.
Гипотеза. Можно предположить, что разработка системы непрерывной аугментации на основе синтетических данных повысит эффективность обучения нейронной сети, тем самым улучшит качество распознавания печатного текста.
Научная новизна магистерской диссертации заключается в разработке системы непрерывной аугментации на основе синтетических данных.
Результатом данной работы является модель непрерывной аугментации данных, преобразующая обучающую выборку непосредственно в процессе обучения нейронной сети.