Об алгоритмической обработке документов в формате PDF

Галимзянов Максим Радионович

Аннотация


Галимзянов М. Р. ОБ АЛГОРИТМИЧЕСКОЙ ОБРАБОТКЕ ДОКУМЕНТОВ В ФОРМАТЕ PDF, выпускная квалификационная работа бакалавра: стр. 19; рис. 2; библ. 4.
Ключевые слова: PDF, извлечение текста из PDF, распознавание таблиц, структура текста.
Цель работы — разработать подход по извлечению информации из PDF документов.
Данная работа посвящена обсуждению вопросов, связанных с извлечением информации из PDF документов. Под извлечением информации подразумевается получение текста и геометрических примитивов, расположенных на страницах документа. Также в данной работе предложен эвристический алгоритм, позволяющий на основе информации о расположении текстовых блоков и отрезков восстановить табличную структуру: определить строки и колонки.