Проектирование цифрового сервиса извлечения из текстов вакансий структурированной информации о требованиях к соискателю с использованием технологий обработки естественного языка

Савоськина Светлана Владимировна

Аннотация


Работа посвящена решению актуальной практической задачи структуризации текстов вакансий и извлечения из них информации о требуемых навыках для обеспечения возможности применения более эффективных алгоритмов поиска в коллекции документов. Задачи обработки текстов на естественном языке в настоящее время эффективно решаются с помощью методов машинного обучения, однако большая часть из них реализована в рамках конкретных технологий и языков. Поэтому в работе рассматривается вопрос создания отдельного веб-сервиса, реализующего функции обработки текстов вакансий с использованием библиотек для машинного обучения на языке Python и предоставляющего широкому кругу сторонних приложений возможность интеграции с ним посредством RESTful API интерфейса. Структуризация текстов вакансий выполняется с использованием регулярных выражений, кластеризации и классификации, причем извлекаются не только требования к навыкам соискателя, но также и выполняется выделение структуры объявления в виде разделов и заголовков к ним.