Проблема автоматизированного выделения синонимических рядов в электронном тезаурусе русского языка

Антропова Оксана Игоревна

Аннотация


С тех пор, как появился в открытом доступе принстонский WordNet – первый электронный тезаурус, по всему миру активно разрабатываются подобные ресурсы для различных языков (EuroWordNet, MultiWordNet, BalkaNet, BabelNet и др.). Это неудивительно, поскольку они широко применяются для решения различных задач автоматической обработки текстов: информационный поиск, классификация текстов, автоматическое реферирование, вопросно-ответные системы и др.
Проект Yet Another RussNet (далее YARN) ставит целью создать открытый электронный тезаурус русского языка (Браславский, и др., 2013). Ключевая особенность проекта – использование краудсорсинга. Такое решение было принято, поскольку, с одной стороны, разработка подобного ресурса силами ограниченной группы экспертов может занимать годы; с другой, метод автоматического перевода WordNet, позволяющий получить подобный ресурс быстро, не обладает достаточной точностью.
Использование знаний множества добровольцев – носителей русского языка, значительно ускоряет разработку тезауруса и, при грамотном использовании, обладает большей точностью, чем автоматические методы. К сожалению, этот метод также не лишён недостатков. Дело в том, что обычные носители языка, не будучи лингвистами, часто допускают следующие ошибки: добавляют в синсет не только синонимы, но также гипо-гиперонимы и когипонимы. Кроме того, различные волонтёры создают похожие, но не идентичные синсеты для одного и того же понятия. Поэтому, в настоящий момент в YARN для одного смысла, как правило, имеется множество синсетов-дубликатов различного качества.
Цель данной работы – разработка и применение автоматизированного метода, позволяющего выделить один синсет приемлемого качества для каждой группы дубликатов. В рамках работы было разработано несколько методов кластеризации синсетов и выделения действительно релевантных слов. Полученные методы апробированы на специально созданной вручную выборке. Проведена их оценка и сравнение.
В результате получены два метода, позволяющих обнаруживать синсеты-дубликаты с большей полнотой, чем в других известных нам работах на эту тему (Киселёв, и др., 2018) и (Kiselev, и др., 2016). Кроме того, разработан достаточно простой метод выделения относительно чистого синсета из группы «зашумлённых» дубликатов, который может использоваться в дальнейших исследованиях в качестве отправной точки (baseline).