Детекция текстов, сгенерированных языковыми моделями: сопоставительный анализ естественных и искусственных структур

Сомрякова Алина Александровна

Аннотация


Работа посвящена сравнительному изучению двух видов текстов, сгенерированных нейронной сетью и написанных человеком, на предмет отличительных параметров. Материал исследования составили 60 эссе, 30 из которых написаны студентами УрФУ 2 и 4 курса на 3 различные темы, и еще 30 сгенерированы эссе с помощью ChatGPT также на 3 различные темы..
В первой части работы рассматривается общая характеристика жанра эссе, его структура и критерии оценки. Был проанализирован процесс работы большой языковой системы внутри технологии искусственного интеллекта на базе чат-бота Chat-GPT. Особое внимание уделяется оценке возможностей генерации эссе с помощью инструментов ChatGPT.
Во второй части работы произведённый анализ эссе был выполнен в два этапа. Первый этап – подсчет числовых данных, полученных с помощью вспомогательных инструментов, направленных на оценку статистики текста, и последующий лингвистический анализ, направленный на выявление характерных признаков для эссе студентов и эссе нейронных сетей. Второй этап – это интерпретация полученных результатов, в которой мы постараемся оценить процесс самостоятельной детекции нейронных текстов, опираясь на полученные результаты первого этапа. После интерпретации полученных результатов мы постараемся воспроизвести процесс самостоятельной детекции нейронных текстов, опираясь на полученные результаты первого и второго этапа. Большое внимание уделяется лингвистическому анализу, в ходе которого были оценены такие параметры, как соответствие стандартному плану эссе и подсчет логических частей, аргументация и внутренняя логика эссе, использование дискурсивных маркеров, перечисление, пунктуация и лексика. Выявленными маркерами искусственных языковых структур стали фактическая аргументация без описания личного опыта, обезличенность текста, ошибки генерации перечисления однородных элементов, шаблонность вводных слов, отсутствие пунктуационных ошибок.
Результаты исследования могут быть использованы в дальнейших исследованиях отличительных особенностей сгенерированного нейронной сетью текста.
В приложениях приводится 60 проанализированных эссе на английском языке.