Корпус текстов А. П. Чехова как база идиостилевого анализа
Аннотация
В данной работе использован лексико-статистический анализ как средство описания идиостиля А. П. Чехова, показано, как на базе частотной лексики, выбранной из разных текстов одного автора, можно судить об особенностях его идиостиля.
В качестве источника исследования было выбрано наследие А. П. Чехова – его драматургия, проза, публицистика и переписка. Была поставлена цель: изучить идиостилевые особенности А. П. Чехова, используя лексико-статистический анализ. Для достижения данной цели был выдвинут ряд задач, среди которых сопоставительная характеристика индивидуально-авторской частотной лексики, её тематическая и функционально-текстовая характеристика и, наконец, выявление идиостилевых признаков.
В область изучения попали 635 художественных и публицистических произведений и 4390 писем А. П. Чехова, написанных в период с 1875 по 1904 гг.
Подкорпус прозы Чехова составляет 1 100 792 слова (47 % материала), драматургии — 176 629 слов (7,5 %), публицистики — 182 650 (7,8 %) и, наконец, переписки — 882 263 слова (37,7 %). Общий объём корпуса чеховских текстов — 2 342 334 слова.
Тексты были лемматизированы при помощи программы Mystem с функцией контекстного снятия омонимии и переведены в базу данных. Из каждого подкорпуса было выбрано по 2000 самых частотных знаменательных лемм. Полученные списки сопоставлены и выявлены слова, которые попадают в набор самых частотных только в одном из подкорпусов. Для прозы этот список составляют 337 слов, для драматургии — 503, для публици-стики — 613 и для переписки — 518 слов.
Проведённое исследование имеет экстенсивный характер, оно в пер-спективе направлено на более детальную разработку семантики отдельных лексических групп и слов. На его основе можно в дальнейшем создать большой идиостилевой словарь и сформировать литературный тезаурус творчества А. П. Чехова. А предложенная модель сопоставления автор-ских идиостилевых «подсистем» приложима для изучения текстов других авторов, которые так же, как и Антон Павлович Чехов, реализовались в совершенно разных литературных формах.
В качестве источника исследования было выбрано наследие А. П. Чехова – его драматургия, проза, публицистика и переписка. Была поставлена цель: изучить идиостилевые особенности А. П. Чехова, используя лексико-статистический анализ. Для достижения данной цели был выдвинут ряд задач, среди которых сопоставительная характеристика индивидуально-авторской частотной лексики, её тематическая и функционально-текстовая характеристика и, наконец, выявление идиостилевых признаков.
В область изучения попали 635 художественных и публицистических произведений и 4390 писем А. П. Чехова, написанных в период с 1875 по 1904 гг.
Подкорпус прозы Чехова составляет 1 100 792 слова (47 % материала), драматургии — 176 629 слов (7,5 %), публицистики — 182 650 (7,8 %) и, наконец, переписки — 882 263 слова (37,7 %). Общий объём корпуса чеховских текстов — 2 342 334 слова.
Тексты были лемматизированы при помощи программы Mystem с функцией контекстного снятия омонимии и переведены в базу данных. Из каждого подкорпуса было выбрано по 2000 самых частотных знаменательных лемм. Полученные списки сопоставлены и выявлены слова, которые попадают в набор самых частотных только в одном из подкорпусов. Для прозы этот список составляют 337 слов, для драматургии — 503, для публици-стики — 613 и для переписки — 518 слов.
Проведённое исследование имеет экстенсивный характер, оно в пер-спективе направлено на более детальную разработку семантики отдельных лексических групп и слов. На его основе можно в дальнейшем создать большой идиостилевой словарь и сформировать литературный тезаурус творчества А. П. Чехова. А предложенная модель сопоставления автор-ских идиостилевых «подсистем» приложима для изучения текстов других авторов, которые так же, как и Антон Павлович Чехов, реализовались в совершенно разных литературных формах.