Корпус текстов А. П. Чехова как база идиостилевого исследования
Аннотация
В данной работе использован лексико-статистический анализ как средство описания идиостиля А. П. Чехова, показано, как на базе частотной лексики, выбранной из разных текстов одного автора, можно судить об особенностях его идиостиля.
В качестве источника исследования было выбрано наследие А. П. Чехова – его драматургия, проза, публицистика и переписка. Была поставлена цель: изучить идиостилевые особенности А. П. Чехова, используя лексико-статистический анализ. Для достижения данной цели был выдвинут ряд задач, среди которых сопоставительная характеристика индивидуально-авторской частотной лексики, её тематическая и функционально-текстовая характеристика и, наконец, выявление идиостилевых признаков.
В область изучения попали 635 художественных и публицистических произведений и 4390 писем А. П. Чехова, написанных в период с 1875 по 1904 гг.
Подкорпус прозы Чехова составляет 1 100 792 слова (47 % материала), драматургии — 176 629 слов (7,5 %), публицистики — 182 650 (7,8 %) и, наконец, переписки — 882 263 слова (37,7 %). Общий объём корпуса чеховских текстов — 2 342 334 слова.
Тексты были лемматизированы при помощи программы Mystem с функцией контекстного снятия омонимии и переведены в базу данных. Из каждого подкорпуса было выбрано по 2000 самых частотных знаменательных лемм. Одинаковые по объёму выборки позволяют скомпенсировать количественную разницу в исходных лексических массивах. Кроме того, в исследовании не рассматриваются служебные слова и местоимения, что объясняется «семантикоцентричностью» работы, задача которой — связать лексические частоты и текстовые стилевые черты.
Полученные списки сопоставлены и выявлены слова, которые попадают в набор самых частотных только в одном из подкорпусов. Для прозы этот список составляют 337 слов, для драматургии — 503, для публицистики — 613 и для переписки — 518 слов.
Первичный статистический анализ показал, что гигантское по объёму наследие писателя (более 2 млн слов) лексически неоднородно. Каждый под-корпус (проза, драматургия, публицистика, переписка) характеризуется своим набором часто употребляемых лексем, в то же время есть и слова, характерные для языка писателя в целом. Те из них, что резко отличаются своей частотой (в сравнении с современным частотным словарём), включают в себя некоторые архаические элементы, однако их основное количество позволяет говорить об отличии Чехова как языковой личности не только от своих современников, но и авторов XX—XXI вв.
Проведённое исследование имеет экстенсивный характер, оно в перспективе направлено на более детальную разработку семантики отдельных лексических групп и слов. На его основе можно в дальнейшем создать большой идиостилевой словарь и сформировать литературный тезаурус творчества А. П. Чехова. А предложенная модель сопоставления авторских идиостилевых «подсистем» приложима для изучения текстов других авторов, которые так же, как и Антон Павлович Чехов, реализовались в совершенно разных литературных формах.
В качестве источника исследования было выбрано наследие А. П. Чехова – его драматургия, проза, публицистика и переписка. Была поставлена цель: изучить идиостилевые особенности А. П. Чехова, используя лексико-статистический анализ. Для достижения данной цели был выдвинут ряд задач, среди которых сопоставительная характеристика индивидуально-авторской частотной лексики, её тематическая и функционально-текстовая характеристика и, наконец, выявление идиостилевых признаков.
В область изучения попали 635 художественных и публицистических произведений и 4390 писем А. П. Чехова, написанных в период с 1875 по 1904 гг.
Подкорпус прозы Чехова составляет 1 100 792 слова (47 % материала), драматургии — 176 629 слов (7,5 %), публицистики — 182 650 (7,8 %) и, наконец, переписки — 882 263 слова (37,7 %). Общий объём корпуса чеховских текстов — 2 342 334 слова.
Тексты были лемматизированы при помощи программы Mystem с функцией контекстного снятия омонимии и переведены в базу данных. Из каждого подкорпуса было выбрано по 2000 самых частотных знаменательных лемм. Одинаковые по объёму выборки позволяют скомпенсировать количественную разницу в исходных лексических массивах. Кроме того, в исследовании не рассматриваются служебные слова и местоимения, что объясняется «семантикоцентричностью» работы, задача которой — связать лексические частоты и текстовые стилевые черты.
Полученные списки сопоставлены и выявлены слова, которые попадают в набор самых частотных только в одном из подкорпусов. Для прозы этот список составляют 337 слов, для драматургии — 503, для публицистики — 613 и для переписки — 518 слов.
Первичный статистический анализ показал, что гигантское по объёму наследие писателя (более 2 млн слов) лексически неоднородно. Каждый под-корпус (проза, драматургия, публицистика, переписка) характеризуется своим набором часто употребляемых лексем, в то же время есть и слова, характерные для языка писателя в целом. Те из них, что резко отличаются своей частотой (в сравнении с современным частотным словарём), включают в себя некоторые архаические элементы, однако их основное количество позволяет говорить об отличии Чехова как языковой личности не только от своих современников, но и авторов XX—XXI вв.
Проведённое исследование имеет экстенсивный характер, оно в перспективе направлено на более детальную разработку семантики отдельных лексических групп и слов. На его основе можно в дальнейшем создать большой идиостилевой словарь и сформировать литературный тезаурус творчества А. П. Чехова. А предложенная модель сопоставления авторских идиостилевых «подсистем» приложима для изучения текстов других авторов, которые так же, как и Антон Павлович Чехов, реализовались в совершенно разных литературных формах.