Решение задач анализа и прогнозирования для набора данных новостных интернет-постов методами машинного обучения
Аннотация
В наши дни университеты становятся не только образовательными учреждениями, но и научными и общественными центрами. Для достижения этих целей университеты должны взаимодействовать с другими частями гражданского общества, частично эти контакты переносятся в виртуальную среду. Цель данной работы заключается в анализе информации из социальной сети ВКонтакте для выявления направленности тематик публикуемых постов в сообществах категории «Университеты». Для анализа текстовых данных использовались методы машинного обучения. В работе предложен универсальный метод разбиения данных в соответствии с темами используя технику кластеризации. Разработан скрипт классификации постов. Был произведен анализ вовлеченности аудитории в обсуждение информационных материалов университетов. В качестве языка программирования использовался Python 3 с библиотеками, включая библиотеки для обработки естественного языка, и методы API «ВКонтакте» для получения постов сообществ.
Nowadays, universities are becoming not only educational institutions, but also scientific and social centers. To achieve these goals, universities have to interact with other parts of the civil society, these interactions are partially shifted into the virtual sphere. The purpose of this work is to analyze the data mined from the VKontakte social network to identify the topics of published posts in the communities of the category "University". To analyze these text data, machine learning methods have been used. This work proposes the universal method of topics detection using a clustering technique. A script for classifying posts has been developed. Analysis of audience engagement into discussion of the universities' information materials has been carried out. As a programming tool, Python 3 with several libraries including those for natural text analysis, and VKontakte API methods have been used.
Nowadays, universities are becoming not only educational institutions, but also scientific and social centers. To achieve these goals, universities have to interact with other parts of the civil society, these interactions are partially shifted into the virtual sphere. The purpose of this work is to analyze the data mined from the VKontakte social network to identify the topics of published posts in the communities of the category "University". To analyze these text data, machine learning methods have been used. This work proposes the universal method of topics detection using a clustering technique. A script for classifying posts has been developed. Analysis of audience engagement into discussion of the universities' information materials has been carried out. As a programming tool, Python 3 with several libraries including those for natural text analysis, and VKontakte API methods have been used.