Разработка модели машинного обучения по прогнозированию выручки компаний рынка РФ
Аннотация
Объектом исследования является показатель из отчета о финансовых результатах «Выручка компании».
Цель работы – разработать систему прогнозирования (моделирования) данного показателя с помощью модели машинного обучения, которая заменит ручной расчет, увеличит качество прогнозирования, высвободит значительные человеческие ресурсы.
В процессе разработки проводились исследования по оценке и выбору оптимального алгоритма для моделирования, настройке модели с помощью подбора параметров. Проводилось исследование по формированию новых признаков на основе имеющихся данных, их отбору, проверке достаточности признаков для получения необходимого качества моделирования.
В дополнение был разработан прототип графического интерфейса, который предположительно будет использован для удобства использования данного показателя внешними пользователям.
При разработке программного продукта использовался вычислительный сервер на базе Apache Hadoop. Для хранения данных использовалась распределенная файловая система HDFS. Для манипулирования (сбор и агрегация) данными использовался PySpark. Данные преобразовывались с помощью Dataframe (полностью в памяти, без сохранения на диск). Для написания проекта использовался язык программирования Python. Для размещения проекта, управления и контроля версий использовался Bitbucket.
Для моделирования использовались библиотеки машинного обучения pandas, numpy, seaborn, matplolib, scikit-learn, LightGBM. Проект реализован в среде разработки PyCharm CE.
В результате проведенных работ был получен продукт с высоким качеством прогнозирования. Продукт не имеет конкурентных аналогов на рынке, о чем косвенно свидетельствует множественные публикации в СМИ, а также приведенный обзор аналогов.
Проект внедрен в промышленную эксплуатацию. Решение о внедрении прилагается.
Цель работы – разработать систему прогнозирования (моделирования) данного показателя с помощью модели машинного обучения, которая заменит ручной расчет, увеличит качество прогнозирования, высвободит значительные человеческие ресурсы.
В процессе разработки проводились исследования по оценке и выбору оптимального алгоритма для моделирования, настройке модели с помощью подбора параметров. Проводилось исследование по формированию новых признаков на основе имеющихся данных, их отбору, проверке достаточности признаков для получения необходимого качества моделирования.
В дополнение был разработан прототип графического интерфейса, который предположительно будет использован для удобства использования данного показателя внешними пользователям.
При разработке программного продукта использовался вычислительный сервер на базе Apache Hadoop. Для хранения данных использовалась распределенная файловая система HDFS. Для манипулирования (сбор и агрегация) данными использовался PySpark. Данные преобразовывались с помощью Dataframe (полностью в памяти, без сохранения на диск). Для написания проекта использовался язык программирования Python. Для размещения проекта, управления и контроля версий использовался Bitbucket.
Для моделирования использовались библиотеки машинного обучения pandas, numpy, seaborn, matplolib, scikit-learn, LightGBM. Проект реализован в среде разработки PyCharm CE.
В результате проведенных работ был получен продукт с высоким качеством прогнозирования. Продукт не имеет конкурентных аналогов на рынке, о чем косвенно свидетельствует множественные публикации в СМИ, а также приведенный обзор аналогов.
Проект внедрен в промышленную эксплуатацию. Решение о внедрении прилагается.