Решение задачи прогнозирования спроса на услуги такси методами машинного обучения

Свалов Дмитрий Андреевич

Аннотация


Магистерской диссертация посвящена проблеме прогнозирования спроса на услуги такси. Для этого проведено исследование предметной области и обзор систем - аналогов. Они показали, что существует проблема качественного прогнозирования спроса, и то, что на рынке существует немного систем, которые занимаются решением подобных задач. Проведенный обзор научных литературных источников помог определить методы прогнозирования и метрики, используемые для верификации моделей. Открытый набор данных о поездках такси был предобработан, добавлены новые характеристики на основе существующих. К результирующему набору был добавлен набор данных о погоде. Затем был проведен корреляционный анализ совмещенного набора данных. Для вычисления величины спроса было решено использовать информацию о кластерах начальных точек поездок. Был проведен сравнительный анализ алгоритмов кластеризации и выбран AgglomerativeClustering с критерием связи “ward” как наиболее оптимальный для решения данной задачи. Было проведено сравнение алгоритмов прогнозирования и выбрано 2 наиболее точных. К ним был применены методы повышения точности прогнозов: подбор гиперпараметров, исключение характеристик сезонности и исключение характеристик, не добавляющими значения. Наиболее точным в решении данной задачи оказался алгоритм DecisionTreeRegressor, он показал ошибку MAPE, равную 16.074%.

The master's dissertation is devoted to the study of predicting demand in taxi services. For this purpose, investigation of the research domain and review of systems with the similar functionality was made. It has become evident that there is a problem of high-quality predictive systems, and that there are only a few systems in the market which can help to solve such problems. The scientific papers review helped to identify the set of predictive methods and metrics which could be used to verify the models. An open data set of taxi rides was found in the Internet. Data were preprocessed, new features were constructed based on the existing ones. Moreover, the resulting data set was enriched by the weather data mined from another data set. The correlation analysis of the resulting data set was performed. It was decided to use the information of the clusters of the trip starting points in order to calculate the demand level. The comparative analysis of clustering algorithms was carried out. The AgglomerativeClustering algorithm with the “ward” criterion was chosen as the optimal one for this problem solution. The comparison of predictive algorithms was made, and 2 of the most accurate ones were selected. Methods to increase the accuracy of prediction were implemented, they are as follows: selection of the hyperparameters, exclusion of the features with season description, exclusion of the features which did not add values. The DecisionTreeRegressor algorithm has turned out to be the most accurate one for this case as it had showed a MAPE error of 16.074%.