Методы выявления аномалий в работе автоматизированных технологических систем

Тюкинеев Дмитрий Васильевич

Аннотация


В данной работе рассмотрены методы обнаружения аномалий и проблемы классификации временных рядов с аномалиями. Задача обнаружения аномалий является важной, так как её решение определяет стабильность работы сложных систем (например, кибератаки относятся к аномалиям, и их обнаружение критично для системы). В работе подробно рассмотрены методы глубокого обучения и выделены соответствующие state-of-the-art. Следующая задача классификации временных рядов с аномалиями важна тем, что при наличии аномалий классификатор может делать неверный прогноз, результаты которого могут быть критичны в определенных сферах. Проблема рассмотрена для ряда задач бинарной классификации из популярного набора данных USR. Решение проблемы при помощи повышения робастности (регуляризации) предложено для одного из наиболее популярных алгоритмов классификации: алгоритм леса временных рядов, активно использующийся в данный момент за счет таких своих преимуществ, как интерпретируемость и невысокие потребляемые ресурсы. Данный подход позволяет получить устойчивый к аномалиям классификатор, при прогнозе которого на данных с аномалиями модель теряет в точности классификации не более 1%. Цели данной работы были достигнуты, полученные результаты могут быть использованы для обучения классификаторов в областях, где устойчивость к аномалиям является важным требованием (например, в медицине). Дальнейшие исследования могут быть проведены с использованием алгоритмов, основанных на нейронных сетях.
This paper considers anomaly detection methods and the problems of classifying time series with anomalies. Anomaly detection task is important because its solution determines the stability of complex systems (for example, cyber attacks are anomalies, and their detection is critical for the system). The paper considers deep learning methods in detail and highlights the corresponding state-of-the-art. The next task is important because in the presence of anomalies, the classifier can make an incorrect prediction, the results of which can be critical in certain areas. The problem is considered for a number of binary classification problems from the popular USR repository. A solution to the problem by increasing robustness (regularization) was proposed for one of the most popular classification algorithms: the time series forest algorithm, which is actively used at the moment due to its advantages such as interpretability and low resource consumption. This approach makes it possible to obtain an anomaly robust classifier, in the case of which the model loses no more than 1% in classification accuracy on data with anomalies. The goals of this work have been achieved, the results obtained can be used to train classifiers in areas where robustness to anomalies is an important requirement (for example, in medicine). Further research can be done using algorithms based on neural networks.