Предсказание распространения инфекционных заболеваний объединением методов web-scraping и анализа данных в исследованиях в медицинских лабораториях

Зотов Никита Ильич

Аннотация


Депрессия является основной причиной плохого состояния здоровья и инвалидности во всем мире. Однако методы диагностики и отслеживания данного заболевания появились более пятидесяти лет назад и до сих пор основаны на оценке депрессивных симптомов, о которых сообщают люди самостоятельно. Зачастую подобные методы подразумевают заполнение опросов или проведение личных интервью со специалистом, однако они не являются точными и надежными и требуют значительных затрат на отслеживание и оценивание динамики депрессивного проявления. В данной статье мы разрабатываем и тестируем эффективность методов машинного обучения, применяемых к объективным данным, полученных путем отслеживания метаданных и непрерывной передачи информации с носимых браслетов E4 и датчиков в телефоне Android, для прогнозирования шкалы оценки депрессии Гамильтона (HDRS). Исходные данные включают электродермальную активность (EDA), поведение во время сна, движение, общение по телефону, перемещение и алгоритмы использования мобильных телефонов. Мы представляем наш процесс конструирования и преобразования признаков, путем вычисления недостающих баллов на основе самостоятельной диагностики симптомов пациентов и прогнозируя тяжесть депрессии на основе непрерывных измерений датчиков. В то время как HDRS варьируется от 0 до 52, мы смогли вычислить среднеквадратическое отклонение в 2,8 RMSE и успешно предположить последующий результат в 4,5 RMSE, что является низкой относительной погрешностью. Анализируя специфику полученных значений и их связь с симптомами депрессии, мы обнаружили, что проблемы с психическим здоровьем сопровождались нерегулярным сном, низкой физической активность, сниженной социальной деятельностью в интернете, большим постоянством в выборе мест перемещения и большей асимметрией EDA между правым и левым запястьями испытуемых.
Depression is the major cause of years lived in disability world-wide; however, its diagnosis and tracking methods still rely mainly on assessing self-reported depressive symptoms, methods that originated more than fifty years ago. These methods, which usually involve filling out surveys or engaging in face-to-face interviews, provide limited accuracy and reliability and are costly to track and scale. In this paper, we develop and test the efficacy of machine learning techniques applied to objective data captured passively and continuously from E4 wearable wristbands and from sensors in an Android phone for predicting the Hamilton Depression Rating Scale (HDRS). Input data include electrodermal activity (EDA), sleep behavior, motion, phone-based communication, location changes, and phone usage patterns. We introduce our feature generation and transformation process, imputing miss- ing clinical scores from self-reported measures, and predicting depression severity from continuous sensor measurements. While HDRS ranges between 0 and 52, we were able to impute it with 2.8 RMSE and predict it with 4.5 RMSE which are low relative errors. Analyzing the features and their relation to depressive symptoms, we found that poor mental health was accompanied by more irregular sleep, less motion, fewer incoming messages, less variability in location patterns, and higher asymmetry of EDA between the right and the left wrists.