Банк России публикует первое исследование, посвященное анализу на основе «Больших данных» (Big Data).
В докладе «Оценка экономической активности на основе текстового анализа» представлена методика расчета опережающего индикатора экономической активности в России, который построен на базе ежедневного контекстного анализа новостных сайтов с применением машинного обучения.
Согласно модели LDA, было выявлено 50 тем, обеспечивающих наилучшее статистическое разложение корпуса. Модель LDA не присваивает темам имена, однако увидев наиболее часто встречающиеся слова в каждой теме, мы можем понять, о чем данная тема, и присвоить ей адекватное название. Например, с января 2014 года по январь 2017 года основными темами в новостных статьях были темы, связанные с валютным курсом, нефтью, банковским сектором, ситуацией в США и так далее.
В работе используются два типа данных: неструктурированные и структурированные. В качестве неструктурированных данных, то есть данных, которые не имеют определенной структуры, выступают ежедневные новостные статьи, взятые из интернет-ресурса. Второй тип данных – это ежемесячный статистический показатель – композитный индекс деловой активности PMI (Purchasing Managers Index). Индекс деловой активности PMI используется в качестве прокси ВВП (в связи с недостаточно длинными временными рядами новостных статей).
Новостные статьи были собраны с информационного ресурса, посвященного экономической тематике. Его выбор обусловлен широким охватом экономических новостей, отсутствием нерелевантных тем и простотой веб-скрапинга. Общее количество статей составило около 50 000, совокупный объем слов – 20–25 млн, что является приемлемым для проведения анализа. Данные по композитному индексу деловой активности PMI были взяты с сайта агентства Bloomberg.
В последние годы мировая информационная среда претерпевает стремительные изменения. Это сопровождается неуклонно растущими объемами информации и развитием новых методов ее обработки, которые открывают широкое пространство для анализа различных аспектов жизни людей, в том числе в области экономики.
Уже сегодня многие экономисты разрабатывают аналитические показатели, основанные на анализе Big Data. Сфера их применения весьма многообразна. Она включает в себя как прогнозирование экономики, так и ее анализ в реальном времени. Востребованность таких показателей обусловлена необходимостью получения максимально оперативной и полной информации для принятия решений в условиях быстро меняющейся ситуации в современной экономике. В связи с этим анализ на основе Big Data в настоящее время активно развивается в ряде зарубежных центральных банков.
«Построенный автором публикуемого доклада новостной индикатор показал хорошие опережающие свойства, позволяя оперативно оценивать текущую ситуацию в экономике до публикации официальной статистики. Результаты работы послужат важной отправной точкой для дальнейшего развития аналитических показателей с использованием Big Data в Банке России», – говорится в релизе ЦБ.
Содержание доклада выражает личную позицию автора и может не совпадать с официальной позицией Банка России.
Подписывайтесь на Financial One в соцсетях:Facebook || Вконтакте || Twitter || Youtube