Большие данные (англ. 'big data'), которые также называют альтернативными данными, охватывают данные, которые генерируют:

  • финансовые рынки (например, цены на акции и облигации),
  • предприятия (например, финансовые показатели компании, объемы производства),
  • правительства (например, экономические и торговые данные),
  • физические лица (например, операции по кредитным картам, посты в социальных сетях),
  • датчики (например, спутниковые снимки, паттерны дорожного движения), а также
  • интернет вещей (то есть сеть взаимосвязанных цифровых устройств, которые могут обмениваться между собой данными без участия человека).

Настоящий взрыв популярности больших данных произошел в последнее десятилетие или около того, особенно в неструктурированных данных, полученных из социальных сетей (например, постов, твитов, блогов), электронной почты и текстовых сообщений, веб-трафика, новостных сайтов, электронных изображений и других электронных источников информации.

Экспоненциальный рост распространения больших данных продолжается.

Менеджеры по инвестициям все чаще используют большие данные в своих инвестиционных процессах. Они стремятся обнаружить сигналы, встроенные в такие данные, чтобы получить информационное преимущество.

Они стремятся расширить структурированные данные за счет множества неструктурированных данных, чтобы получить улучшенные прогнозы цен на активы, обнаружить аномалии и т.д.

Типичным примером является менеджер фондов, использующий текстовые данные из финансовых отчетов по форме 10-K для прогнозирования рыночных настроений (то есть, положительных или отрицательных), которые затем можно использовать в качестве исходных данных для более полной модели прогнозирования, которая включает в себя корпоративные финансовые данные.

В отличие от структурированных данных (чисел и значений), которые можно легко представить в виде таблиц данных, пригодных для считывания и анализа финансовыми и статистическими программами, неструктурированные данные обычно требуют определенных методов подготовки и уточнения, прежде чем их можно будет использовать в анализе.

Учитывая объем, разнообразие и скорость появления доступных больших данных, инвестиционным менеджерам и аналитикам важно иметь базовое понимание того, как неструктурированные данные могут быть преобразованы в структурированные данные, подходящие для использования в методах машинного обучения (ML).

Это чтение описывает методику использования больших данных, как структурированных, так и неструктурированных, в финансовом прогнозировании.

Далее мы рассмотрим следующие темы:

  • описание ключевых характеристик больших данных.
  • обзор этапов реализации проекта финансового прогнозирования с использованием больших данных.
  • ключевые аспекты подготовки и обработки данных, исследования данных и обучения модели с использованием структурированных и неструктурированных (текстовых) данных.
  • выполнение фактического проекта больших данных.

Большие данные в управлении инвестициями.

Большие данные отличаются от традиционных источников данных наличием набора характеристик, получивших название 3V (Volume, Variety, Velocity): объем, разнообразие и скорость.

Объем больших данных.

Объем (volume) означает количество данных. Американская библиотека Конгресса, которой поручено архивировать как цифровые, так и физические информационные артефакты из США, собрала сотни терабайт данных (1 терабайт равен 1,024 гигабайтам, а гигабайт равен 1,048,576 мегабайтам).

Несколько лет назад один из авторов управлял архивным проектом Библиотеки Конгресса, в которой были собраны многие терабайты онлайн-контента - в то время это считалось обильным количеством данных.

Однако сегодня в большинстве отраслевых секторов США средняя компания собирает больше данных, чем Библиотека Конгресса!

Теперь терабайты больших данных превратились в петабайты и эксабайты (1 эксабайт равен 1,024 петабайтам, а петабайт равен 1,048,576 терабайтам).

Классическая аналогия с песком, как мерой объема, рисует следующую перспективу:

если 1 мегабайт является столовой ложкой песка, то петабайт -это пляж длиной 1.6 километра, а эксабайт - это пляж, простирающийся примерно на 1,600 километров.

Разнообразие больших данных.

Разнообразие (variety) означает множество доступных источников данных. В настоящее время организации имеют дело со структурированными, полуструктурированными и неструктурированными данными, которые генерируются внутри или за пределами предприятия.

Разнообразные данные включают в себя:

  • традиционные данные о финансовых операциях; пользовательский текст, изображения и видео;
  • сообщения социальных сетей;
  • данные, собранные датчиками;
  • статистику посещения сайтов и мобильных приложений; и
  • пространственно-временные данные.

Эффективное использование разнообразия доступных данных представляет как возможности, так и проблемы, включая такие юридические и этические проблемы, как конфиденциальность данных.

Скорость больших данных.

Скорость (velocity) - это скорость, с которой создаются данные. Многие крупные организации собирают несколько петабайт данных каждый час.

Что касается неструктурированных данных, то более 1 миллиарда новых твитов (т.е. сообщений из 280 символов или менее, размещенных на веб-сайте соцсети Twitter) генерируются каждые три дня; 5 миллиардов поисковых запросов выполняются ежедневно.

Такая информация имеет важные последствия для прогнозирующей аналитики в режиме реального времени в различных финансовых приложениях.

Анализ таких «данных в движении» создает проблемы, поскольку в таких условиях обоснованные закономерности и идеи подобны движущимся целями по сравнению со статичными данными, «пребывающими в покое».


При использовании больших данных для вывода или прогноза существует «четвертое V» - достоверность.

Достоверность (Veracity) означает доверие к правдивости и надежности различных источников данных.

Определение достоверности и надежности источников данных является важной частью любого эмпирического исследования. Однако проблема достоверности становится критически важной для больших данных из-за множества различных источников этих данных.

Большие данные усиливают вековую проблему выбора между качеством и количеством.

Например, социальные сети, включая блоги, форумы и сайты социальных сетей, страдают от спама; по некоторым оценкам, до 10-15% такого контента является подделкой.

Точно так же, согласно нашему исследованию, веб-спам составляет более 20% всего контента в мировом интернете.

Статистика посещений и кликов веб-сайтов и мобильных устройств также подвержена спаму и восприимчива к шуму.

Кроме того, получение глубоких семантических знаний из текста в определенных случаях остается сложным, несмотря на значительные достижения в обработке естественного языка (NLP, natural language processing).

Эти V имеют многочисленные последствия для финансовых технологий (получивших краткое название «финтех»), связанных с управлением инвестициями.

Машинное обучение в сфере оценки кредитоспособности, которое традиционно опирается на структурированные финансовые показатели, расширяется за счет включения текста, полученного из финансовой отчетности, новостных статей и стенограмм.

В финансовой отрасли клиенты сегментируются не только на основе своих операционных данных, но и на основе своих взглядов и предпочтений, изложенных в социальных сетях (в рамках допустимого в соответствии с соглашениями о конфиденциальности).

Большие данные также предоставляют возможности для улучшения обнаружения мошенничества и управления рисками.