Обзор темы больших данных, концепция объема, разнообразия, скорости (3V) и достоверности больших данных, а также особенности применения проектов больших данных в управлении инвестициями, - в рамках изучения количественных методов по программе CFA (Уровень II).
Большие данные (англ. 'big data'), которые также называют альтернативными данными, охватывают данные, которые генерируют:
Настоящий взрыв популярности больших данных произошел в последнее десятилетие или около того, особенно в неструктурированных данных, полученных из социальных сетей (например, постов, твитов, блогов), электронной почты и текстовых сообщений, веб-трафика, новостных сайтов, электронных изображений и других электронных источников информации.
Экспоненциальный рост распространения больших данных продолжается.
Менеджеры по инвестициям все чаще используют большие данные в своих инвестиционных процессах. Они стремятся обнаружить сигналы, встроенные в такие данные, чтобы получить информационное преимущество.
Они стремятся расширить структурированные данные за счет множества неструктурированных данных, чтобы получить улучшенные прогнозы цен на активы, обнаружить аномалии и т.д.
Типичным примером является менеджер фондов, использующий текстовые данные из финансовых отчетов по форме 10-K для прогнозирования рыночных настроений (то есть, положительных или отрицательных), которые затем можно использовать в качестве исходных данных для более полной модели прогнозирования, которая включает в себя корпоративные финансовые данные.
В отличие от структурированных данных (чисел и значений), которые можно легко представить в виде таблиц данных, пригодных для считывания и анализа финансовыми и статистическими программами, неструктурированные данные обычно требуют определенных методов подготовки и уточнения, прежде чем их можно будет использовать в анализе.
Учитывая объем, разнообразие и скорость появления доступных больших данных, инвестиционным менеджерам и аналитикам важно иметь базовое понимание того, как неструктурированные данные могут быть преобразованы в структурированные данные, подходящие для использования в методах машинного обучения (ML).
Это чтение описывает методику использования больших данных, как структурированных, так и неструктурированных, в финансовом прогнозировании.
Далее мы рассмотрим следующие темы:
Большие данные отличаются от традиционных источников данных наличием набора характеристик, получивших название 3V (Volume, Variety, Velocity): объем, разнообразие и скорость.
Объем (volume) означает количество данных. Американская библиотека Конгресса, которой поручено архивировать как цифровые, так и физические информационные артефакты из США, собрала сотни терабайт данных (1 терабайт равен 1,024 гигабайтам, а гигабайт равен 1,048,576 мегабайтам).
Несколько лет назад один из авторов управлял архивным проектом Библиотеки Конгресса, в которой были собраны многие терабайты онлайн-контента - в то время это считалось обильным количеством данных.
Однако сегодня в большинстве отраслевых секторов США средняя компания собирает больше данных, чем Библиотека Конгресса!
Теперь терабайты больших данных превратились в петабайты и эксабайты (1 эксабайт равен 1,024 петабайтам, а петабайт равен 1,048,576 терабайтам).
Классическая аналогия с песком, как мерой объема, рисует следующую перспективу:
Разнообразие (variety) означает множество доступных источников данных. В настоящее время организации имеют дело со структурированными, полуструктурированными и неструктурированными данными, которые генерируются внутри или за пределами предприятия.
Разнообразные данные включают в себя:
Эффективное использование разнообразия доступных данных представляет как возможности, так и проблемы, включая такие юридические и этические проблемы, как конфиденциальность данных.
Скорость (velocity) - это скорость, с которой создаются данные. Многие крупные организации собирают несколько петабайт данных каждый час.
Что касается неструктурированных данных, то более 1 миллиарда новых твитов (т.е. сообщений из 280 символов или менее, размещенных на веб-сайте соцсети Twitter) генерируются каждые три дня; 5 миллиардов поисковых запросов выполняются ежедневно.
Такая информация имеет важные последствия для прогнозирующей аналитики в режиме реального времени в различных финансовых приложениях.
Анализ таких «данных в движении» создает проблемы, поскольку в таких условиях обоснованные закономерности и идеи подобны движущимся целями по сравнению со статичными данными, «пребывающими в покое».
При использовании больших данных для вывода или прогноза существует «четвертое V» - достоверность.
Достоверность (Veracity) означает доверие к правдивости и надежности различных источников данных.
Определение достоверности и надежности источников данных является важной частью любого эмпирического исследования. Однако проблема достоверности становится критически важной для больших данных из-за множества различных источников этих данных.
Большие данные усиливают вековую проблему выбора между качеством и количеством.
Например, социальные сети, включая блоги, форумы и сайты социальных сетей, страдают от спама; по некоторым оценкам, до 10-15% такого контента является подделкой.
Точно так же, согласно нашему исследованию, веб-спам составляет более 20% всего контента в мировом интернете.
Статистика посещений и кликов веб-сайтов и мобильных устройств также подвержена спаму и восприимчива к шуму.
Кроме того, получение глубоких семантических знаний из текста в определенных случаях остается сложным, несмотря на значительные достижения в обработке естественного языка (NLP, natural language processing).
Эти V имеют многочисленные последствия для финансовых технологий (получивших краткое название «финтех»), связанных с управлением инвестициями.
Машинное обучение в сфере оценки кредитоспособности, которое традиционно опирается на структурированные финансовые показатели, расширяется за счет включения текста, полученного из финансовой отчетности, новостных статей и стенограмм.
В финансовой отрасли клиенты сегментируются не только на основе своих операционных данных, но и на основе своих взглядов и предпочтений, изложенных в социальных сетях (в рамках допустимого в соответствии с соглашениями о конфиденциальности).
Большие данные также предоставляют возможности для улучшения обнаружения мошенничества и управления рисками.