Рассмотрим нейронные сети глубокого обучения (DNN) и алгоритмы машинного обучения с подкреплением (RL), - в рамках изучения количественных методов по программе CFA (Уровень II).
Предыдущее обсуждение нейронных сетей было ограничено нейронными сетями, которые называют «мелкими нейронными сетями» (shallow neural networks), поскольку они содержат только один скрытый слой.
Нейронные сети со многими скрытыми слоями (по крайней мере 2, но потенциально более 20), известны как глубокие нейронные сети или глубинные нейронные сети (DNN, deep neural networks).
DNN являются основой глубокого обучения и оказались успешными в широком спектре применений искусственного интеллекта.
Достижения в глубоких нейронных сетях привели к прогрессу во многих сложных видах задачах, таких как распознавание изображений, речи и прочих паттернов.
Если кратко описать работу DNN, сеть принимает набор входов \(x\) из набора признаков (входной слой), которые затем передаются в слой нелинейных математических функций (нейронов) с весами \(w_{ij}\) (для нейрона \(i\) и входа \(j\)), каждый из которых обычно дает масштабированное число в диапазоне (0, 1) или (-1, 1).
Затем эти цифры передаются в другой слой функций, затем в следующий и так далее, пока конечный слой не выдаст набор вероятностей того, что наблюдение относится к какой-либо целевой категории (каждая представлена узлом в выходном слое).
DNN назначает категорию на основе категории с наибольшей вероятностью.
DNN обучаются на больших наборах данных.
Во время обучения веса \(w_i\) определяются так, чтобы минимизировать указанную функцию потерь.
На практике, в то время как количество входных узлов и выходных слоев обычно определяются характеристиками признаков и прогнозируемым результатом, многие гиперпараметры модели все еще необходимо определять, особенно количество скрытых слоев, количество узлов на скрытый слой, их подключение и архитектуру активации.
Цель состоит в том, чтобы выбрать эти гиперпараметры для достижения наилучшей эффективности при работе с данными вне выборки, и эта задача это все еще является проблемой без простых решений.
Таким образом, хорошей отправной точкой для глубокого обучения является «разумный» обоснованный выбор гиперпараметров на основе опыта и литературы.
Затем исследователь может наблюдать за результатом и постепенно корректировать гиперпараметры до тех пор, пока не будет достигнута целевая эффективность модели.
На практике, сети глубокого обучения требуют существенного времени для обучения, и систематически менять гиперпараметры может быть невозможно.
Таким образом, для многих задач с относительно небольшими наборами данных работу с моделью можно начать с двух или трех скрытых слоев и нескольких сотен узлов. Затем можно настраивать параметры, пока не будет получена модель с приемлемой прогнозирующей силой.
DNN показали свою полезность в основном для задач распознавания паттернов (например, распознавание символов и изображений), обнаружения мошенничества с кредитными картами, проблем зрения и контроля в автономных автомобилях, обработки естественного языка (например, машинный перевод) и в других задачах.
DNN стали чрезвычайно успешными из-за того, что совпали три фактора:
Несколько финансовых фирм экспериментируют с применением сетей глубокого обучения в биржевой торговле, а также в автоматизации их внутренних процессов.
Калкин и Дас (2017) описали, как они обучали DNN прогнозировать цены на опционы, имитируя модель опционного ценообразования Блэка-Шоулза (Black-Scholes-Merton model).
В их исследовании использовались одни и те же шесть входных параметров для модели в качестве признаков входного слоя (спотовые цены, срок к погашению, дивидендная доходность, безрисковая процентная ставка и волатильность) с четырьмя скрытыми слоями по 100 нейронов в каждом и одним выходным слоем.
Прогнозируемые цены на опционы вне выборки были очень близки к фактическим ценам опционов: регрессия прогнозируемых цен по фактическим ценам имела коэффициент детерминации \(R^2\) 99.8%.
Обучение с подкреплением (RL, reinforcement learning) попало в новостные заголовки в 2017 году, когда программа AlphaGo компании DeepMind победила действующего чемпиона мира по древней игре го.
Структура RL включает агента, выполняющего действия, которые максимизируют его вознаграждение (являющееся целью агента) с течением времени, с учетом ограничений среды, с которой он взаимодействует.
Объясним это на примере.
В случае AlphaGo виртуальный геймер (агент) использует свои команды консоли (действия) в соответствии информацией на экране (среда), чтобы максимизировать свой счет в игре (вознаграждение).
В отличие от контролируемого обучения, обучение с подкреплением не имеет ни напрямую размеченных данных для каждого наблюдения, ни мгновенной обратной связи.
В обучении с подкреплением алгоритм должен наблюдать за своей средой, учиться, тестируя новые действия (некоторые из которых не могут быть сразу же оптимальными), и повторно использовать свой предыдущий опыт.
Впоследствии обучение будет основываться на миллионах испытаний и ошибок.
Академики и практики применяют RL аналогичным образом в инвестиционных стратегиях, где агентом может быть виртуальный трейдер, который следует определенным правилам торговли (действия) на конкретном рынке (среда), чтобы максимизировать свою прибыль (вознаграждение).
Успех обучения с подкреплением в решении сложных задач финансовых рынков по-прежнему остается открытым вопросом.
Глен Мицуи является главным инвестиционным директором крупного австралийского государственного пенсионного фонда (PEPF, Public Employees' Pension Fund), который в настоящее время имеет активы под управлением (AUM, assets under management) в размере $20 млрд.
Фонд управляет четвертью своих активов в размере $5 млрд. за счет внутренних инвестиций, в основном покупая государственные и корпоративные финансовые инструменты с фиксированным доходом и внутренние акции.
Остальные три четверти AUM в размере $15 млрд. находятся под управлением почти 100 менеджеров активов, осуществляющих внешние инвестиции. Они инвестируют в широкий спектр классов активов, включая иностранные инструменты с фиксированным доходом и акции, внутренние и иностранные хедж-фонды, фонды недвижимости, сырьевые товары и производные инструменты.
У PEPF есть небольшой персонал из четырех специалистов по инвестициям, которым поручено выбирать и контролировать этих внешних менеджеров, которым он платит более $400 млн. в год.
Эффективность (по сравнению с соответствующими ставками базовой доходности) многих внешних менеджеров PEPF за последние несколько лет стала снижаться.
После изучения ситуации Мицуи приходит к выводу, что изменение стиля инвестирования может быть важным фактором в объяснении такой недостаточной эффективности, за которую PEPF не выгодно платить.
Мицуи считает, что ему может помочь машинное обучение, и он консультируется с Фрэнком Монро, профессором анализа данных из Университета Эпсилон.
Монро предлагает использовать модель глубокой нейронной сети, которая собирает и анализирует в реальном времени торговые данные внешних менеджеров PEPF и сравнивает их с хорошо известными стилями инвестиций (например, высокие дивиденды, минимальная волатильность, импульс, рост, стоимость), чтобы обнаружить потенциальное изменение стиля.
Мицуи договорился о том, чтобы Монро встретился с инвестиционным комитетом PEPF, чтобы обсудить этот вопрос.
Как младший аналитик данных, работающий с Монро, вы должны помочь ему выполнить следующие запросы инвестиционного комитета:
Решение для части 1:
Глубокая нейронная сеть (DNN) - это нейронная сеть (NN) со многими скрытыми слоями (по крайней мере 2, но часто более 20).
NNS и DNN успешно применялись для широкого разнообразия сложных задач, характеризующихся нелинейностью и взаимодействием между признаками, особенно проблемами распознавания моделей.
Решение для части 2:
Мицуи хочет обнаружить закономерности потенциальных изменений в стиле при ежедневной торговле, которую ведут почти 100 внешних менеджеров активов на многих рынках.
Эта задача будет включать обработку огромных объемов сложных данных. Монро прав, что DNN хорошо подходит для потребностей PEPF.
Решение для части 3:
Входной слой, скрытые слои и выходной слой составляют три группы слоев DNN.
Входной слой получает входные данные (то есть признаки) и имеет столько же узлов, сколько есть измерений в наборе признаков.
Скрытые слои состоят из узлов, каждый из которых содержит оператор суммирования и функцию активации, которые соединены связями. Эти скрытые слои, по сути, являются местом, где происходит обучение модели.
Последний выходной слой создает набор вероятностей того, что наблюдение принадлежит какой-либо целевой категории стиля (каждая категория представлена узлом в выходном слое).
Например, если есть три целевые категории стиля, то активируются три узла в выходном слое для создания выходов, которые суммируются в один.
Таким образом, выход (Категория Стиля I, 0.7; Категория стиля II, 0.2; Категория стиля III, 0.1) укажет, что модель назначает наблюдению наибольшую вероятность Категории стиля I и наименьшую вероятность Категории стиля III.
В итоге DNN присваивает наблюдению категорию стиля с наибольшей вероятностью.