Модели контролируемого машинного обучения обучаются с использованием размеченных данных, и в зависимости от характера целевой переменной (\(Y\)) их можно разделить на два типа:

  • регрессия для непрерывной целевой переменной и
  • классификация для категориальной или порядковой целевой переменной.

В соответствии с разделом «Регрессия» в Иллюстрации 2, мы сначала рассмотрим пенализированную регрессию и Лассо-регрессию.

Затем, как показано в разделе «Классификация», мы представим алгоритмы CART (дерево классификации и регрессии), SVM (метод опорных векторов) и KNN (метод k ближайших соседей).

Обратите внимание, что алгоритм CART, как следует из названия, может использоваться как для задач классификации, так и для регрессии.

В целях изучения предположим, что у нас есть ряд наблюдений целевой переменной \(Y\) и \(n\) реальных признаков, \( X_1, \ldots , X_n \), которые мы можем использовать для установления взаимосвязи (регрессии или классификации) между \(X\) (вектор \(X_i\)) и \(Y\) для каждого наблюдения в нашем наборе данных.

Пенализированная регрессия.

Пенализированная регрессия - это эффективная вычислительная техника, используемая в задачах прогнозирования.

На практике пенализированная регрессия полезна для снижения большого количества признаков в модели до управляемого набора и для получения хороших прогнозов на основе различных крупных наборов данных, особенно в тех случаях, когда признаки коррелируют (то есть, когда классическая линейная регрессия разрушается).

В контексте большого набора данных у нас может быть много признаков, которых потенциально можно использовать для объяснения целевой переменной \(Y\).

Когда модель подходит к обучающим данным, она может так точно отражать характеристики специфических обучающих данных, что будет плохо работать с новыми данными.

В модель могут быть включены признаки, которые отражают шум или случайность в обучающем наборе данных, которых не будет в новых или будущих данных, используемых для прогнозирования.

Это проблема переобучения, и пенализированную регрессию можно описать как метод, позволяющий избежать переобучения.

Эффективность прогнозирования данных вне выборки является ключевой, поэтому относительно экономные модели (то есть модели, в которых каждая переменная играет важную роль), как правило, хорошо работают, потому что они менее подвержены переобучению.

Предположим, что мы стандартизируем наши данные, чтобы признаки имели среднее значение 0 и дисперсию 1.

Стандартизация признаков позволит нам сравнивать величины коэффициентов регрессии для переменных признаков.

В обычной линейной регрессии (то есть, при использовании метода наименьших квадратов) коэффициенты регрессии \( \hat b_0 , \hat b_1 , \ldots , \hat b_K \) выбираются для минимизации суммы квадратных остатков (то есть суммы квадратных разностей между фактическими значениями \(Y_i\) и прогнозируемыми значениями, \(\hat Y_i\)) или:

\( \dst \sum^n_{i=1} \left( Y_i - \hat Y_i \right)^2 \)

Пенализированная регрессия (англ. 'penalized regression') включает ограничение, благодаря которому коэффициенты регрессии выбираются так, чтобы минимизировать сумму квадратных остатков. В уравнение добавляется член штрафа (т.е. пенализирующий член), который увеличивается в размерах вместе с количеством включенных признаков.

Таким образом, в пенализированной регрессии признак должен внести достаточный вклад в объясняющую силу модели, чтобы компенсировать штраф от включения. Следовательно, только наиболее важные для объяснения \(Y\) признаки останутся в пенализированной регрессионной модели.

В одном популярном типе пенализированной регрессии, Лассо-регрессии (LASSO, least absolute shrinkage and selection operator) штрафной член уравнения имеет следующую форму, при \(\lambda > 0\):

\( \dst \text{Штрафной член} =
\lambda \sum^K_{k=1} \left | \hat b_k \right | \)

В дополнение к минимизации суммы квадратных остатков, Лассо-регрессия включает в себя минимизацию суммы абсолютных значений коэффициентов регрессии (см. следующее выражение).

Чем больше число включенных признаков (то есть переменных с ненулевыми коэффициентами), тем больше штрафной член.

Следовательно, пенализированная регрессия гарантирует, что признак включается только в том случае, если сумма квадратных остатков снижается более чем на увеличение штрафного члена.

Все типы пенализированной регрессии включают компромисс такого типа. Кроме того, поскольку Лассо-регрессия устраняет наименее важные признаки из модели, она автоматически осуществляет выбор типа признака.

\( \dst \sum^n_{i=1} \left( Y_i - \hat Y_i \right)^2 +
\lambda \sum^K_{k=1} \left | \hat b_k \right | \)

Лямбда (\(\lambda\)) - это гиперпараметр регрессионной модели (hyperparameter), т.е. параметр, значение которого должно быть установлено исследователем до начала обучения. Он определяет баланс между соответствием модели и поддержанием экономности модели.

На практике гиперпараметр устанавливается путем многократного пересмотра эффективности модели при различных настройках для проверочного (валидационного) набора данных, и, следовательно, тестовый набор также важен для предотвращения переобучения гиперпараметров при использовании валидационных данных.

Обратите внимание, что в случае, когда \(\lambda = 0\), пенализированная Лассо-регрессия эквивалентна регрессии, рассчитанной методом наименьших остатков.

При использовании Лассо или других техник пенализированной регрессии, штрафной член добавляется только во время процесса построения модели (то есть при подгонке модели к обучающим данным).

После того, как модель построена, штрафной член больше не требуется и далее модель оценивается по сумме квадратных остатков, сгенерированных с использованием тестового набора данных.

Благодаря нынешней доступности быстрых компьютерных вычислений, инвестиционные аналитики все чаще используют Лассо и другие методы регуляризации для удаления менее полезных признаков и создания экономных моделей.

Регуляризация (англ. 'regularization') описывает методы, которые снижают статистическую вариативность в задачах с высокой размерностью данных. В этом случае коэффициент регрессии снижается до значений, близких к нулю, и это позволяет избежать сложных моделей и риска переобучения.

Лассо-регрессия используется, например, для прогнозирования вероятности дефолта компаний в промышленных секторах, где число потенциальных признаков (многие из которых коллинеарны) снижается до менее чем 10 переменных, что важно, учитывая относительно небольшое число (около 100) наблюдений дефолта.

Методы регуляризации также могут применяться к нелинейным моделям. Давней проблемой отрасли управления активами при применении оптимизации средней и дисперсии стала оценка стабильных ковариационных матриц и весов активов для крупных портфелей.

Доходность активов, как правило, демонстрирует сильную мультиколлинеарность, что делает оценку ковариационной матрицы очень чувствительной к шуму и выбросам, поэтому полученные оптимизированные веса активов очень нестабильны.

Для решения этой проблемы используются методы регуляризации. Относительно экономные модели, создаваемые путем применения методов пенализированной регрессии, таких как Лассо, обычно хорошо работают, поскольку они менее подвержены переобучению.