Финансовым аналитикам часто приходится использовать более сложные статистические методы, чем анализ корреляции или простая регрессия с одной независимой переменной.

Например, аналитик взаимного фонда может захотеть узнать, ведет ли себя доходность технологического взаимного фонда так же, как доходность индекса акций роста, или она больше похожа на доходность индекса акций стоимости.

Инвестор может быть заинтересован в факторах, которые определяют, покрывают ли аналитики акции. Или аналитики, исследующие отдельные компании, могут захотеть понять, какие факторы (такие как макроэкономические переменные) способствуют спросу на продукты или услуги компании.

Мы можем ответить на эти вопросы, используя линейную регрессию с более чем одной независимой переменной - множественную линейную регрессию.


Как инвестиционные аналитики, мы часто предполагаем, что более чем одна переменная объясняет поведение интересующей нас переменной.

Переменная, которую мы стремимся объяснить, называется зависимой переменной (dependent variable). Переменные, которые, по нашему мнению, объясняют зависимую переменную, называются независимыми переменными (independent variables).

Их также иногда называют объясняющими переменными (explanatory variables), предикторами или предсказывающими переменными (predictor variables), или просто регрессорами.

Инструмент, который позволяет нам исследовать взаимосвязь (если таковая имеется) между двумя типами переменных, представляет собой множественную линейную регрессию.

Множественная линейная регрессия  (multiple linear regression) позволяет нам определить влияние более чем одной независимой переменной на конкретную зависимую переменную.

Модель множественной линейной регрессии имеет следующую общую форму:

\( \dstl Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \ldots
+ b_k X_{ki} + \epsilon_i , \ \ i = 1,2, \ldots n
\), (1)

где

  • \( Y_i \) = i-е наблюдение зависимой переменной \( Y \)
  • \( X_{ji} \) = i-е наблюдение за независимой переменной \( X_j \), \( j = 1,2, \ldots, k \)
  • \( b_0 \) = точка пересечения (константа) уравнения
  • \( b_1 , \ldots , b_k \) = коэффициенты наклона для каждой независимой переменной
  • \( \epsilon_i \) = ошибка
  • \( n \) = количество наблюдений

Коэффициент наклона \( b_j \) оценивает, насколько изменяется зависимая переменная \( Y \), когда независимая переменная \( X_j \) изменяется на одну единицу, при неизменных всех прочих независимых переменных.

Например, если \( b_1 = 1 \) и все остальные независимые переменные остаются неизменными (постоянными), то мы предсказываем, что если \( X_1 \) увеличится на одну единицу, то \( Y \) также увеличится на одну единицу.

Если \( b_1 = -1 \) и все остальные независимые переменные остаются неизменными, то мы предсказываем, что если \( X_1 \) увеличится на одну единицу, то \( Y \) уменьшится на одну единицу.

Множественной линейной регрессией будет:

\( b_0 , \ldots , b_k \)

В этом чтении мы будем называть как коэффициенты точки пересечения (константы) \( b_0 \), так и коэффициенты наклона \( b_1 , \ldots , b_k \) - как коэффициенты регрессии (regression coefficients).

Имейте в виду, что формула регрессии содержит \( k \) коэффициентов наклона и \( k+1 \) коэффициентов регрессии.

Хотя может показаться, что Формула 1 применима только к перекрестным данным, поскольку нотация для наблюдений одинакова \( i = 1, \ldots, n \), все эти результаты также применимы к данным временных рядов.

Например, если мы анализируем данные из многих временных периодов для одной компании, мы обычно используем нотацию \( Y_t, X_{1t}, X_{2t}, \ldots, X_{kt} \), в которой первый индекс обозначает переменную, а второй обозначает t-й период времени.

На практике мы используем программное обеспечение для расчета модели множественной регрессии.

Иллюстрация 1 показывает применение множественного регрессионного анализа в инвестиционной практике. Для обсуждения проверки гипотезы, в Иллюстрации 1 представлен типичный результат расчета регрессии и его интерпретация.

Иллюстрация 1. Объяснение спредов цен продавца и покупателя.

Будучи биржевым менеджером в фирме по управлению инвестициями, вы заметили, что средние спреды цен продавца и покупателя различных акций NASDAQ могут сильно варьироваться.

Когда отношение спреда цен продавца и покупателя (спред bid-ask) акции к цене акции выше, чем для другой акции, затраты вашей фирмы на торговлю этой акцией, как правило, будут выше.

Вы сформулировали гипотезу о том, что процентные спреды bid-ask акций NASDAQ связаны с количеством участников рынка и капитализацией рынка акций компании.

Вы решили исследовать свою гипотезу с использованием множественного регрессионного анализа.

Вы выбрали регрессионную модель, в которой зависимая переменная оценивает спред bid-ask в процентном выражении, а независимые переменные оценивают количество участников рынка и рыночную капитализацию акций компании.

Регрессия оценивается с использованием данных от 31 декабря 2013 года для 2587 акций из индекса NASDAQ. Основываясь на более ранних опубликованных исследованиях спредов, выразите зависимые и независимые переменные в виде натуральных логарифмов, используя так называемую модель регрессии log-log.

Модель регрессии log-log может быть уместной, если вы убеждены, что пропорциональные изменения в зависимой переменной имеют постоянную связь с пропорциональными изменениями в независимых переменных, как мы покажем дальше.

Вы формулируете следующую множественную регрессию:

\( \dstl Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \epsilon_i \), (2)

где

  • \( Y_i \) = натуральный логарифм (спред bid-ask / цена акций) для акции \(i\)
  • \( X_{1i} \) = натуральный логарифм количества участников рынка NASDAQ для акции \(i\)
  • \( X_{2i} \) = натуральный логарифм рыночной капитализации (в $ млн.) компании \(i\)

В регрессии log-log, такой как в Формуле 2, коэффициенты наклона интерпретируются как эластичность и остаются постоянными.

Например, значение \( b_2 = -0.75 \) будет означать, что при увеличении рыночной капитализации на 1% мы ожидаем, что отношение спред bid-ask / цена акций снизится на 0.75%, при том, что все другие независимые переменные остаются неизменными.

Обратите внимание, что \( \Delta (\ln X) \approx \Delta X/X \), где \( \Delta \) представляет «изменение», а \( \Delta X/X \) - пропорциональное изменение в \( X \).

Учитывая, что большая конкуренция имеет тенденцию снижать затраты, вы подозреваете, что чем больше будет количество участников рынка, тем меньше будет процентный спред.

Следовательно, вы формулируете первую нулевую гипотезу (\( H_0 \)) и альтернативную гипотезу (\( H_{\alpha} \)) следующим образом:

\( H_0 : b_1 \geq 0 \)

\( H_{\alpha} : b_1 < 0 \)

Нулевой гипотезой является гипотеза о том, что «подозреваемое» условие не соответствует действительности. Если доказательства подтверждают отклонение нулевой гипотезы и принятие альтернативной гипотезы, то вы статистически подтвердили свое подозрение.

Альтернативная достоверная формулировка - это двусторонний тест \( H_0 : b_1 \geq 0 \) против \( H_{\alpha} : b_1 \neq 0 \), который менее сильно отражает убеждения исследователя.

Вы также считаете, что акции компаний с более высокой рыночной капитализацией могут иметь более ликвидные рынки, что обычно приводит к снижению процентных спредов.

Поэтому вы формулируете вторую нулевую гипотезу и альтернативную гипотезу:

\( H_0 : b_2 \geq 0 \)

\( H_{\alpha} : b_2 < 0 \)

Для обоих тестов мы используем t-тест, а не z-тест, потому что мы не знаем дисперсию совокупности \( b_1 \) и \( b_2 \).

Предполагается, что вы выбрали уровень значимости 0.01 для обоих тестов.

Результаты регрессии ln (спред bid-ask / цена) по ln (количество участников рынка) и ln (рыночная капитализация).

Коэффициент

Стандартная ошибка

t-статистика

Точка пересечения

1.5949

0.2275

7.0105

ln (количество участников рынка NASDAQ)

-1.5186

0.0808

-18.7946

ln (рыночная капитализация компании)

-0.3790

0.0151

-25.0993

ANOVA

df

SS

MSS

F

Значимость F

Регрессия

2

3,728.1334

1,864.0667

2,216.75

0.00

Остаток

2,584

2,172.8870

0.8409

Итого

2,586

5,901.0204

Стандартная ошибка остатка        

0.9170

Множественный \( R^2 \)   

0.6318

Наблюдения 

2,587

Примечание: «df» = степени свободы.
Источник: Центр исследований цен на акции, Чикагский университет.


В таблице показаны результаты оценки этой линейной регрессии. Если результат регрессии не является значимым, мы можем следовать полезному принципу не продолжать интерпретировать отдельные коэффициенты регрессии.

Таким образом, аналитик может сначала рассмотреть раздел дисперсионного анализа (ANOVA), который учитывает общую значимость регрессии.


  • В разделе ANOVA представлены результаты, объясняющие значимость регрессии в целом.

SS (sum of squares) означает сумму квадратов, а MSS (mean sum of squares) является средней суммой квадратов (SS, разделенная на df).

F-тест показывает общую значимость регрессии. Например, значение 0.01 для значимости F означает, что регрессия значима на уровне 0.01.

В нашей иллюстрации регрессия еще более значима, потому что значение F равно 0 с округлением до двух десятичных знаков.

Убедившись, что регрессия в целом очень значима, аналитик может обратиться к первому столбцу в первом разделе результатов регрессии.


  • Столбец «Коэффициент» дает оценку точки пересечения (константы) \( b_0 \) и коэффициентов наклона \( b_1 \) и \( b_2 \). Точка пересечения (константа) положительна, но оба коэффициента наклона отрицательны.

Можно ли считать, что эти коэффициенты регрессии значительно отличаются от нуля?

Столбец «Стандартная ошибка» содержит стандартную ошибку (стандартное отклонение) коэффициентов регрессии. Статистический критерий для гипотез, касающихся значения совокупности коэффициента регрессии, имеет форму:

(Коэффициент регрессии - Гипотетическое значение совокупности коэффициента регрессии) / (Стандартная ошибка коэффициента регрессии).

Это t-тест. В соответствии с нулевой гипотезой гипотетическое значение совокупности коэффициента регрессии равно 0. Таким образом (Коэффициент регрессии) / (Стандартная ошибка коэффициента регрессии) является F-статистикой, приведенной в третьем столбце.

Например, F-статистика для точки пересечения составляет \( 1.5949/0.2275 = 7.0105 \). Чтобы оценить значимость t-статистики, нам необходимо определить число степеней свободы (df).

При расчете степеней свободы, потерянных в регрессии, мы добавляем 1 к количеству независимых переменных, чтобы учесть точку пересечения.

Расчет:

Степени свободы = Количество наблюдений - (Количество независимых переменных + 1) = \( n - (k + 1) \).


  • В последнем разделе таблицы результатов регрессии представлены две меры того, насколько хорошо регрессия подходит или объясняет данные.

Первая мера - это стандартное отклонение остатка регрессии. Это стандартное отклонение называется стандартной ошибкой оценки (SEE, standard error of estimate).

Вторая мера определяет степень линейной связи между зависимой переменной и всеми независимыми переменными совместно.

Этот показатель известен как множественный \( R^2 \) или просто \( R^2 \) (квадрат корреляции между прогнозируемыми и фактическими значениями зависимой переменной).

Множественный \( R^2 \) также известен как множественный коэффициент детерминации или просто коэффициент детерминации. Значение 0 для \( R^2 \) указывает на отсутствие линейной ассоциации; значение 1 указывает на идеальную линейную ассоциацию.

Последним элементом в Иллюстрации 1 является количество наблюдений в выборке (2,587).


Изучив типичные результаты регрессии, мы можем завершить проверку гипотез. Рассчитанная регрессия подтверждает гипотезу о том, что с ростом числа участников рынка уменьшается процентный спред bid-ask:

Мы отклоняем гипотезу \( H_0 : b_1 \geq 0 \) в пользу гипотезы \( H_{\alpha} : b_1 < 0 \).

Результаты также подтверждают предположение, что акции компаний с более высокой рыночной капитализацией имеют более низкий процентный спред bad-ask:

Мы отклоняем гипотезу \( H_0 : b_2 \geq 0 \) в пользу гипотезы \( H_{\alpha} : b_2 < 0 \).

Чтобы увидеть, что нулевая гипотеза отклоняется при обоих проверках, мы можем использовать таблицы t-тестов (t-критериев). Для обоих проверок \( df = 2,587 - 3 = 2,584 \). Таблицы не дают критических значений для получения больших степеней свободы.

Критическое значение для одностороннего теста с \( df = 200 \) на уровне значимости 0.01 составляет 2.345; для большего числа степеней свободы критическое значение будет еще меньше по величине.

Поэтому в наших односторонних тестах мы отвергаем нулевую гипотезу в пользу альтернативной гипотезы, если

\( \dst
t = {\hat b_j - b_j \over s_{\hat b_j} }
= {\hat b_j - 0 \over s_{\hat b_j} } < -2.345
\)

где

  • \( \hat b_j \) = оценка регрессии \( b_j \), \( j = 1, 2 \)
  • \( b_j \) = гипотетическое значение коэффициента (0)
  • \( s_{\hat b_j} \) = стандартная ошибка \( \hat b_j \)

t-значения -18.7946 и -25.0993 для рассчитанных \( b_1 \) и \( b_2 \), соответственно, меньше -2.345.

Прежде чем продолжить, мы должны рассмотреть интерпретацию прогноза, приведенную в виде натурального логарифма. Мы можем преобразовать натуральный логарифм в исходные единицы, получив антилогарифм.

Чтобы проиллюстрировать это преобразование, предположим, что у конкретной акции есть 20 участников рынка NASDAQ, а рыночная капитализация составляет $100 млн.

Натуральный логарифм количества участников рынка NASDAQ равен \( \ln 20 = 2.9957 \), а натуральный логарифм рыночной капитализации компании (в миллионах) равен \( \ln 100 = 4.6052 \).

При таких значениях регрессионная модель предсказывает, что натуральный логарифм отношения спреда bid-ask к цене акций составит:

1.5949 + (-1.5186 \(\times\) 2.9957) + (-0.3790 \(\times\) 4.6052) = -4.6997.

Мы получаем антилогарифм -4,6997, возведя \(e\) в эту степень:

\(е^{-4.6997} = 0.0091 \).

Прогнозируемый спред bid-ask составит 0.91% от цены акций.

Эта операция (получение антилогарифма) приводит значение переменной к исходным единицам:

\( e^{\ln X} = X \).

В дальнейшем мы рассмотрим допущения модели множественной регрессии; прежде чем использовать регрессию для прогнозирования в реальной практике, мы должны убедиться, что эти допущения удовлетворены.


В Иллюстрации 1 мы представили обычные результаты расчета, типичные для большинства статистического ПО. Многие программы также включают в результаты p-значения для коэффициентов регрессии (0.00 в качестве значимости F является p-значением для F-теста).

Для каждого коэффициента регрессии p-значение будет наименьшим уровнем значимости, при котором мы можем отклонить нулевую гипотезу о том, что значение коэффициента совокупности составляет 0, в двухстороннем тесте.

Чем ниже p-значение, тем сильнее доказательства против этой нулевой гипотезы.

P-значение позволяет нам быстро определить, является ли независимая переменная значимой на обычном уровне значимости, таком как 0.05 или любом другом стандартном уровне, который, по нашему мнению, является подходящим.

Используя для оценки Формулу 1, мы можем записать:

\( \begin{aligned}
\hat Y_i &= \hat b_0 + \hat b_1 X_{1i} + \hat b_2 X_{2i} \\
&= 1.5949 - 1.5186 X_{1i} - 0.3790 X_{2i}
\end{aligned} \)

где \( \hat Y_i \) означает прогнозируемое значение \( Y_i \), а \( \hat b_0 \), \( \hat b_1 \) и \( \hat b_2 \) обозначает предполагаемые значения \( b_0 \), \( b_1 \) и \( b_2 \) соответственно.

Как мы должны интерпретировать предполагаемые коэффициенты наклона -1.5186 и -0.3790?

Интерпретация коэффициентов наклона в модели множественной линейной регрессии отличается от простой регрессии с одной независимой переменной, изученной ранее.

Предположим, что у нас есть регрессия с одной независимой переменной: \( \hat Y_i = 0.50 + 0.75 X_{1i} \). Интерпретация наклона, оцененного как 0.75 заключается в том, что на каждое увеличение \( X_1 \) на 1 единицу мы ожидаем, что \( Y \) увеличится на 0.75 единиц.

Однако, если бы мы добавили вторую независимую переменную в уравнению, мы бы в целом обнаружили, что коэффициент по \( X_1 \) не составляет 0.75, если вторая независимая переменная не коррелирует с \( X_1 \).

Другими словами, коэффициент наклона зависимой переменной может зависеть от других независимых переменных.

Коэффициенты наклона в множественной регрессии известны как частичные коэффициенты регрессии (partial regression coefficients) или частичные коэффициенты наклона (partial slope coefficients) и должны интерпретироваться с осторожностью

Такая терминология связана с тем, что эти коэффициенты соответствуют частичным производным \(Y\) от независимых переменных.

Предположим, что коэффициент по \( X_1 \) в регрессии со второй независимой переменной составляет 0.60. Можем ли мы сказать, что на каждое увеличение \( X_1 \) на 1 единицу мы ожидаем, что \( Y \) увеличится на 0.60 единиц? Нет без квалификации.

Для каждого увеличения \( X_1 \) на 1 единицу мы по-прежнему ожидаем, что \( Y \) увеличится на 0.75 единиц, когда \( X_2 \) не остается постоянной. Мы бы интерпретировали 0.60 как ожидаемое увеличение \( Y \) для увеличения \( X_1 \) на 1 единицу, при том, что вторая независимая переменная остается постоянной.

Уточним, что означает оговорка «при том, что вторая независимая переменная остается постоянной».

Если бы мы регрессировали \( X_1 \) по \( X_2 \), остатки из этой регрессии представляли бы часть \( X_1 \), которая не коррелирует с \( X_2 \).

Затем мы могли бы регрессировать \( Y \) по этим остаткам в регрессии с одной независимой переменной. Мы обнаружим, что коэффициент наклона по остаткам составит 0.60. По сути, 0,60 будет представлять собой ожидаемое влияние на \( Y \) от увеличения \( X_1 \) на 1 единицу после удаления части \( X_1 \), которая коррелирует с \( X_2 \).

В соответствии с этим объяснением, мы можем рассматривать 0,60 как ожидаемый чистый эффект на \( Y \) при увеличении \( X_1 \) на 1 единицу после учета влияния любых других независимых переменных на ожидаемое значение \( Y \).

Повторим, что частичный коэффициент регрессии оценивает ожидаемое изменение в зависимой переменной при увеличении независимой переменной на 1 единицу, при том, что все другие независимые переменные остаются неизменными.

Применив этот процесс к регрессии из Иллюстрации 1, мы увидим, что предполагаемый коэффициент по натуральному логарифму рыночной капитализации составляет -0.3790.

Следовательно, модель предсказывает, что увеличение на 1 в натуральном логарифме рыночной капитализации компании связано с изменением на -0.3790 в натуральном логарифме отношения спреда bid-ask к цене акции, при том, что натуральный логарифм количества участников рынка остается неизменным.

Мы не должны ожидать, что натуральный логарифм отношения спреда bid-ask к цене акций будет отличаться на -0.3790, если мы сравниваем две акции, для которых натуральный логарифм рыночной капитализации компании отличается на 1.

Это связано с тем, что по всей вероятности, количество участников рынка для двух акций также будет отличаться, что повлияет на зависимую переменную.

Значение -0.3790 является ожидаемым чистым эффектом разницы в логарифмах рыночной капитализации, за исключением влияния логарифма числа участников рынка на ожидаемое значение зависимой переменной.