Прежде чем мы сможем сделать правильный статистический вывод из модели множественной линейной регрессии, нам нужно учесть допущения, лежащие в основе этой модели.

Предположим, что у нас есть \(n\) наблюдений зависимой переменной \(Y\) и независимых переменных \( X_1, X_2, \ldots , X_k \), и мы хотим оценить уравнение множественной регрессии:

\( Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \ldots + b_k X_{ki} + \epsilon_i \)

Чтобы сделать допустимый вывод из модели множественной линейной регрессии, нам необходимо сделать следующие шесть допущений, которые определяют классическую нормальную модель множественной линейной регрессии:

  1. Связь между зависимой переменной, \(Y\) и независимыми переменными \( X_1, X_2, \ldots , X_k \) является линейной, как описано в Формуле 1.
  2. Независимые переменные (\( X_1, X_2, \ldots , X_k \)) не являются случайными, что означает, что они фиксированы и известны; нет точной линейной связи между двумя или более независимыми переменными или комбинациями независимых переменных.
  3. Ожидаемое значение члена ошибки, обусловленное независимыми переменными, равно 0:

\( E( \epsilon | X_1, X_2, \ldots , X_k ) = 0 \).

  1. Дисперсия члена ошибки одинакова для всех наблюдений:

\( E( \epsilon^2_i) = \sigma^2_{\epsilon} \).

  1. Член ошибки не коррелирует между наблюдениями:

\( E( \epsilon_i \epsilon_j ) = 0, \ j \neq i\).

  1. Член ошибки нормально распределен.

Обратите внимание, что эти допущения почти точно такие же, как и для модели линейной регрессии с одной переменной.

Допущение 2 модифицируется таким образом, что точная линейная связь не существует между двумя или более независимыми переменными или комбинациями независимых переменных.

Если эта часть Допущения 2 нарушена, то мы не можем вычислить оценку линейной регрессии.

Кроме того, даже если отсутствует точная линейная связь между двумя или более независимыми переменными или комбинациями независимых переменных, линейная регрессия может вызвать проблемы, если две или более независимых переменных или их комбинации сильно коррелируют.

Такая высокая корреляция известна как мультиколлинеарность (multicollinearity), которую мы обсудим позже. Мы также обсудим последствия выполнения регрессионного анализа, основанного на Допущениях 4 и 5, которые формально соблюдаются, хотя на самом деле нарушаются.

Иллюстрация 2. Факторы, объясняющие оценку многонациональных корпораций.

Kyaw, Manley и Shetty (2011) изучили, какие факторы влияют на оценку многонациональной корпорации (MNC). В частности, они хотели выяснить, повлияли ли политический риск, прозрачность и географическая диверсификация на оценку MNC.

Они использовали данные для 450 MNC из США с 1998 по 2003 год.

Оценки этих корпораций оценивались с использованием показателя \(q\) Тобина (Tobin's \(q\)), который обычно используется для корпоративной оценки. Он рассчитывается как отношение суммы рыночной стоимости капитала корпорации и балансовой стоимости долгосрочных долговых обязательств к сумме балансовой стоимости капитала и долгосрочных долговых обязательств.

Авторы регрессировали \(q\) Тобина для MNC по переменным, представляющим политический риск, прозрачность и географическую диверсификацию.

Авторы также включили в регрессию некоторые дополнительные переменные, которые могут повлиять на оценку компании, включая размер, леверидж и бета-коэффициент.

Они использовали следующее уравнение:

\( \begin{aligned}
{\rm Tobin's} \ q_{i,t} &= b_0 + b_1 ({\rm Размер}_{i,t})
+ b_2 ({\rm Леверидж}_{i,t}) \\
&+ b_3 ({\rm Бета}_{i,t}) + b_4 ({\rm Политический \ риск}_{i,t}) \\
&+ b_5 ({\rm Прозрачность}_{i,t}) \\
&+ b_6 ({\rm Географическая \ диверсификация}_{i,t}) \\
&+ \epsilon_{i,t}
\end{aligned} \)

где

  • \( {\rm Tobin's} \ q_{i,t} \) = \(q\) Тобина для MNC \(i\) в год \(t\), которое рассчитывается как (Рыночная стоимость акционерного капитала + Балансовая стоимость долгосрочных долговых обязательств) / (Балансовая стоимость акционерного капитала + Балансовая стоимость долгосрочных долговых обязательств).
  • \( {\rm Размер}_{i,t} \) = натуральный логарифм общих продаж MNC \(i\) в год \(t\) в миллионах $.
  • \( {\rm Леверидж}_{i,t} \) = отношение общего долга к общим активам MNC \(i\) в год \(t\).
  • \( {\rm Бета}_{i,t} \) = бета-коэффициент акций MNC \(i\) в год \(t\)
  • \( {\rm Политический \ риск}_{i,t} \) = подверженная риску доля международных операций MNC \(i\) в год \(t\), рассчитанная как [1 - (Количество безопасных стран / Общее количество зарубежных стран. в котором фирма имеет операции)], с использованием национального риска согласно данным Euromoney.
  • \( {\rm Прозрачность}_{i,t} \) = «Прозрачность в %» (представляющая уровень раскрытия) MNC \(i\) в год \(t\), рассчитанная на основе данных исследования S&P Transparency & Disclosure.
  • \( {\rm Географическая \ диверсификация}_{i,t} \) = иностранные продажи MNC \(i\) в год \(t\), выраженные в процентах от общего объема продаж в этом году.

В следующей таблице показаны результаты анализа.

Результаты регрессии \(q\) Тобина по факторам, влияющим на оценку стоимости многонациональных корпораций.

Коэффициент

Стандартная ошибка

t-статистика

Точка пересечения (константа)

19.829

4.798

4.133

Размер

-0.712

0.228

-3.123

Леверидж

-3.897

0.987

-3.948

Бета

-1.032

0.261

-3.954

Политический риск

-2.079

0.763

-2.725

Прозрачность

-0.129

0.050

-2.580

Географическая диверсификация

0.021

0.010

2.100

Примечания: это исследование объединяет наблюдения временных рядов с перекрестными наблюдениями. Такие данные обычно называются панельными данными (panel data).

Для подобного набора переменных необходимо корректировать стандартные ошибки с использованием подхода кластерных стандартных ошибок, как описано в работе Petersen (2009). Стандартные ошибки, представленные в этой иллюстрации, представляют собой кластерные стандартные ошибки.

Размер - это натуральный логарифм общих продаж. Преобразование в логарифм (либо натуральный логарифм, либо логарифм по основанию 10) обычно используется для независимых переменных, которые могут принимать широкий диапазон значений; размер компании и размер фондов являются двумя такими переменными.

Одной из причин использования преобразования в логарифм является улучшение статистических свойств остатков.

Если бы авторы не использовали логарифм продаж и вместо этого использовали просто продажи в качестве независимой переменной, регрессионная модель, вероятно, также не объяснила бы \(q\) Тобина.

Источник: Kyaw, Manley и Shetty (2011).


Предположим, что мы используем результаты регрессии, чтобы проверить нулевую гипотезу о том, что размер многонациональной корпорации не влияет на ее стоимость.

Наша нулевая гипотеза заключается в том, что коэффициент по переменной размера равен 0 (\( H_0 : b_1 = 0 \)), а наша альтернативная гипотеза заключается в том, что коэффициент не равен 0 (\( H_a : b_1 \neq 0 \)).

t-статистика для проверки этой гипотезы:

\( \dst
t = \dst { \hat b_1 - b_1 \over s_{\hat b_1} }
= \dst { -0.712 - 0 \over 0.228 } = -3.12
\)

При 450 наблюдениях и 7 коэффициентах t-статистика имеет \(450 - 7 = 443\) степеней свободы. На уровне значимости 0.05 критическое значение для \(t\) составляет около 1.97.

Абсолютное значение рассчитанной t-статистики по коэффициенту размера составляет 3.12, что убедительно говорит о том, что мы можем отклонить нулевую гипотезу о том, что размер не связан со стоимостью MNC. Фактически, критическое значение для \(t\) составляет около 2.6 на уровне значимости 0.01.

Поскольку \( {\rm Размер}_{i,t} \) - это натуральный логарифм продаж (по основанию \(e\) или 2.72), увеличение \( {\rm Размер}_{i,t} \) на 1 эквивалентно увеличению продаж в 2.72 раза.

Таким образом, рассчитанный коэффициент для \( {\rm Размер}_{i,t} \), приблизительно равный -0.7, подразумевает, что каждое увеличение продаж MNC в 2.72 раза (увеличение \( {\rm Размер}_{i,t} \) на 1) связано с ожидаемым снижением \( {\rm Tobin's} \ q_{i,t} \) на 0.7, при неизменных остальных пяти независимых переменных регрессии.

Теперь предположим, что мы хотим проверить нулевую гипотезу о том, что географическая диверсификация не связана с \(q\) Тобина.

Мы хотим проверить, равен ли коэффициент по географической диверсификации 0 (\( H_0 : b_6 = 0 \)) против альтернативной гипотезы о том, что коэффициент географической диверсификации не равен 0 (\( H_a : b_6 \neq 0 \)).

t-статистика для проверки этой гипотезы:

\( \dst
t = \dst { \hat b_6 - b_6 \over s_{\hat b_6} }
= \dst { 0.021 - 0 \over 0.010 } = 2.10
\)

Критическое значение t-теста составляет 1.97 на уровне значимости 0.05. Следовательно, на уровне значимости 0.05 мы можем отклонить нулевую гипотезу о том, что географическая диверсификация не влияет на оценку стоимости MNC.

Мы можем интерпретировать коэффициент по географической диверсификации 0.021, как предполагающий то, что увеличение иностранных продаж MNC на 1% связано с ожидаемым увеличением \(q\) Тобина на 0.021, при неизменных всех прочих независимых переменных.

Иллюстрация 3. Объяснение портфеля фонда технологических компаний (FSPTX).

Предположим, вы рассматриваете инвестиции в технологический портфель (FSPTX, Fidelity Select Technology Portfolio), взаимного фонда США, специализирующегося на акциях технологических компаний.

Вы хотите знать, похож ли фонд больше на фонд акций роста с большой капитализацией или на фонд акций стоимости с большой капитализацией. Вы решили оценить регрессию:

\( Y_t = b_0 + b_1 X_{1t} + b_2 X_{2t} + \epsilon_t \)

где

  • \( Y_t \) = ежемесячная доходность FSPTX.
  • \( X_{1t} \) = ежемесячная доходность индекса роста S&P 500 Growth Index
  • \( X_{2t} \) = ежемесячная доходность индекса стоимости S&P 500 Value Index

Индексы S&P 500 Growth Index и S&P 500 Value Index представляют преимущественно акции роста и стоимости компаний с большой капитализацией, соответственно.

Результаты этой линейной регрессии получены с использованием ежемесячных данных с августа 2014 года по август 2019 года.

Точка пересечения (константа) регрессии составляет 0.0011. Таким образом, если доходность обоих индексов равна 0 в определенном месяце, регрессионная модель предсказывает, что доходность FSPTX составит 0.11%.

Коэффициент по индексу роста S&P 500 Growth Index составляет 1.5850, а коэффициент на индексу стоимости S&P 500 Value Index составляет -0.3902.

Поэтому, если в определенный месяц доходность индекса роста составляла 1%, а доходности индекса стоимости составляла -2%, модель прогнозирует, что доходность FSPTX составит:

\( 0.0011 + 1.5850(0.01) - 0.3902(-0.02) = 2.48\% \).

Результаты регрессии доходности FSPTX по индексам S&P 500 Growth и S&P 500 Value Indexes.

Коэффициент

Стандартная ошибка

t-статистика

Точка пересечения

0.0011

0.0025

0.4405

S&P 500 Growth Index

1.5850

0.1334

11.88

S&P 500 Value Index

-0.3902

0.1332

-2.93

ANOVA

df

SS

MSS

F

Значимость F

Регрессия

2

0.1198

0.0599

178.01

3.07E-25

Остаток

57

0.0192

0.0003

Итого

59

0.1389

Стандартная ошибка остатка

0.0183

Множественный \(R^2\)

0.862

Наблюдения

60

Источник: finance.yahoo.com.


Возможно, вы захотите выяснить, является ли коэффициент по индексу стоимости S&P 500 Value Index статистически значимым.

Наша нулевая гипотеза утверждает, что коэффициент равен 0 (\( H_0 : b_2 = 0 \)); Наша альтернативная гипотеза утверждает, что коэффициент не равен 0  (\( H_a : b_2 \neq 0 \)).

Наша проверка нулевой гипотезы использует t-тест (критерий), построенный следующим образом:

\( \dst
t = \dst { \hat b_2 - b_2 \over s_{\hat b_2} }
= \dst { -0.3902 - 0 \over 0.1332 } = -2.93
\),

где

  • \( \hat b_2 \) = регрессия \(b_2\)
  • \( b_2 \) = гипотетическое значение коэффициента (0)
  • \( s_{\hat b_2} \) = стандартная ошибка \( \hat b_2 \). Эта регрессия имеет 60 наблюдений и 3 коэффициента (две независимые переменные и точка пересечения); следовательно, t-тест (критерий) имеет \(60 - 3 = 57\) степеней свободы.

На уровне значимости 0.05 критическое значение для статистического критерия составляет около 2.00. Абсолютное значение статистического критерия составляет 2.93.

Поскольку абсолютное значение статистического критерия больше, чем критическое значение (\(2.93 > 2.00\)), мы отклоняем нулевую гипотезу о том, что \(b_2 = 0\).

Обратите внимание, что t-тесты, представленные в таблице результатов регрессии, а также других таблицах регрессии, являются проверками нулевой гипотезы о том, что значение коэффициента регрессии равно 0.


Аналогичный анализ показывает, что на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу о том, что точка пересечения равна 0 (\( H_0 : b_0 = 0 \)) в пользу альтернативной гипотезы о том, что точка пересечения не равна 0 (\( H_a : b_0 \neq 0 \)).

Результаты также показывают, что t-статистика для проверки этой гипотезы составляет 0.4405, что меньше по абсолютному значению, чем критическое значение 2.00.

Однако на уровне значимости 0.05 мы можем отклонить нулевую гипотезу о том, что коэффициент по индексу роста S&P 500 Growth Index равен 0 (\( H_0 : b_1 = 0 \)) в пользу альтернативной гипотезы о том, что коэффициент не равен 0 (\( H_a : b_1 \neq 0 \)).

t-статистика для проверки этой гипотезы составляет 11.88, что намного выше критического значения 2.00. Таким образом, множественный регрессионный анализ предполагает, что доходность FSPTX очень тесно связана с доходностью индекса роста S&P 500 Growth Index, но отрицательно связана с индексом стоимости S&P 500 Value Index.

Эта регрессия связана с анализом доходности, одним из наиболее частых применений регрессионного анализа в инвестиционной практике. Для получения дополнительной информации см. Sharpe (1988), который был первооткрывателем это области, а также Buetow, Johnson и Runkle (2000).