Рассмотрим допущения, которые определяют классическую нормальную модель множественной линейной регрессии, - в рамках изучения количественных методов по программе CFA (Уровень II).
Прежде чем мы сможем сделать правильный статистический вывод из модели множественной линейной регрессии, нам нужно учесть допущения, лежащие в основе этой модели.
Предположим, что у нас есть \(n\) наблюдений зависимой переменной \(Y\) и независимых переменных \( X_1, X_2, \ldots , X_k \), и мы хотим оценить уравнение множественной регрессии:
\( Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \ldots + b_k X_{ki} + \epsilon_i \)
Чтобы сделать допустимый вывод из модели множественной линейной регрессии, нам необходимо сделать следующие шесть допущений, которые определяют классическую нормальную модель множественной линейной регрессии:
\( E( \epsilon | X_1, X_2, \ldots , X_k ) = 0 \).
\( E( \epsilon^2_i) = \sigma^2_{\epsilon} \).
\( E( \epsilon_i \epsilon_j ) = 0, \ j \neq i\).
Обратите внимание, что эти допущения почти точно такие же, как и для модели линейной регрессии с одной переменной.
Допущение 2 модифицируется таким образом, что точная линейная связь не существует между двумя или более независимыми переменными или комбинациями независимых переменных.
Если эта часть Допущения 2 нарушена, то мы не можем вычислить оценку линейной регрессии.
Кроме того, даже если отсутствует точная линейная связь между двумя или более независимыми переменными или комбинациями независимых переменных, линейная регрессия может вызвать проблемы, если две или более независимых переменных или их комбинации сильно коррелируют.
Такая высокая корреляция известна как мультиколлинеарность (multicollinearity), которую мы обсудим позже. Мы также обсудим последствия выполнения регрессионного анализа, основанного на Допущениях 4 и 5, которые формально соблюдаются, хотя на самом деле нарушаются.
Kyaw, Manley и Shetty (2011) изучили, какие факторы влияют на оценку многонациональной корпорации (MNC). В частности, они хотели выяснить, повлияли ли политический риск, прозрачность и географическая диверсификация на оценку MNC.
Они использовали данные для 450 MNC из США с 1998 по 2003 год.
Оценки этих корпораций оценивались с использованием показателя \(q\) Тобина (Tobin's \(q\)), который обычно используется для корпоративной оценки. Он рассчитывается как отношение суммы рыночной стоимости капитала корпорации и балансовой стоимости долгосрочных долговых обязательств к сумме балансовой стоимости капитала и долгосрочных долговых обязательств.
Авторы регрессировали \(q\) Тобина для MNC по переменным, представляющим политический риск, прозрачность и географическую диверсификацию.
Авторы также включили в регрессию некоторые дополнительные переменные, которые могут повлиять на оценку компании, включая размер, леверидж и бета-коэффициент.
Они использовали следующее уравнение:
\( \begin{aligned}
{\rm Tobin's} \ q_{i,t} &= b_0 + b_1 ({\rm Размер}_{i,t})
+ b_2 ({\rm Леверидж}_{i,t}) \\
&+ b_3 ({\rm Бета}_{i,t}) + b_4 ({\rm Политический \ риск}_{i,t}) \\
&+ b_5 ({\rm Прозрачность}_{i,t}) \\
&+ b_6 ({\rm Географическая \ диверсификация}_{i,t}) \\
&+ \epsilon_{i,t}
\end{aligned} \)
где
В следующей таблице показаны результаты анализа.
Коэффициент |
Стандартная ошибка |
t-статистика |
|
---|---|---|---|
Точка пересечения (константа) |
19.829 |
4.798 |
4.133 |
Размер |
-0.712 |
0.228 |
-3.123 |
Леверидж |
-3.897 |
0.987 |
-3.948 |
Бета |
-1.032 |
0.261 |
-3.954 |
Политический риск |
-2.079 |
0.763 |
-2.725 |
Прозрачность |
-0.129 |
0.050 |
-2.580 |
Географическая диверсификация |
0.021 |
0.010 |
2.100 |
Примечания: это исследование объединяет наблюдения временных рядов с перекрестными наблюдениями. Такие данные обычно называются панельными данными (panel data).
Для подобного набора переменных необходимо корректировать стандартные ошибки с использованием подхода кластерных стандартных ошибок, как описано в работе Petersen (2009). Стандартные ошибки, представленные в этой иллюстрации, представляют собой кластерные стандартные ошибки.
Размер - это натуральный логарифм общих продаж. Преобразование в логарифм (либо натуральный логарифм, либо логарифм по основанию 10) обычно используется для независимых переменных, которые могут принимать широкий диапазон значений; размер компании и размер фондов являются двумя такими переменными.
Одной из причин использования преобразования в логарифм является улучшение статистических свойств остатков.
Если бы авторы не использовали логарифм продаж и вместо этого использовали просто продажи в качестве независимой переменной, регрессионная модель, вероятно, также не объяснила бы \(q\) Тобина.
Источник: Kyaw, Manley и Shetty (2011).
Предположим, что мы используем результаты регрессии, чтобы проверить нулевую гипотезу о том, что размер многонациональной корпорации не влияет на ее стоимость.
Наша нулевая гипотеза заключается в том, что коэффициент по переменной размера равен 0 (\( H_0 : b_1 = 0 \)), а наша альтернативная гипотеза заключается в том, что коэффициент не равен 0 (\( H_a : b_1 \neq 0 \)).
t-статистика для проверки этой гипотезы:
\( \dst
t = \dst { \hat b_1 - b_1 \over s_{\hat b_1} }
= \dst { -0.712 - 0 \over 0.228 } = -3.12
\)
При 450 наблюдениях и 7 коэффициентах t-статистика имеет \(450 - 7 = 443\) степеней свободы. На уровне значимости 0.05 критическое значение для \(t\) составляет около 1.97.
Абсолютное значение рассчитанной t-статистики по коэффициенту размера составляет 3.12, что убедительно говорит о том, что мы можем отклонить нулевую гипотезу о том, что размер не связан со стоимостью MNC. Фактически, критическое значение для \(t\) составляет около 2.6 на уровне значимости 0.01.
Поскольку \( {\rm Размер}_{i,t} \) - это натуральный логарифм продаж (по основанию \(e\) или 2.72), увеличение \( {\rm Размер}_{i,t} \) на 1 эквивалентно увеличению продаж в 2.72 раза.
Таким образом, рассчитанный коэффициент для \( {\rm Размер}_{i,t} \), приблизительно равный -0.7, подразумевает, что каждое увеличение продаж MNC в 2.72 раза (увеличение \( {\rm Размер}_{i,t} \) на 1) связано с ожидаемым снижением \( {\rm Tobin's} \ q_{i,t} \) на 0.7, при неизменных остальных пяти независимых переменных регрессии.
Теперь предположим, что мы хотим проверить нулевую гипотезу о том, что географическая диверсификация не связана с \(q\) Тобина.
Мы хотим проверить, равен ли коэффициент по географической диверсификации 0 (\( H_0 : b_6 = 0 \)) против альтернативной гипотезы о том, что коэффициент географической диверсификации не равен 0 (\( H_a : b_6 \neq 0 \)).
t-статистика для проверки этой гипотезы:
\( \dst
t = \dst { \hat b_6 - b_6 \over s_{\hat b_6} }
= \dst { 0.021 - 0 \over 0.010 } = 2.10
\)
Критическое значение t-теста составляет 1.97 на уровне значимости 0.05. Следовательно, на уровне значимости 0.05 мы можем отклонить нулевую гипотезу о том, что географическая диверсификация не влияет на оценку стоимости MNC.
Мы можем интерпретировать коэффициент по географической диверсификации 0.021, как предполагающий то, что увеличение иностранных продаж MNC на 1% связано с ожидаемым увеличением \(q\) Тобина на 0.021, при неизменных всех прочих независимых переменных.
Предположим, вы рассматриваете инвестиции в технологический портфель (FSPTX, Fidelity Select Technology Portfolio), взаимного фонда США, специализирующегося на акциях технологических компаний.
Вы хотите знать, похож ли фонд больше на фонд акций роста с большой капитализацией или на фонд акций стоимости с большой капитализацией. Вы решили оценить регрессию:
\( Y_t = b_0 + b_1 X_{1t} + b_2 X_{2t} + \epsilon_t \)
где
Индексы S&P 500 Growth Index и S&P 500 Value Index представляют преимущественно акции роста и стоимости компаний с большой капитализацией, соответственно.
Результаты этой линейной регрессии получены с использованием ежемесячных данных с августа 2014 года по август 2019 года.
Точка пересечения (константа) регрессии составляет 0.0011. Таким образом, если доходность обоих индексов равна 0 в определенном месяце, регрессионная модель предсказывает, что доходность FSPTX составит 0.11%.
Коэффициент по индексу роста S&P 500 Growth Index составляет 1.5850, а коэффициент на индексу стоимости S&P 500 Value Index составляет -0.3902.
Поэтому, если в определенный месяц доходность индекса роста составляла 1%, а доходности индекса стоимости составляла -2%, модель прогнозирует, что доходность FSPTX составит:
\( 0.0011 + 1.5850(0.01) - 0.3902(-0.02) = 2.48\% \).
Коэффициент |
Стандартная ошибка |
t-статистика |
|
---|---|---|---|
Точка пересечения |
0.0011 |
0.0025 |
0.4405 |
S&P 500 Growth Index |
1.5850 |
0.1334 |
11.88 |
S&P 500 Value Index |
-0.3902 |
0.1332 |
-2.93 |
ANOVA |
df |
SS |
MSS |
F |
Значимость F |
---|---|---|---|---|---|
Регрессия |
2 |
0.1198 |
0.0599 |
178.01 |
3.07E-25 |
Остаток |
57 |
0.0192 |
0.0003 |
||
Итого |
59 |
0.1389 |
|||
Стандартная ошибка остатка |
0.0183 |
||||
Множественный \(R^2\) |
0.862 |
||||
Наблюдения |
60 |
Источник: finance.yahoo.com.
Возможно, вы захотите выяснить, является ли коэффициент по индексу стоимости S&P 500 Value Index статистически значимым.
Наша нулевая гипотеза утверждает, что коэффициент равен 0 (\( H_0 : b_2 = 0 \)); Наша альтернативная гипотеза утверждает, что коэффициент не равен 0 (\( H_a : b_2 \neq 0 \)).
Наша проверка нулевой гипотезы использует t-тест (критерий), построенный следующим образом:
\( \dst
t = \dst { \hat b_2 - b_2 \over s_{\hat b_2} }
= \dst { -0.3902 - 0 \over 0.1332 } = -2.93
\),
где
На уровне значимости 0.05 критическое значение для статистического критерия составляет около 2.00. Абсолютное значение статистического критерия составляет 2.93.
Поскольку абсолютное значение статистического критерия больше, чем критическое значение (\(2.93 > 2.00\)), мы отклоняем нулевую гипотезу о том, что \(b_2 = 0\).
Обратите внимание, что t-тесты, представленные в таблице результатов регрессии, а также других таблицах регрессии, являются проверками нулевой гипотезы о том, что значение коэффициента регрессии равно 0.
Аналогичный анализ показывает, что на уровне значимости 0.05 мы не можем отвергнуть нулевую гипотезу о том, что точка пересечения равна 0 (\( H_0 : b_0 = 0 \)) в пользу альтернативной гипотезы о том, что точка пересечения не равна 0 (\( H_a : b_0 \neq 0 \)).
Результаты также показывают, что t-статистика для проверки этой гипотезы составляет 0.4405, что меньше по абсолютному значению, чем критическое значение 2.00.
Однако на уровне значимости 0.05 мы можем отклонить нулевую гипотезу о том, что коэффициент по индексу роста S&P 500 Growth Index равен 0 (\( H_0 : b_1 = 0 \)) в пользу альтернативной гипотезы о том, что коэффициент не равен 0 (\( H_a : b_1 \neq 0 \)).
t-статистика для проверки этой гипотезы составляет 11.88, что намного выше критического значения 2.00. Таким образом, множественный регрессионный анализ предполагает, что доходность FSPTX очень тесно связана с доходностью индекса роста S&P 500 Growth Index, но отрицательно связана с индексом стоимости S&P 500 Value Index.
Эта регрессия связана с анализом доходности, одним из наиболее частых применений регрессионного анализа в инвестиционной практике. Для получения дополнительной информации см. Sharpe (1988), который был первооткрывателем это области, а также Buetow, Johnson и Runkle (2000).