Рассмотрим мультиколлинеарность, причины ее возникновения и последствия в регрессионном анализе, - в рамках изучения количественных методов по программе CFA (Уровень II).
Второе допущение модели множественной линейной регрессии состоит в том, что нет точной линейной связи между двумя или более независимыми переменными или комбинациями независимых переменных.
Когда одной из независимых переменных является точная линейная комбинация других независимых переменных, то становится механически невозможным рассчитать регрессию.
Предположим, что мы попытались объяснить кредитные рейтинги компании с помощью регрессии, которая включает чистую выручку от продаж, стоимость проданных товаров и валовую прибыль в качестве независимых переменных.
Поскольку Валовая прибыль = Чистая выручка - Стоимость проданных товаров, то по определению существует точная линейная связь между этими переменными.
Этот тип ошибки относительно очевиден (и его легко избежать).
Только что описанная проблема, известная как совершенная коллинеарность (англ. 'perfect collinearity'), является практической проблемой в гораздо меньшей мере, чем мультиколлинеарность.
Мультиколлинеарность (англ. 'multicollinearity') возникает, когда две или более независимых переменных (или комбинации независимых переменных) сильно (но не идеально) коррелируют друг с другом.
При мультиколлинеарности мы можем оценить регрессию, но интерпретация регрессионного вывода становится проблематичной. Мультиколлинеарность является серьезной практической проблемой, потому что приблизительные линейные связи между финансовыми переменными широко распространены.
Хотя наличие мультиколлинеарности не влияет на согласованность коэффициентов регрессии, рассчитанных методом наименьших квадратов (OLS, ordinary least squares), расчеты этих коэффициентов становятся чрезвычайно неточными и ненадежными. Кроме того, становится практически невозможно различать отдельное воздействие независимых переменных на зависимую переменную.
Эти последствия отражаются в завышенных стандартных ошибках для коэффициентов регрессии. При завышенных стандартных ошибках t-критерии по коэффициентам имеют небольшую силу (способность отвергать нулевую гипотезу).
В отличие от случаев гетероскедастичности и сериальной корреляции, мы не будем проводить формальный статистический тест на мультиколлинеарность. На практике мультиколлинеарность часто является вопросом степени, а не отсутствия или присутствия.
Аналитик должен знать, что предлагаемое иногда использование значений парных корреляций между независимыми переменными для оценки мультиколлинеарности обычно является неадекватным.
Хотя очень высокие значения парных корреляций между независимыми переменными могут указывать на мультиколлинеарность, это не обязательно является проблемой мультиколлинеарности.
Иными словами, сильные парные корреляции между независимыми переменными не являются необходимым условием для мультиколлинеарности, а слабые парные корреляции при этом не означают отсутствие проблемы мультиколлинеарности.
Даже если пары независимых переменных имеют слабую корреляцию, могут быть линейные комбинации независимых переменных, которые очень сильно коррелируют, создавая проблему с мультиколлинеарностью.
Единственный случай, когда корреляция между независимыми переменными может быть разумным показателем мультиколлинеарности, возникает в регрессии с ровно двумя независимыми переменными.
Классическим симптомом мультиколлинеарности является высокий \( R^2 \) (и значительная F-статистика), даже если t-статистика для коэффициентов наклона не является значимой. Незначительная t-статистика отражает завышенные стандартные ошибки.
Хотя коэффициенты можно оценить с очень низкой точностью, что отражается в низкой t-статистике, независимые переменные, объединенные в группу, могут хорошо объяснять зависимую переменную. Высокий \( R^2 \) будет отражать эту эффективность.
Иллюстрация 15 демонстрирует эту диагностику мультиколлинеарности.
В Иллюстрации 3 мы регрессировали доходность технологического портфеля FSPTX (Fidelity Select Technology Portfolio) по доходности Индекса роста S&P 500 и Индекса стоимости S&P 500 с использованием данных с августа 2014 года по август 2019 года. Результаты регрессии мы воспроизведем далее.
t-статистика для доходности индекса роста составляет 11.88. Это больше 2, что указывает на то, что коэффициент по индексу роста значительно отличается от 0 при стандартных уровнях значимости.
t-статистика для доходности индекса стоимости составляет -2.93 и, следовательно, также является статистически значимой. Этот результат предполагает, что доходность FSPTX связана с доходностью индекса роста и отрицательно связана с доходностью индекса стоимости.
Обратите внимание, что коэффициент по индексу роста составляет 1.585. Этот результат подразумевает, что доходность FSPTX более волатильна, чем доходность индекса роста.
Коэффициент |
Стандартная ошибка |
t-статистика |
|
---|---|---|---|
Точка пересечения |
0.0011 |
0.0025 |
0.4406 |
Индекс роста S&P 500 |
1.5850 |
0.1334 |
11.8843 |
Индекс стоимости S&P 500 |
-0.3902 |
0.1332 |
-2.93 |
ANOVA |
df |
SS |
MSS |
F |
Значимость F |
---|---|---|---|---|---|
Регрессия |
2 |
0.1198 |
0.0599 |
178 |
0.000 |
Остаток |
57 |
0.0192 |
0.0003 |
||
Итого |
59 |
0.1390 |
|||
Стандартная ошибка остатка |
0.0183 |
||||
Множественный \( R^2 \) |
0.862 |
||||
Наблюдения |
60 |
Также обратите внимание, что эта регрессия объясняет значительное количество изменений в доходности FSPTX. В частности, \( R^2 \) этой регрессии составляет 0.8627.
Таким образом, приблизительно 86% изменений в доходности FSPTX объясняется доходностью индексов роста и стоимости S&P 500.
Теперь предположим, что мы исследуем еще одну линейную регрессию, которая добавляет доходность совокупного индекса S&P 500 к доходности индексов роста и стоимости S&P 500.
Индекс S&P 500 включает в себя акции обоих стилей инвестирования (т.е. роста и стоимости), поэтому мы получаем серьезную проблему с мультиколлинеарностью.
Результаты регрессии показаны далее. Обратите внимание, что \( R^2 \) в этой регрессии практически не изменился по сравнению с \( R^2 \) из предыдущей регрессии (увеличение с 0.8620 до 0.8624), но стандартные ошибки коэффициентов независимых переменных изменились намного больше.
Новая регрессия, полученная в результате добавления доходности S&P 500 к предыдущей регрессии больше не объясняет изменения в доходности FSPTX, как это делала предыдущая регрессия, и теперь ни один из коэффициентов не является статистически значимым. Это классический случай мультиколлинеарности.
Коэффициент |
Стандартная ошибка |
t-статистика |
|
---|---|---|---|
Точка пересечения |
0.0008 |
0.0025 |
0.4047 |
Индекс роста S&P 500 |
-0.1873 |
4.1890 |
-0.0447 |
Индекс стоимости S&P 500 |
-1.8717 |
3.7387 |
-0.5274 |
Индекс S&P 500 |
3.3522 |
7.9194 |
-0.4233 |
ANOVA |
df |
SS |
MSS |
F |
Значимость F |
---|---|---|---|---|---|
Регрессия |
3 |
0.1198 |
0.0399 |
117.02 |
4.26E-24 |
Остаток |
56 |
0.0191 |
0.0003 |
||
Итого |
59 |
0.1389 |
|||
Стандартная ошибка остатка |
0.0185 |
||||
Множественный \( R^2 \) |
0.8624 |
||||
Наблюдения |
60 |
Мультиколлинеарность может быть проблемой, даже если мы не наблюдаем классический симптом незначительной t-статистики, но имеем очень значительный F-критерий (F-тест). Расширенные учебники предоставляют дополнительные инструменты, помогающие диагностировать мультиколлинеарность (Greene 2018).
Наиболее прямым решением проблемы мультиколлинеарности является исключение одной или нескольких переменных из регрессии.
В предыдущем примере мы увидели, что доходность совокупного индекса S&P 500 не следует включать в модель, если в нее также включены индексы роста S&P 500 и индексы стоимости S&P 500.
Это связано с тем, что доходность совокупного индекса S&P 500 является средневзвешенным значением доходности акций роста и стоимости.
Однако во многих случаях для проблемы мультиколлинеарности нет простого решения, и вам необходимо будет экспериментировать с включением или исключением различных независимых переменных, чтобы определить источник мультиколлинеарности.
Мы обсудили некоторые проблемы, которые гетероскедастичность, сериальная корреляция и мультиколлинеарность могут вызвать при интерпретации результатов регрессии.
Мы отметили, что эти нарушения регрессионных допущений приводят к проблемам в получении обоснованных выводов. Перед интерпретацией статистических тестов аналитик должен убедиться, что допущения регрессионной модели соблюдены.
Иллюстрация 16 содержит краткое изложение этих проблем; влияние, которое они оказывают на результаты линейной регрессии (аналитик может видеть эти эффекты при использовании ПО для расчета регрессии); и решение этих проблем.
Проблема |
Эффект |
Решение |
---|---|---|
Гетероскедастичность |
Неверные стандартные ошибки. |
Используйте надежные стандартные ошибки (скорректированные с учетом условной гетероскедастичности). |
Сериальная корреляция |
Неверные стандартные ошибки (дополнительные проблемы, если в качестве независимой переменной используется запаздывающее значение зависимой переменной). |
Используйте надежные стандартные ошибки (скорректированные с учетом сериальной корреляции). |
Мультиколлинеарность |
Высокий \( R^2 \) и низкая t-статистика. |
Удалите одну или несколько независимых переменных; в теории часто нет решения. |