Ранее мы проиллюстрировали, как выполнить проверку гипотез об отдельных коэффициентах регрессии.

Что если мы теперь хотим проверить значимость регрессии в целом? Как группа, помогают ли независимые переменные объяснить зависимую переменную?

Чтобы решить этот вопрос, мы проверяем нулевую гипотезу о том, что все коэффициенты наклона в регрессии одновременно равны 0. Далее мы также обсудим применение ANOVA (дисперсионного анализа) для определения объяснительной силы регрессии и исходных данных для F-критерия вышеупомянутой нулевой гипотезы.

Если ни одна из независимых переменных в регрессионной модели не помогает объяснить зависимую переменную, все коэффициенты наклона должны быть равны 0.

Однако при множественной регрессии мы не можем проверить нулевую гипотезу о том, что все коэффициенты наклона равны 0, основываясь на t-критериях (проверках), в которых каждый отдельный коэффициент наклона равен 0, поскольку отдельные проверки не учитывают влияние взаимодействия между независимыми переменными.

Например, классический симптом мультиколлинеарности заключается в том, что мы можем отвергнуть гипотезу о том, что все коэффициенты наклона равны 0, даже если ни одна из t-статистик для отдельных коэффициентов наклона не является значимой.

И наоборот, мы можем получить необычные примеры, в которых отдельные коэффициенты наклона значительно отличаются от 0, хотя совместно они не отличаются.

Чтобы проверить нулевую гипотезу о том, что все коэффициенты наклона в модели множественной регрессии совместно равны 0 (\(H_0: b_1 = b_2 = \ldots = b_k = 0\)) против альтернативной гипотезы о том, что по крайней мере один коэффициентов наклона не равен 0, мы должны использовать F-критерий (F-тест).

F-критерий рассматривается как проверка значимости регрессии в целом.

Чтобы правильно рассчитать статистику критерия для нулевой гипотезы, нам нужны четыре входных параметра:

  • Общее количество наблюдений, \(n\).
  • Общее количество коэффициентов регрессии, которые требуется оценить, \(k + 1\), где \(k\) - количество коэффициентов наклона.
  • Сумма квадратных ошибок или остатков, \( \dst \sum^n_{i=1} (Y_i - \hat Y_i)^2 = \dst \sum^n_{i=1} \hat \epsilon^2_i \), сокращенно SSE (sum of squared errors), которую также называют суммой квадратов остатков или необъясненным изменением. В таблице результатов регрессии это число приведено в столбце «SS» и строке «Остаток».
  • Сумма квадратов регрессии, \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \), сокращенно RSS (regression sum of squares). Это значение является отклонением \(Y\) от его среднего значения, которое объясняет уравнение регрессии (объясненное изменение). В таблице результатов регрессии это число приведено в столбце «SS» и строке «Регрессия».

F-критерий для определения того, равны ли коэффициенты наклона 0, основан на F-статистике, рассчитанной с использованием четырех значений, приведенных выше.

F-статистика оценивает, насколько хорошо уравнение регрессии объясняет изменение в зависимой переменной; она является отношением средней суммы квадратов регрессии к средней сумме квадратов ошибки или средней квадратной ошибке.

Мы рассчитываем среднюю сумму квадратов регрессии, разделив сумму квадратов регрессии на количество оцениваемых коэффициентов наклона, \(k\).

Мы рассчитываем среднюю квадратную ошибку, разделив сумму квадратов ошибок на количество наблюдений, \(n\), минус (\(k+1\)). Два делителя в этих вычислениях являются степенями свободы для расчета F-статистики.

Для \(n\) наблюдений и \(k\) коэффициентов наклона, F-критерий для нулевой гипотезы о том, что коэффициенты наклона равны 0, обозначается как \(F_{k,n-(k+1)}\).

Индекс указывает на то, что критерий должен иметь \(k\) степеней свободы в числителе (числитель степеней свободы) и \(n-(k+1)\) степеней свободы в знаменателе (знаменатель степеней свободы).

Формула для F-статистики:

\( \dst
F = {{\rm RSS} \big/ k \over {\rm SSE} \big/ \left[ n-(k+1) \right] } =
{\text {Средняя сумма квадратов регрессии} \over \text {Средняя квадратная ошибка} } = { {\rm MSR} \over {\rm MSE} }
\) (4)

где MSR является средней суммой квадратов регрессии, а MSE - средней квадратной ошибкой. В нашей таблице результатов регрессии MSR и MSE являются первым и вторым значениями столбца MSS (средняя сумма квадратов) в разделе ANOVA.

Если регрессионная модель хорошо объясняет изменение в зависимой переменной, соотношение MSR/MSE будет большим.

Что этот F-критерий говорит нам, когда независимые переменные в регрессионной модели не объясняют ни одного изменения в зависимой переменной?

В этом случае каждое прогнозируемое значение в регрессионной модели, \( \hat Y_i \), имеет среднее значение зависимой переменной \( \overline Y_i \) и сумму квадратов регрессии \( \dst \sum^n_{i=1} (\hat Y_i - \overline Y)^2 \) равную 0.

Следовательно, F-статистика для проверки нулевой гипотезы (о том, что все коэффициенты наклона равны 0) равна 0, когда независимые переменные вообще не объясняют зависимую переменную.

Чтобы указать детали принятия статистического решения, когда мы рассчитываем F, мы отклоняем нулевую гипотезу, если рассчитанное значение F больше, чем верхнее критическое значение распределения F с указанным числителем и знаменателем степеней свободы.

Обратите внимание, что мы используем односторонний F-критерий (потому что MSR обязательно увеличивается по сравнению с MSE, по мере увеличения объяснительной силы регрессии).

Мы можем проиллюстрировать этот критерий, используя Иллюстрацию 1, в которой мы исследовали, объясняет ли натуральный логарифм количества участников рынка NASDAQ и натуральный логарифм рыночной капитализации акций натуральный логарифм спреда цен продавца и покупателя, разделенного на цену.

Предположим, что мы устанавливаем уровень значимости для этого критерия \( \alpha = 0.05 \) (то есть 5% вероятность того, что мы ошибочно отклоним верную нулевую гипотезу). Выдержка из Иллюстрации 1 содержит результаты расчета дисперсии для этой регрессии.

Выдержка из Иллюстрации 1:

ANOVA

df

SS

MSS

F

Значимость F

Регрессия

2

3,728.1334

1,864.0667

2,216.7505

0.00

Остаток

2,584

2,172.8870

0.8409

Итого

2,586

5,901.0204

Эта модель имеет два коэффициента наклона (\(k = 2\)), поэтому числителе этого F-критерия находятся две степени свободы. При 2,587 наблюдениях в выборке число степеней свободы в знаменателе F-критерия составляет:

\( n - (k + 1) = 2,587 - 3 = 2,584 \).

Сумма квадратов ошибок составляет 2,172.8870. Сумма квадратов регрессии составляет 3,728.1334. Следовательно, F-критерий для нулевой гипотезы о том, что два коэффициента наклона в этой модели равны 0, будет равен:

\( \dst
{ 3,728.1334/2 \over 2,172.8870/2,584 } = 2,216.7505
\)

Эта статистика распределяется как случайная переменная \( F_{2, \ 2,584} \) в соответствии с нулевой гипотезой о том, что коэффициенты наклона равны 0.

В Иллюстрации 1 для уровня значимости 0.05 мы рассматриваем второй столбец, который показывает F-распределения с двумя степенями свободы в числителе.

В нижней части столбца мы видим, что критическое значение F-критерия, необходимое для отклонения нулевой гипотезы, составляет от 3.00 до 3.07. (Мы видим диапазон значений, потому что знаменатель имеет более 120 степеней свободы, но это меньше, чем бесконечное количество степеней свободы).

Фактическое значение статистики F-критерия при 2,216.75 гораздо больше, поэтому мы отклоняем нулевую гипотезу о том, что коэффициенты обеих независимых переменных равны 0. Фактически, результаты регрессии, представленные в столбце «Значимость F» Иллюстрации 1 содержат \(p\)-значение равное 0.

Это \(p\)-значение означает, что наименьший уровень значимости, при котором может быть отвергнута нулевая гипотеза, практически равен 0. Большое значение для этой F-статистики подразумевает очень малую вероятность неправильного отклонения нулевой гипотезы (ошибка, известная как ошибка I рода).

Скорректированный коэффициент детерминации \(R^2\).

В нашем освещении простой регрессии мы представили коэффициент детерминации \(R^2\) как меру соответствия (степени согласия) регрессии данным.

Однако для множественной линейной регрессии \(R^2\) менее подходит в качестве показателя того, насколько хорошо модель регрессии подходит данным (степень согласия). Напомним, что \(R^2\) определяется как

\( \dst {
\text{Общее изменение} - \text{Необъясненное изменение} \over \text{Общее изменение}
} \)

Числитель равен сумме квадратов регрессии RSS. Таким образом, \(R^2\) выражает RSS как долю общей суммы квадратов:

\( \dst \sum^n_{i=1} (Y_i - \overline Y)^2 \).

Если мы добавим переменные регрессии в модель, значение необъясненного изменения уменьшится; RSS будет увеличиваться, если новая независимая переменная объяснит что-либо из необъясненного изменения в модели.

Такое уменьшение происходит, когда новая независимая переменная хоть немного коррелирует с зависимой переменной и не является линейной комбинацией других независимых переменных в регрессии (обратите внимание, мы говорим, что переменная \(y\) - это линейная комбинация переменных \(x\) и \(z\) или даже большего числа переменных, если \(y = ax+bz\) для некоторых констант \(a\) и \(b\)).

Следовательно, мы можем увеличить \(R^2\), просто добавив в модель множество дополнительных независимых переменных, которые объясняют даже небольшую часть ранее необъясненных вариаций, даже если часть, которую они объясняют, не является статистически значимой.

Некоторые финансовые аналитики используют альтернативную меру соответствия (степени согласия) регрессионной модели, известную как скорректированный коэффициент детерминации \(R^2\) или \( \overline R^2\).

Эта мера соответствия не увеличивается, когда в регрессию добавляется другая переменная; она корректируется с учетом степеней свободы. Скорректированный \(R^2\), как правило, является частью результатов множественной регрессии, рассчитываемых статистическими программными пакетами.

Связь между \(R^2\) и \( \overline R^2\):

\( \dst
\overline R^2 = 1 - \dst \left( {n-1 \over n-k-1} \right)  \left( {1-R^2} \right)
\),

где \(n\) - количество наблюдений, а \(k\) - количество независимых переменных (количество коэффициентов наклона). Обратите внимание, что если \(k \geq 1\), то \(R^2\) будет обязательно больше, чем скорректированный \(R^2\).

Когда добавлена ​​новая независимая переменная, \( \overline R^2 \) может уменьшаться, если добавление этой переменной приводит лишь к небольшому увеличению \(R^2\). На самом деле, \( \overline R^2 \) может быть отрицательным, хотя \( R^2 \) всегда положителен. Когда \( \overline R^2 \) отрицателен, мы можем уверенно допустить, что его значение равно 0.

Если мы используем \( \overline R^2 \) для сравнения моделей регрессии, важно, чтобы зависимая переменная была определена одинаково в обеих моделях и чтобы размеры выборки, используемые для оценки моделей, были одинаковыми.

Например, это имеет значение для величины \( \overline R^2 \), ​​если зависимой переменной является ВВП (валовой внутренний продукт) или логарифм ВВП, даже если независимые переменные идентичны. Кроме того, мы должны знать, что высокий \( \overline R^2 \) не обязательно указывает на то, что регрессия хорошо смоделирована с точки зрения включения в нее правильного набора переменных.

Одна из причин осторожности заключается в том, что высокий \( \overline R^2 \) может отражать особенности выборки данных, используемых для оценки регрессии. Чтобы оценить регрессионную модель, мы должны учитывать многие другие факторы, что мы обсудим позже в разделе, посвященном спецификации модели.