Рассмотрим проблему ошибочной спецификации модели множественной регрессии, использующей временные ряды данных, а также влияние этой ошибки на результаты регрессионного анализа, - в рамках изучения количественных методов по программе CFA (Уровень II).
В предыдущем разделе мы обсудили неправильную спецификацию, которая возникает, когда подходящая независимая переменная исключена из регрессии.
В этом разделе мы обсуждаем проблемы, связанные с переменными, включенными в регрессию, использующую временные ряды.
В моделях, которые используют данные временных рядов для объяснения связей между различными переменными, можно очень легко нарушить регрессионное Допущение 3: ожидаемое значение члена ошибки, обусловленное независимыми переменными, в среднем равно 0.
Если это допущение будет нарушено, коэффициенты регрессии будут предвзятыми и необоснованными.
Три распространенные проблемы, которые приводят к такой неправильной спецификации:
Следующие примеры демонстрируют эти проблемы.
Предположим, что аналитик включает первое запаздывающее значение зависимой переменной в множественную регрессию, которая в результате имеет значительную сериальную корреляцию в ошибках. Например, аналитик может использовать уравнение регрессии:
\( Y_t = b_0 + b_1 X_{1t} + b_2 Y_{t-1} + \epsilon_t \), (11)
Поскольку мы предполагаем, что член ошибки сериально коррелирует, то по определению член ошибки коррелирует с зависимой переменной.
Следовательно, запаздывающая зависимая переменная \(Y_{t-1}\) будет коррелировать с членом ошибки, нарушая допущение о том, что независимые переменные не коррелируют с членом ошибки.
В результате рассчитанные коэффициенты регрессии будут предвзятыми и необоснованными.
В нашем обсуждении сериальной корреляции мы выяснили на примере теста Дурбина-Уотсона, что член ошибки в уравнении эффекта Фишера (Уравнение 8) показывает положительную (первого порядка) сериальную корреляцию - при использовании доходности трехмесячных казначейских облигаций США в качестве зависимой переменной и инфляционных ожиданий в качестве независимой переменной.
Наблюдения для зависимых и независимых переменных были ежеквартальными. Теперь мы изменим эту регрессию, включив в нее доходность облигаций за предыдущий квартал в качестве дополнительной независимой переменной.
Результаты регрессии доходности облигаций по прогнозируемой инфляции и запаздывающей доходности облигаций.
Коэффициент |
Стандартная |
t-статистика |
|
---|---|---|---|
Точка пересечения |
-0.0005 |
0.0014 |
-0.3571 |
Прогноз инфляции |
0.1843 |
0.0455 |
4.0505 |
Запаздывающая доходность облигаций |
0.8796 |
0.0295 |
29.8169 |
Стандартная ошибка остатка |
0.0095 |
||
Множественный \( R^2 \) |
0.9285 |
||
Наблюдения |
181 |
Источник: Федеральный резервный банк Филадельфии, Министерство торговли США.
На первый взгляд, эти результаты регрессии выглядят очень интересными: коэффициент запаздывающей доходности облигаций кажется весьма значимым.
Но при более внимательном рассмотрении выясняется, что мы должны игнорировать эти результаты, потому что регрессия принципиально неправильно определена.
До тех пор, пока член ошибки сериально коррелирует, при включении в модель запаздывающей доходности в качестве независимой переменной, это будет приводить к смещенной и необоснованной оценке всех коэффициентов.
Следовательно, эта регрессия не применима ни для проверки гипотезы, ни для прогнозирования.
Второй распространенный в инвестиционном анализе случай неправильной спецификации регрессии временных рядов - это прогнозирование прошлого.
Что это значит?
Если мы прогнозируем будущее (например, в текущем периоде \(t\) предсказываем значение переменной \(Y\) за период \(t + 1\)), мы должны основывать наши прогнозы на информации, которую мы знали в момент времени \(t\).
Мы могли бы использовать следующее уравнение регрессии, чтобы сделать этот прогноз:
\( Y_{t+1} = b_0 + b_1 X_{1t} + \epsilon_{t+1} \), (12)
В этой формуле мы предсказываем значение \(Y\) за период \(t + 1\), используя значение \(X\) за текущий период \(t\). Член ошибки, \( \epsilon_{t+1} \), неизвестен в момент времени \(t\) и, следовательно, не должен коррелировать с \(X_{1t}\) .
К сожалению, аналитики иногда используют регрессии, которые пытаются прогнозировать значение зависимой переменной в текущий момент времени \(t + 1\) на основе независимой переменной (или переменных), которая является функцией значения зависимой переменной в момент времени \(t + 1\).
В такой модели независимая переменная будет коррелировать с членом ошибки, поэтому уравнение будет ошибочно определено.
Например, аналитик может попытаться объяснить перекрестную доходность для группы компаний в течение определенного года, используя коэффициент котировки акций, а также рыночную капитализацию для этих компаний на конец года.
«Коэффициент котировки акций» (Market-to-book ratio) - это рыночная цена на акцию, деленная на балансовую стоимость на акцию, т.е. соотношение рыночной и балансовой стоимости акции.
Если аналитик считает, что такая регрессия предсказывает, что компании с высоким коэффициентом котировки акций или высокой рыночной капитализацией будут обладать высокой доходностью акций, то он ошибается.
Это связано с тем, что в течение любого данного периода, чем выше доходность в течение периода, тем выше рыночная капитализация и коэффициент котировки акций будут на конец периода.
В этом случае, если все перекрестные данные относятся к периоду \(t + 1\), высокое значение зависимой переменной (доходность) фактически скорее приведет к высоким значениям независимых переменных (рыночная капитализация и коэффициент котировки акций), а не наоборот.
В этом типе неправильной спецификации модель регрессии эффективно включает зависимую переменную, как на правой, так и на левой сторонах уравнения регрессии.
Третья распространенная ошибка спецификации возникает, когда независимая переменная измерена с ошибкой. Предположим, что финансовая теория говорит нам, что конкретная переменная \(X_t\), такая как ожидаемая инфляция, должна быть включена в модель регрессии.
Но мы не можем напрямую наблюдать \(X_t\); Вместо этого мы можем наблюдать фактическую инфляцию, \(Z_t = X_t + u_t\), где мы предполагаем, что \(u_t\) является членом ошибки, который не коррелирует с \(X_t\).
Даже в этих наилучших обстоятельствах использование \(Z_t\) в регрессии вместо \(X_t\) приведет к смещению и необоснованным оценкам коэффициента регрессии.
Чтобы понять почему, предположим, что мы хотим оценить регрессию:
\( Y_t = b_0 + b_1 X_t + \epsilon_t \),
но при этом заменим \(X_t\) на \(Z_t\). Тогда мы получим:
\( Y_t = b_0 + b_1 X_t + (-b_1 u_t + \epsilon_t) \).
Но \(Z_t = X_t + u_t\), поэтому \(Z_t\) коррелирует с членом ошибки \((-b_1 u_t + \epsilon_t)\). Следовательно, наша модель нарушает допущение о том, что член ошибки не коррелирует с независимой переменной.
Следовательно, коэффициенты регрессии будут смещенными и необоснованными.
Вспомните из Иллюстрации 11 об эффекте Фишера, основанном на нашем первоначальном анализе, в котором мы не исправили гетероскедастичность и сериальную корреляцию. Тогда мы отвергли гипотезу о том, что доходность трехмесячных облигаций изменялась один-к-одному вместе с ожидаемой инфляцией.
Коэффициент |
Стандартная ошибка |
t-статистика |
|
---|---|---|---|
Точка пересечения |
0.0116 |
0.0033 |
3.5152 |
Прогнозируемая инфляция |
1.1744 |
0.0761 |
15.4323 |
Стандартная ошибка остатка |
0.0233 |
||
Множественный \( R^2 \) |
0.5708 |
||
Наблюдения |
181 |
||
Статистика Дурбина-Уотсона |
0.2980 |
Что будет, если мы используем фактическую инфляцию вместо ожидаемой инфляции в качестве независимой переменной?
Сначала обратите внимание, что
\( \pi = \pi^e + v \),
где
Поскольку фактическая инфляция измеряет ожидаемую инфляцию с ошибкой, оценки коэффициентов регрессии с использованием доходности облигаций в качестве зависимой переменной и фактической инфляции в качестве независимой переменной, не будут обоснованными.
Обратите внимание, что обоснованная оценка - это оценка, для которой вероятность оценок, близких к значению параметра совокупности, увеличивается вместе с увеличением размера выборки.
Следующая регрессия показывает результаты использования фактической инфляции в качестве независимой переменной. Оценки в этой иллюстрации сильно отличаются от представленных в предыдущей иллюстрации.
Обратите внимание, что коэффициент наклона для фактической инфляции намного ниже, чем коэффициент наклона для прогнозируемой инфляции в предыдущей регрессии.
Этот результат является иллюстрацией общего предложения: в регрессии с одной независимой переменной, если мы выберем такую версию этой независимой переменной, при которой эта переменная измеряется с ошибкой, то предполагаемый коэффициент наклона для этой переменной будет смещен к 0.
Обратите внимание, что это предложение не распространяется на регрессии с более чем одной независимой переменной.
Конечно, мы игнорируем сериально коррелирующие ошибки в этом примере, но поскольку коэффициенты регрессии необоснованны (из-за ошибки измерения), тестирование или корректировка для устранения сериальной корреляции не даст эффекта.
Коэффициент |
Стандартная ошибка |
t-статистика |
|
---|---|---|---|
Точка пересечения |
0.0227 |
0.0034 |
6.6765 |
Фактическая инфляция |
0.8946 |
0.0761 |
11.7556 |
Стандартная ошибка остатка |
0.0267 |
||
Множественный \( R^2 \) |
0.4356 |
||
Наблюдения |
181 |
Источник: Федеральный резервный банк Филадельфии, Министерство торговли США.
Безусловно, наиболее частым источником неправильной спецификации в линейных регрессиях, которые используют временные ряды данных для двух или более разных переменных, является нестационарность.
Если очень примерно, нестационарность (англ. 'nonstationarity') означает, что свойства переменной, такие как среднее значение и дисперсия, не являются постоянными во времени.
Мы вернемся к обсуждению стационарности, когда будем рассматривать анализ временных рядов, но пока мы можем перечислить некоторые примеры, в которых нам необходимо использовать проверку на стационарность, прежде чем принять статистический вывод регрессии.
Примеры временных рядов в нашей дискуссии были тщательно подобраны так, чтобы в них не было проблемы нестационарности.
Но на практике нестационарность может быть очень серьезной проблемой для анализа связей между двумя или более временными рядами.
Аналитики должны понимать эти проблемы, прежде чем применять линейную регрессию для анализа связей между временными рядами. В противном случае они могут получить неверный статистический вывод.