В предыдущем разделе мы обсудили неправильную спецификацию, которая возникает, когда подходящая независимая переменная исключена из регрессии.

В этом разделе мы обсуждаем проблемы, связанные с переменными, включенными в регрессию, использующую временные ряды.

В моделях, которые используют данные временных рядов для объяснения связей между различными переменными, можно очень легко нарушить регрессионное Допущение 3: ожидаемое значение члена ошибки, обусловленное независимыми переменными, в среднем равно 0.

Если это допущение будет нарушено, коэффициенты регрессии будут предвзятыми и необоснованными.

Три распространенные проблемы, которые приводят к такой неправильной спецификации:

  • включение запаздывающих зависимых переменных в качестве независимых переменных в регрессию с сериально коррелирующими ошибками;
  • включение функции зависимой переменной в качестве независимой переменной, иногда в результате неправильного датирования переменных; и
  • независимые переменные, измеренные с ошибкой.

Следующие примеры демонстрируют эти проблемы.

Предположим, что аналитик включает первое запаздывающее значение зависимой переменной в множественную регрессию, которая в результате имеет значительную сериальную корреляцию в ошибках. Например, аналитик может использовать уравнение регрессии:

\( Y_t = b_0 + b_1 X_{1t} + b_2 Y_{t-1} + \epsilon_t  \), (11)

Поскольку мы предполагаем, что член ошибки сериально коррелирует, то по определению член ошибки коррелирует с зависимой переменной.

Следовательно, запаздывающая зависимая переменная \(Y_{t-1}\) будет коррелировать с членом ошибки, нарушая допущение о том, что независимые переменные не коррелируют с членом ошибки.

В результате рассчитанные коэффициенты регрессии будут предвзятыми и необоснованными.

Иллюстрация 23. Эффект Фишера для запаздывающей зависимой переменной.

В нашем обсуждении сериальной корреляции мы выяснили на примере теста Дурбина-Уотсона, что член ошибки в уравнении эффекта Фишера (Уравнение 8) показывает положительную (первого порядка) сериальную корреляцию - при использовании доходности трехмесячных казначейских облигаций США в качестве зависимой переменной и инфляционных ожиданий в качестве независимой переменной.

Наблюдения для зависимых и независимых переменных были ежеквартальными. Теперь мы изменим эту регрессию, включив в нее доходность облигаций за предыдущий квартал в качестве дополнительной независимой переменной.

Результаты регрессии доходности облигаций по прогнозируемой инфляции и запаздывающей доходности облигаций.

Коэффициент

Стандартная
ошибка

t-статистика

Точка пересечения

-0.0005

0.0014

-0.3571

Прогноз инфляции

0.1843

0.0455

4.0505

Запаздывающая доходность облигаций

0.8796

0.0295

29.8169

Стандартная ошибка остатка

0.0095

Множественный \( R^2 \)

0.9285

Наблюдения

181

Источник: Федеральный резервный банк Филадельфии, Министерство торговли США.


На первый взгляд, эти результаты регрессии выглядят очень интересными: коэффициент запаздывающей доходности облигаций кажется весьма значимым.

Но при более внимательном рассмотрении выясняется, что мы должны игнорировать эти результаты, потому что регрессия принципиально неправильно определена.

До тех пор, пока член ошибки сериально коррелирует, при включении в модель запаздывающей доходности в качестве независимой переменной, это будет приводить к смещенной и необоснованной оценке всех коэффициентов.

Следовательно, эта регрессия не применима ни для проверки гипотезы, ни для прогнозирования.


Второй распространенный в инвестиционном анализе случай неправильной спецификации регрессии временных рядов - это прогнозирование прошлого.

Что это значит?

Если мы прогнозируем будущее (например, в текущем периоде \(t\) предсказываем значение переменной \(Y\) за период \(t + 1\)), мы должны основывать наши прогнозы на информации, которую мы знали в момент времени \(t\).

Мы могли бы использовать следующее уравнение регрессии, чтобы сделать этот прогноз:

\( Y_{t+1} = b_0 + b_1 X_{1t} + \epsilon_{t+1}  \), (12)

В этой формуле мы предсказываем значение \(Y\) за период \(t + 1\), используя значение \(X\) за текущий период \(t\). Член ошибки, \( \epsilon_{t+1}  \), неизвестен в момент времени \(t\) и, следовательно, не должен коррелировать с \(X_{1t}\) .

К сожалению, аналитики иногда используют регрессии, которые пытаются прогнозировать значение зависимой переменной в текущий момент времени \(t + 1\) на основе независимой переменной (или переменных), которая является функцией значения зависимой переменной в момент времени \(t + 1\).

В такой модели независимая переменная будет коррелировать с членом ошибки, поэтому уравнение будет ошибочно определено.

Например, аналитик может попытаться объяснить перекрестную доходность для группы компаний в течение определенного года, используя коэффициент котировки акций, а также рыночную капитализацию для этих компаний на конец года.

«Коэффициент котировки акций» (Market-to-book ratio) - это рыночная цена на акцию, деленная на балансовую стоимость на акцию, т.е. соотношение рыночной и балансовой стоимости акции.

Если аналитик считает, что такая регрессия предсказывает, что компании с высоким коэффициентом котировки акций или высокой рыночной капитализацией будут обладать высокой доходностью акций, то он ошибается.

Это связано с тем, что в течение любого данного периода, чем выше доходность в течение периода, тем выше рыночная капитализация и коэффициент котировки акций будут на конец периода.

В этом случае, если все перекрестные данные относятся к периоду \(t + 1\), высокое значение зависимой переменной (доходность) фактически скорее приведет к высоким значениям независимых переменных (рыночная капитализация и коэффициент котировки акций), а не наоборот.

В этом типе неправильной спецификации модель регрессии эффективно включает зависимую переменную, как на правой, так и на левой сторонах уравнения регрессии.


Третья распространенная ошибка спецификации возникает, когда независимая переменная измерена с ошибкой. Предположим, что финансовая теория говорит нам, что конкретная переменная \(X_t\), такая как ожидаемая инфляция, должна быть включена в модель регрессии.

Но мы не можем напрямую наблюдать \(X_t\); Вместо этого мы можем наблюдать фактическую инфляцию, \(Z_t = X_t + u_t\), где мы предполагаем, что \(u_t\) является членом ошибки, который не коррелирует с \(X_t\).

Даже в этих наилучших обстоятельствах использование \(Z_t\) в регрессии вместо \(X_t\) приведет к смещению и необоснованным оценкам коэффициента регрессии.

Чтобы понять почему, предположим, что мы хотим оценить регрессию:

\( Y_t = b_0 + b_1 X_t + \epsilon_t  \),

но при этом заменим \(X_t\) на \(Z_t\). Тогда мы получим:

\( Y_t = b_0 + b_1 X_t + (-b_1 u_t + \epsilon_t)  \).

Но \(Z_t = X_t + u_t\), поэтому \(Z_t\) коррелирует с членом ошибки \((-b_1 u_t + \epsilon_t)\). Следовательно, наша модель нарушает допущение о том, что член ошибки не коррелирует с независимой переменной.

Следовательно, коэффициенты регрессии будут смещенными и необоснованными.

Иллюстрация 24. Эффект Фишера с ошибкой измерения.

Вспомните из Иллюстрации 11 об эффекте Фишера, основанном на нашем первоначальном анализе, в котором мы не исправили гетероскедастичность и сериальную корреляцию. Тогда мы отвергли гипотезу о том, что доходность трехмесячных облигаций изменялась один-к-одному вместе с ожидаемой инфляцией.

Результаты регрессии доходности казначейских облигаций США по прогнозируемой инфляции.

Коэффициент

Стандартная ошибка

t-статистика

Точка пересечения

0.0116

0.0033

3.5152

Прогнозируемая инфляция

1.1744

0.0761

15.4323

Стандартная ошибка остатка

0.0233

Множественный \( R^2 \)

0.5708

Наблюдения

181

Статистика Дурбина-Уотсона

0.2980

Источник: Федеральный резервный банк Филадельфии, Министерство торговли США.

Что будет, если мы используем фактическую инфляцию вместо ожидаемой инфляции в качестве независимой переменной?

Сначала обратите внимание, что

\( \pi = \pi^e + v \),

где

  • \( \pi \) = фактический уровень инфляции,
  • \( \pi^e \) = ожидаемый уровень инфляции,
  • \(v\) = разница между фактической и ожидаемой инфляцией.

Поскольку фактическая инфляция измеряет ожидаемую инфляцию с ошибкой, оценки коэффициентов регрессии с использованием доходности облигаций в качестве зависимой переменной и фактической инфляции в качестве независимой переменной, не будут обоснованными.

Обратите внимание, что обоснованная оценка - это оценка, для которой вероятность оценок, близких к значению параметра совокупности, увеличивается вместе с увеличением размера выборки.

Следующая регрессия показывает результаты использования фактической инфляции в качестве независимой переменной. Оценки в этой иллюстрации сильно отличаются от представленных в предыдущей иллюстрации.

Обратите внимание, что коэффициент наклона для фактической инфляции намного ниже, чем коэффициент наклона для прогнозируемой инфляции в предыдущей регрессии.

Этот результат является иллюстрацией общего предложения: в регрессии с одной независимой переменной, если мы выберем такую версию этой независимой переменной, при которой эта переменная измеряется с ошибкой, то предполагаемый коэффициент наклона для этой переменной будет смещен к 0.

Обратите внимание, что это предложение не распространяется на регрессии с более чем одной независимой переменной.

Конечно, мы игнорируем сериально коррелирующие ошибки в этом примере, но поскольку коэффициенты регрессии необоснованны (из-за ошибки измерения), тестирование или корректировка для устранения сериальной корреляции не даст эффекта.

Результаты регрессии доходности казначейских облигаций США по фактической инфляции.

Коэффициент

Стандартная ошибка

t-статистика

Точка пересечения

0.0227

0.0034

6.6765

Фактическая инфляция

0.8946

0.0761

11.7556

Стандартная ошибка остатка

0.0267

Множественный \( R^2 \)

0.4356

Наблюдения

181

Источник: Федеральный резервный банк Филадельфии, Министерство торговли США.


Другие типы неправильной спецификации регрессии временных рядов.

Безусловно, наиболее частым источником неправильной спецификации в линейных регрессиях, которые используют временные ряды данных для двух или более разных переменных, является нестационарность.

Если очень примерно, нестационарность (англ. 'nonstationarity') означает, что свойства переменной, такие как среднее значение и дисперсия, не являются постоянными во времени.

Мы вернемся к обсуждению стационарности, когда будем рассматривать анализ временных рядов, но пока мы можем перечислить некоторые примеры, в которых нам необходимо использовать проверку на стационарность, прежде чем принять статистический вывод регрессии.

  • Связи между временными рядами с трендами (например, связь между потреблением и ВВП).
  • Связи между временными рядами, которые могут быть случайными блужданиями (англ. 'random walks'), т.е. рядами, в которых значения меняются бессистемно и не прогнозируются на основе прошлых периодов.
    Для этих временных рядов наилучшим предиктором значения следующего периода является значение текущего периода. Обменные курсы часто являются случайными блужданиями.

Примеры временных рядов в нашей дискуссии были тщательно подобраны так, чтобы в них не было проблемы нестационарности.

Но на практике нестационарность может быть очень серьезной проблемой для анализа связей между двумя или более временными рядами.

Аналитики должны понимать эти проблемы, прежде чем применять линейную регрессию для анализа связей между временными рядами. В противном случае они могут получить неверный статистический вывод.