Одним из способов сравнения эффективности прогнозирования двух моделей временных рядов является сравнение дисперсий их ошибок прогноза.

Модель с меньшей дисперсией ошибок прогноза будет более точной моделью, и она также будет иметь меньшую стандартную ошибку регрессии временных рядов. Эта стандартная ошибка обычно включается непосредственно в результаты расчета регрессии временных рядов.

Сравнивая точность прогноза разных моделей, мы должны различать ошибки прогноза в пределах выборки и ошибки прогноза вне выборки.

Ошибки прогноза в пределах выборки (англ. 'in-sample forecast errors') являются остатками подходящей модели временных рядов.

Например, когда мы оценили линейный тренд для нескорректированных данных об инфляции с января 1995 г. по декабрь 2018 г., ошибки прогноза в пределах выборки были остатками с января 1995 г. по декабрь 2018 г.

Если мы используем эту модель для прогнозирования инфляции за пределами этого периода, различия между фактической и прогнозируемой инфляцией будут ошибками прогноза вне выборки (англ. 'out-of-sample forecast errors').

Пример 7. Сравнение прогнозов в пределах выборки для инфляции Индекса потребительских цен США.

В Примере 6 аналитик сравнила модель прогнозирования AR(1) ежемесячной инфляции США с моделью AR(2) и решила, что модель AR (2) предпочтительнее.

Иллюстрация 13 показала, что стандартная ошибка модели инфляции AR(1) составляет 2.9687, а Иллюстрация 14 показала, что стандартная ошибка модели AR(2) составляет 2.9208.

Следовательно, модель AR(2) имела более низкую дисперсию прогнозирования в пределах выборки, чем модель AR(1), что согласуется с нашим мнением о том, что модель AR(2) была предпочтительнее. Ее стандартная ошибка составляет 2.9208/2.9687 = 98.39% от ошибки прогноза модели AR(1).


Аналитикам часто приходится сравнивать точность прогнозирования различных моделей после периода выборки, для которого производилась оценка этих моделей. То есть мы хотим сравнивать точность прогноза моделей вне выборки.

Точность прогноза вне выборки важна, потому что будущее всегда выходит за пределы выборки. Хотя профессиональные прогнозисты различают эффективность прогнозирования вне выборки и в пределах выборки, многие статьи, которые читают аналитики, содержат только оценку прогнозов в пределах выборки.

Аналитики должны знать, что эффективность прогноза вне выборки имеет решающее значение для оценки реалистичности модели прогнозирования.

Как правило, мы сравниваем эффективность прогнозирования вне выборки, сравнивая среднеквадратическую ошибку (RMSE, root mean squared error) моделей, которая представляет собой квадратный корень из средней квадратной ошибки.

Модель с наименьшей RMSE считается наиболее точной. Следующий пример иллюстрирует расчет и использование RMSE при сравнении моделей прогнозирования.

Пример 8. Сравнение прогнозов в пределах выборки и вне выборки для инфляции по Индексу потребительских цен (CPI) США.

Предположим, что мы хотим сравнить точность прогнозирования моделей инфляции AR(1) и AR(2), построенных на основе данных с 1995 по 2018 год. Для прогнозирования будут использованы данные об инфляции с января 2019 года по сентябрь 2019 года.

Иллюстрация 15. Сравнение ошибок прогноза вне выборки: годовая инфляция CPI США, январь 2019 г. - сентябрь 2019 г.

Дата

Infl(t)

Infl(t-1)

Infl(t-2)

Ошибка AR(1)

Квадратная
ошибка

Ошибка
AR(2)

Квадратная
ошибка

2019

Январь

0.0000

0.0000

0.0000

0.1335

0.0178

-1.6000

2.5599

Февраль

2.4266

0.0000

0.0000

-2.2931

5.2585

0.8266

0.6833

Март

4.9070

2.4266

0.0000

-3.8068

14.4916

2.1522

4.6320

Апрель

3.6600

4.9070

2.4266

-1.5716

2.4699

0.2014

0.0406

Май

1.2066

3.6600

4.9070

0.3850

0.1482

-1.1714

1.3722

Июнь

1.2066

1.2066

3.6600

-0.5924

0.3510

-0.2488

0.0619

Июль

3.6600

1.2066

1.2066

-3.0458

9.2770

1.7228

2.9680

Август

1.2066

3.6600

1.2066

0.3850

0.1482

-1.8982

3.6030

Сентябрь

0.0000

1.2066

3.6600

0.6142

0.3772

-1.4554

2.1181

Среднее

3.6155

Среднее

2.0043

RMSE

1.9014

RMSE

1.4157

Примечание: Любые очевидные расхождения между ошибкой и квадратной ошибкой связаны с округлением.
Источник: Бюро статистики труда США.


Первый столбец таблицы в Иллюстрации 15 показывает фактический годовой уровень инфляции в течение месяца.

Второй и третий столбцы показывают уровень инфляции за предыдущие два месяца.

Четвертый столбец показывает ошибки вне выборки (Факт - Прогноз) из модели AR(1), показанной в Иллюстрации 13.

Пятый столбец показывает квадратные ошибки из модели AR(1).

Шестой столбец показывает ошибки вне выборки из модели AR(2), показанной в Иллюстрации 14.

В последнем столбце показаны квадратные ошибки из модели AR(2). Нижняя часть таблицы отображает среднюю квадратную ошибку и RMSE.

Согласно этим показателям, модель AR(2) была немного более точной, чем модель AR(1) в прогнозировании инфляции вне выборки с января 2019 года по сентябрь 2019 года.

RMSE из модели AR(2) составила только 1.4157/1.9014 = 74.46%, от RMSE из модели AR(1).

Следовательно, модель AR(2) была более точной как в пределах выборки, так и вне выборки. Конечно, это была небольшая выборка для оценки эффективности прогнозирования вне выборки.

Иногда у аналитика может быть противоречивая информация о том, выбрать ли модель AR(1) или AR(2). Мы также должны учитывать стабильность коэффициента регрессии. Мы продолжим сравнение этих двух моделей в следующем разделе.