Мы часто хотим знать, отличаются ли средние значения (например, средняя доходность) двух групп наблюдений.

Вызвана ли наблюдаемая разница случайностью или различием базовых величин, на основе которых рассчитаны эти средние значения?

Допустим, у нас есть две выборки, одна для каждой группы наблюдений. Когда есть основания полагать, что эти выборки отобраны из хотя бы приблизительно нормально распределенных совокупностей и что выборки также независимы друг от друга, следует применять способы, описанные в этом разделе.

Мы проводим два t-теста для проверки гипотезы о различиях между средними значениями двух совокупностей.

В первом случае, мы предполагаем, что дисперсии совокупности неизвестны, но их можно считать равными. Тогда мы можем эффективно объединить наблюдения из обоих выборок, чтобы получить объединенную оценку неизвестной дисперсии генеральной совокупности.

Объединенная оценка (англ. 'pooled estimate') - это оценка, сделанная на основе комбинации двух различных выборок.

Во втором случае, мы не предполагаем, что неизвестные дисперсии совокупности равны, и здесь можно применять приближенный t-тест (t-статистику).

Обозначив как \(\mu_1\) и \(\mu_2\), соответственно, средние первой и второй совокупности, мы чаще всего хотим проверить, равны ли эти средние или одна из них больше другой.

Таким образом, мы, как правило, формулируем следующие пары нулевых и альтернативных гипотез:

  1. \(H_0: \mu_1 - \mu_2 = 0\) против \(H_a: \mu_1 - \mu_2 \neq 0\) (альтернативная гипотеза о том, что \(\mu_1 \neq \mu_2\))
  2. \(H_0: \mu_1 - \mu_2 \leq 0\) против \(H_a: \mu_1 - \mu_2 > 0\) (альтернативная гипотеза о том, что \(\mu_1 > \mu_2\))
  3. \(H_0: \mu_1 - \mu_2 \geq 0\) против \(H_a: \mu_1 - \mu_2 < 0\) (альтернативная гипотеза о том, что \(\mu_1 < \mu_2\))

Мы можем, однако, сформулировать и другие гипотезы, такие как \(H_0: \mu_1 - \mu_2 = 2\) против \(H_a: \mu_1 - \mu_2 \neq 2\). Процедура проверки будет такая же.

t-тест определяется следующим образом.

Тестовая статистика для проверки разницы двух средних по совокупности (нормально распределенные совокупности, дисперсии совокупностей неизвестны, но считаются равными).

Когда мы можем предположить, что две совокупности нормально распределены и что неизвестные дисперсии этих совокупностей равны, t-тест (t-статистика), основанный на независимых случайных выборках рассчитывается по формуле:

\(\large \dst t = { (\overline X_1 - \overline X_2) - (\mu_1 - \mu_2) \over \dst \left ( {s^2_p \over n_1} + {s^2_p \over n_2} \right )^{1/2} } \) (Формула 7)

где \( \dst s^2_p = {(n_1 - 1)s^2_1 + (n_2 - 1)s^2_2 \over n_1 + n_2 - 2}\) представляет собой объединенную оценку общей дисперсии.

Число степеней свободы составляет: \(n_1 + n_2 - 2\).

Пример (4). Средняя доходность индекса S&P BSE SENSEX: Проверка равенства двух периодов.

Индекс S&P BSE SENSEX оценивает эффективность индийского фондового рынка. Среднемесячная доходность по этому индексу в 2012-2014 годах, кажется, существенно отличается от средней доходности за 2015-2017 г.

Является ли эта разница статистически значимой?

Данные, приведенные в Таблице 5, свидетельствуют о том, что разница в стандартных отклонений этих двух периодов мала. Таким образом, допущение о равенстве дисперсий совокупности для доходности этих двух периодов не является необоснованным.

Таблица 5. Месячная доходность и стандартное отклонение
индекса S&P BSE SENSEX
для двух временных периодов.

Временной период

Количество месяцев (n)

Средняя месячная доходность (%)

Стандартное отклонение

с 2012 по 2014

36

1.694

4.115

с 2015 по 2017

36

0.665

3.779

Источник данных о доходности: https://www.asiaindex.co.in/indices/equity/sp-bse-sensex по состоянию на 18 августа 2018.

  1. Сформулируйте нулевую и альтернативную гипотезы для выполнения двухсторонней проверки гипотезы.
  2. Определите тестовую статистику для проверки гипотез из части 1.
  3. Определите критическое значение или значения для проверки гипотез из части 1 при уровнях значимости 0.10, 0.05 и 0.01.
  4. Определите, отвергается или не отвергается нулевая гипотеза при уровнях значимости 0.10, 0.05 и 0.01.

Решение для части 1:

Обозначив как \(\mu_1\) среднюю по совокупности доходность за 2012-2014 годы и как \(\mu_2\) среднюю по совокупности доходность за 2015-2017 годы, сформулируем пару гипотез:

\(H_0: \mu_1 - \mu_2 = 0\) против \(H_a: \mu_1 - \mu_2 \neq 0\)


Решение для части 2:

Поскольку две выборки относятся к двум разным периодам времени, они являются независимыми выборками. Дисперсии совокупности не известны, но можно считать их равными.

Принимая во внимание все эти соображения, t-тест приведенный в Формуле 7 имеет 36 + 36 - 2 = 70 степеней свободы.


Решение для части 3:

В соответствии с таблицами распределения Стьюдента, для двусторонней проверки, критическими значениями будут \(\pm\)1.667, \(\pm\)1.994 и \(\pm\)2.648 для, соответственно, 0.10, 0.05, и 0.01 уровней значимости при df = 70.

В итоге,

  • на уровне значимости 0.1 мы отвергаем нуль, если \(t < -1.667\) или \(t > 1.667\);
  • на уровне значимости 0.05 мы отвергаем нуль, если \(t < -1.994\) или \(t > 1.994\);  и на уровне значимости 0.01 мы отвергаем нуль, если \(t < -2.648\) или \(t > 2.648\).

Решение для части 4:

При вычислении тестовой статистики, первый шаг заглючается в вычислении обобщенной оценки дисперсии:

\( \dst \begin{aligned}
s^2_p &= {(n_1 - 1)s^2_1 + (n_2 - 1)s^2_2 \over n_1 + n_2 - 2} \\[1ex]
&= {(36 - 1)(4.115)^2 + (36 - 1)(3.779)^2 \over 36 + 36 - 2} \\[1ex]
&= {1,092.4923 \over 70} = 15.6070
\end{aligned} \)

\( \dst \begin{aligned}
t &= { (\overline X_1 - \overline X_2) - (\mu_1 - \mu_2) \over \dst \left ( {s^2_p \over n_1} + {s^2_p \over n_2} \right )^{1/2} } \\[1ex]
&= { (1.694 - 0.665) - 0 \over \dst \left ( {15.6070 \over 36} + {15.6070 \over 36} \right )^{1/2} } \\[1ex]
&= {1.029 \over 0.9312} = 1.11
\end{aligned} \)

Значение статистики \(t = 1.11\) не значимо при уровне значимости 0.10, поэтому оно также не значимо при уровнях значимости 0.05 и 0.01. Таким образом, мы не отвергаем нулевую гипотезу на любом из этих трех уровней.


Во многих, представляющих практический интерес, случаях, мы не можем предположить, что дисперсии совокупности равны.

Следующая тестовая статистика часто используются в инвестиционной литературе в таких случаях:

Тестовая статистика для проверки разницы двух средних по совокупности (нормально распределенные совокупности, дисперсии совокупностей неизвестны и не считаются равными).

Когда мы можем предположить, что две совокупности нормально распределены и что неизвестные дисперсии этих совокупностей не равны, t-тест (t-статистика), основанный на независимых случайных выборках рассчитывается по формуле:

\(\large \dst {t = { (\overline X_1 - \overline X_2) - (\mu_1 - \mu_2) \over \dst \left ( {s^2_1 \over n_1} + {s^2_2 \over n_2} \right )^{1/2} } }\) (Формула 8)

где мы применяем таблицы t-распределения Стьюдента с использованием «модифицированного» значения степеней свободы, которое вычисляется по формуле:

\(\large \dst {\rm df} = { \dst \left( {s^2_1 \over n_1} + {s^2_2 \over n_2} \right)^2 \over \dst {\left (s^2_1 \big / n_1 \right )^2 \over n_1} + {\left( s^2_2 \big / n_2 \right)^2 \over n_2} } \) (Формула 9)

На практике, нам удобней сначала вычислить t-статистику, прежде чем вычислять число степеней свободы. При этом иногда становится сразу очевидно, значима ли t-статистика или нет.

Пример (5). Коэффициенты возмещения убытков по дефолтным облигациям: проверка гипотезы.

Как определяется необходимая доходность рискованных корпоративных облигаций?

Двумя ключевыми факторами являются ожидаемая вероятность дефолта (англ. 'probability of default') и ожидаемая сумма возмещения в случае невыполнения обязательств, - коэффициент возмещения убытков (или доля убытков в случае дефолта, англ. 'recovery rate', 'loss given default').

Jankowitsch, Nagler, and Subrahmanyam (2014) изучили коэффициенты возмещения убытков по дефолтным облигациям на рынке корпоративных облигаций США, на основе обширного набора данных о случаях дефолта.

В своем исследовании за период с 2002 по 2012 год, Янкович и др. подтверждают, что тип дефолта (например, обмен проблемного долга или формальное банкротство), очередность погашения облигаций при дефолте и отрасль компании играют важную роль в объяснении коэффициента возмещения убытков.

В одном из своих анализов, они сосредоточились на нефинансовых компаниях, и обнаружили, что при дефолте компании из отрасли электроэнергетики возмещают больше, чем компании из отрасли розничной торговли.

Мы хотим проверить, является ли статистически значимой разница в коэффициенте возмещения убытков между этими двумя типами компаний.

При среднем по совокупности коэффициенте возмещения по облигациям компаний электроэнергетики \(\mu_1\) и среднем по совокупности коэффициенте возмещения по облигациям розничных компаний \(\mu_2\), мы формулируем следующую пару гипотез:

\(H_0: \mu_1 - \mu_2 = 0\) против \(H_a: \mu_1 - \mu_2 \neq 0\)

В Таблице 6 приведены выдержки из выводов этого исследования.

Таблица 6. Коэффициенты возмещения убытков по отраслям компаний.

Электроэнергетика

Розничная торговля

Количество наблюдений

Средняя цена*

Стандартное отклонение

Количество наблюдений

Средняя цена*

Стандартное отклонение

39

$48.03

$22.67

33

$33.40

$34.19

* Это средняя цена облигации в день дефолта, и в следующие 30 дней после дефолта. Средняя цена служит индикатором объема денежных средств, которые можно возместить при дефолте.

Источник: Jankowitsch, Nagler, and Subrahmanyam (2013), Таблица 2.


Мы предполагаем, что совокупности (коэффициентов возмещения) нормальное распределены и что выборки независимы. На основании данных таблицы, сделайте следующее:

  1. Выясните, должны ли мы выполнить проверку, используя Формулу 8 или Формулу 7.
  2. Вычислите тестовую статистику, чтобы проверить нулевую гипотезу, приведенную выше.
  3. Каким будет модифицированное значение степеней свободы?
  4. Определите, следует ли отклонить нулевую гипотезу на уровне значимости 0.10.

Решение для части 1:

Стандартное отклонение выборки для коэффициента возмещения по облигациям компаний электроэнергетики ($22.67) гораздо меньше, чем стандартное отклонение для розничных компаний ($34.19).

Таким образом, мы не должны предполагать, что дисперсии равны, и, соответственно, мы должны рассчитать приблизительную t-статистику, в соответствии в Формулой 8.


Решение для части 2:

Тестовая статистика равна:

\( \dst t = { (\overline X_1 - \overline X_2) \over \dst \left ( {s^2_1 \over n_1} + {s^2_2 \over n_2} \right )^{1/2} } \)

где

  • \(\overline X_1\) = выборочный средний коэффициент возмещения для компаний электроэнергетики = 48.03
  • \(\overline X_2\) = выборочный средний коэффициент возмещения для розничных компаний = 33.40
  • \(s^2_1\) = выборочная дисперсия для компаний электроэнергетики = \(22.67^2\) = 513.9289
  • \(s^2_2\) = выборочная дисперсия для розничных компаний = \(34.19^2\) = 1,168.9561
  • \(n_1\) = размер выборки компаний электроэнергетики = 39
  • \(n_2\) = размер выборки розничных компаний = 33

Таким образом,

\( \begin{aligned} t &= \small (48.03 - 33.40)/[(513.9289/39) + (1,168.9561/33)]^{1/2} \\
&= \small 14.63/(13.177664 + 35.422912)^{1/2} \\
&= \small 14.63/6.971411 = 2.099 \end{aligned} \)

Рассчитанная t-статистика равна 2.099.


Решение для части 3:

\( \small \begin{aligned} {\rm df}
&= { \dst \left ( {s^2_1 \over n_1} + {s^2_2 \over n_2} \right )^2
\over \dst {\left (s^2_1 \big / n_1 \right )^2 \over n_1} + {\left (s^2_2 \big / n_2 \right )^2 \over n_2} } \\[1ex]

&= { \dst \left ( {513.9289 \over 39} + {1,168.9561 \over 33} \right )^2
\over \dst {(513.9289 / 39)^2 \over 39} + {(1,168.9561 / 33)^2 \over 33} } \\[1ex]

&= {2362.016009 \over 42.476304} = 55.61
\end{aligned} \)

или 56 степеней свободы.


Решение для части 4:

Ближайшим значением к df = 56 в таблицах t-распределения является df = 60. При \(\alpha = 0.10\), мы находим \(t_{\alpha/2} = 1.671 \).

Таким образом, мы отвергаем нуль, если \(t < -1.671\) или \( t > 1.671\). На основе вычисленного значения t-статистики 2.099, мы отвергаем нулевую гипотезу при уровне значимости 0.10.

Имеются подтверждения того, что коэффициенты возмещения убытков отличаются для электроэнергетических и розничных компаний.

Почему?

Исследования коэффициентов возмещения позволяют предположить, что более высокие коэффициенты возмещения компаний электроэнергетики можно объяснить их более высоким объемом материальных активов.