Проверка гипотез о среднем значении является одной из наиболее распространенных задач проверки гипотез на практике. В этом разделе мы рассмотрим несколько различных типов проверки средних.

Одним из типов является проверка равенства (или больше или меньше) среднего одной совокупности некоторому гипотетическому значению. Другие типы проверок связаны с проверкой гипотез о средних значениях, основанных на двух выборках.

Является ли наблюдаемое различие между двумя выборочными средними случайным или связано с различными средними значениями совокупностей, лежащих в основе этих выборок?

Когда у нас есть две случайные выборки, которые не зависят друг от друга (т.е. нет никаких связей между измерениями в одной выборке и измерениями в другой), применяется проверка гипотез о разнице между средними. Если же выборки зависят друг от друга, применяется проверка гипотез о среднем значении разности наблюдений.

Когда мы хотим проверить, равны ли средние по совокупности более чем двух совокупностей, мы используем дисперсионный анализ или ANOVA (от англ. 'ANalysis Of VAriance'). Мы рассмотрим ANOVA в наиболее распространенном его применении, регрессионном анализе, далее - в чтении о корреляционном и регрессионном анализе.

Проверки гипотез, касающиеся одного среднего значения.

Финансовый аналитик, который хочет, чтобы проверить гипотезу о среднем значении совокупности, проводит t-тест в подавляющем большинстве случаев. t-тест (англ. 't-test') представляет собой проверку гипотезы с использованием статистики (t-статистики), которая соответствует t-распределению.

t-распределение (распределение Стьюдента) является распределением вероятности, которое определяется одним параметром, известным как степени свободы (df). Каждое значение степеней свободы определяет одно распределение в этом семействе распределений.

Распределение Стьюдента тесно связано со стандартным нормальным распределением. Подобно стандартному нормальному распределению, t-распределение является симметричным со средним значением, равным нулю. Тем не менее, распределение Стьюдента более растянуто в стороны:

Оно имеет стандартное отклонение больше 1 (по сравнению с 1 у стандартного нормального распределения) и большую вероятность исходов, удаленных от среднего значения (т.е. оно имеет более толстые хвосты, чем стандартное нормальное распределение).

Формула дисперсии t-распределения:

\( \Large {\rm df} \big/ ({\rm df} - 2) \)

При увеличении числа степеней свободы с увеличением размера выборки, растянутость t-распределения в стороны уменьшается и t-распределение приближается к стандартному нормальное распределение как к пределу.


Почему распределение Стьюдента так важно для проверки гипотез, касающихся одного среднего значения?

На практике инвестиционные аналитики должны оценить стандартное отклонение совокупности путем вычисления стандартного отклонения выборки. То есть, дисперсия генеральной совокупности (или стандартное отклонение) неизвестно.

Для проверки гипотез относительно среднего по совокупности нормально распределенной совокупности с неизвестной дисперсией, теоретически корректной тестовой статистикой является t-статистика.


Что делать, если нормальное распределение не описывает совокупность?

t-тест является надежным способом смягчить отклонение от нормальности, за исключением ситуаций, когда в распределении есть выбросы и сильная асимметрия.

См. Moore, McCabe и Craig (2016). Статистический показатель является устойчивым, если необходимые расчеты вероятности нечувствительны к нарушениям предположений.

Когда мы имеем дело с большими выборками, отклонение распределения от нормального, вызывают меньше беспокойства.

Выборочное среднее приблизительно нормально распределено при больших выборках, в соответствии с центральной предельной теоремой, независимо от распределения, описывающего совокупность. В целом, выборку размером 30 или более, как правило, можно рассматривать как большую выборку, а выборка размером 29 или менее рассматривается как небольшая выборка.

Хотя это обобщение полезно, следует учитывать, что размер выборки, необходимый для получения приблизительно нормального распределения выборки для выборочного среднего, зависит от того, насколько не нормальна базовая совокупность.

Для некоторых совокупностей, «большим» размером выборки может быть размер, намного больше 30.

Тестовая статистика для проверки гипотез о среднем по совокупности (при неизвестной дисперсии совокупности).

Если совокупность, из которой делается выборка, имеет неизвестную дисперсию и выполняется одно из условий, перечисленных ниже:

  1. выборка является большой, или
  2. выборка небольшая, но лежащая в основе выборки совокупность имеет нормальное распределение, или приблизительно нормально распределено,

то тестовая статистика для проверки гипотез, касающихся одного среднего значения по совокупности, рассчитывается по формуле:

 \( \large \dst
t_{n-1} = {\overline X - \mu_0 \over s \big / \sqrt n} \)
(Формула 4)

где

  • \(t_{n-1}\) = t-статистика с \(n - 1\) степени свободы (\(n\) - это размер выборки)
  • \( \overline X \) = выборочное среднее
  • \(\mu_0\) = гипотетическое значение среднего по совокупности
  • \(s\) = стандартное отклонение выборки

Знаменателем формулы t-статистики является стандартная ошибка выборочного среднего, \(s_{\overline X} = s \big / \sqrt n\).

Здесь требуется техническое примечание, для справки.

Когда выборка отбирается из конечной совокупности, оценка стандартной ошибки среднего по Формуле 2 или 3, переоценивает (завышает) истинную стандартную ошибку.

Для решения этой проблемы, вычисленная стандартная ошибка умножается на уменьшающий коэффициент, который называется поправкой для конечной совокупности (или FPC, от англ. 'finite population correction factor').

FPC рассчитывается по формуле \( \sqrt {(N−n)/(N−1)} \), где \(N\) является размером совокупности, а \(n\) является размером выборки.

Когда размер выборки мал по отношению к размеру совокупности (менее 5% от размера совокупности), то FPC обычно игнорируются.

Проблема завышения стандартной ошибки возникает только при обычном отборе выборки без замены (после отбора элемента, он не может быть отобран снова), в отличии от выборки с заменой.

В приведенном ниже Примере 1 размер выборки мал, поэтому эта проверка гипотезы называется проверкой гипотезы о среднем значении небольшой выборки.

Пример (1) проверки гипотезы о риске и доходности взаимного инвестиционного фонда.

Вы анализируете Sendar Equity Fund, взаимный фонд растущих акций со средней капитализацией, который существует уже 24 месяца. В течение этого периода, фонд достиг средней ежемесячной доходности в 1.50% с выборочным стандартным отклонением месячной доходности 3.60%.

Учитывая уровень систематических (рыночных) рисков фонда и его модель ценообразования, Sendar Equity Fund, как ожидается, заработал 1.10% среднемесячной доходности в течение этого периода времени.

Если предположить, что доходность распределяется нормально, соответствуют ли фактические результаты средней по совокупности месячной доходности 1.10%?

  1. Сформулируйте нулевую и альтернативную гипотезы в соответствии со словесным описанием цели исследования.
  2. Определите тестовую статистику для проведения проверки гипотез из части 1.
  3. Определите критические значения для проверки гипотез из части 1 при уровне значимости 0.10.
  4. Определите, отвергается или не отвергается нулевая гипотеза при уровне значимости 0.10 (используйте таблицы t-распределений).

Решение для части 1:

У нас имеется альтернативная гипотеза «не равно», где \(\mu\) является средней по совокупности доходностью Sendar Equity Fund.

Таким образом, мы имеем нулевую гипотезу \(H_0: \mu = 1:10\) против альтернативной гипотезы \(H_a: \mu \neq 1:10\).


Решение для части 2:

Поскольку дисперсия генеральной совокупности неизвестна, мы используем t-тест с 24 - 1 = 23 степенями свободы.


Решение для части 3:

Поскольку это двусторонняя проверка, мы имеем критическое значение \( t_{\alpha/2,n-1} = t_{0.05,23} \). В таблице t-распределения, мы находим ряд для 23 степеней свободы и колонку 0.05, что соответствует значению 1.714.

Два критических значения для этой двусторонней проверки: 1.714 и -1.714. Мы отвергаем нуль, если мы находим, что \(t > 1.714\) или \(t < -1.714\).


Решение для части 4:

\( \dst t_{23} = {1.50-1.10 \over 3.60 \big / \sqrt 24} = {0.40 \over  0.734847}\) = 0.544331 или 0.544

Поскольку 0.544 не удовлетворяет ни \(t > 1.714\) ни \(t < -1.714\), мы не отвергаем нулевую гипотезу.

Подход доверительного интервала позволяет взглянуть иначе на эту проверку гипотезу.

Теоретически правильный доверительный интервал \(100 (1 - \alpha)\%\) для среднего по совокупности, на основе нормального распределения с неизвестной дисперсией, при выборке размера \(n\), будет составлять:

от \( \overline X - t_{\alpha/2} s_{\overline X}\)  до  \( \overline X + t_{\alpha/2} s_{\overline X}\)

где \( t_{\alpha/2} \) является значением \(t\), при котором \( \alpha/2 \) является остатком вероятности в правом хвосте распределения, а \( -t_{\alpha/2} \) является значением \(t\), при котором \( \alpha/2 \) является остатком вероятности в левом хвосте распределения, при \(n-1\) степеней свободы.

Здесь, 90-процентный доверительный интервал протягивается от 1.5 - (1.714)(0.734847) = 0.240 до 1.5 + (1.714)(0.734847) = 2.760, что можно записать в компактном виде [0.240, 2.760]. Гипотетическое значение средней доходности 1.10, попадет в этот доверительный интервале, и мы видим, что с точки зрения этого подхода, нулевая гипотеза также не отвергается.

При уровне значимости 10%, мы приходим к выводу, что средняя по совокупности месячная доходность 1.10% согласуется с 24-месячными наблюдаемыми рядами данных. Обратите внимание, что уровень значимости 10% означает относительно высокую вероятность отвергнуть гипотезу о 1.10% средней по совокупности месячной доходности, когда эта гипотеза верна.

Пример (2). Замедление погашения дебиторской задолженности.

Компания FashionDesigns, поставщик повседневной одежды для розничных сетей, обеспокоена по поводу возможного замедления платежей от своих клиентов. Финансовый контролер оценивает скорость погашения дебиторской задолженности по среднему числу дней (возрасту) дебиторской задолженности.

Этот финансовый показатель (срок сбора дебиторской задолженности, англ. 'rate of payment') представляет собой среднее количество дней, которое проходит с момента продажи до момента получения оплаты от покупателя.

Формула расчета показателя:  (дебиторская задолженность) / (средний объем продаж в день).

Компания FashionDesigns в целом поддерживает средний срок сбора дебиторской задолженности 45 дней. Поскольку частый анализ всей дебиторской задолженности компании обходится дорого, финансовый контролер выборочно отслеживает срок задолженности клиентов.

Случайная выборка из 50 клиентов показывает средний срок дебиторской задолженности 49 дней со стандартным отклонением 8 дней.

  1. Сформулируйте нулевую и альтернативную гипотезы о том, есть ли доказательства, подтверждающие замедление платежей клиентов.
  2. Определите тестовую статистику для проведения проверки гипотез из части 1.
  3. Определите критические значения для проведения проверки гипотез из части 1 при уровне значимости 0.05 и 0.01.
  4. Определите, отвергается или нет нулевая гипотеза при уровне значимости 0.05 и 0.01.

Решение для части 1:

Подозрение того, что срок дебиторской задолженности увеличился по сравнению с историческим значением в 45 дней, предполагает альтернативную гипотезу «больше чем».

При средней по совокупности сроке дебиторской задолженности \(\mu\), нулевая и альтернативная гипотезы будут \(H_0: \mu \leq 45 \) против \(H_a: \mu > 45 \).


Решение для части 2:

Поскольку дисперсия генеральной совокупности неизвестна, мы используем t-тест с 50 - 1 = 49 степенями свободы.


Решение для части 3:

Критическое значение можно найти в таблице t-распределения для степени свободы 49.

При уровне значимости 0.05 соответствующее одностороннее критическое значение будет 1.677, а для уровня значимости 0.01: 2.405.

На уровне значимости 0.05 мы отвергаем нулевую гипотезу, если находим, что \(t > 1.677 \); на уровне значимости 0.01 мы отвергаем нулевую гипотезу, если находим, что \(t > 2.405\).


Решение для части 4:

\( \dst t_{49} = {49-45 \over 8 \big / \sqrt 50} = {4 \over 1.131371} \) = 3.536

Поскольку 3.536 > 1.677, нулевая гипотеза отвергается при уровне значимости 0.05. Поскольку 3.536 > 2.405, нулевая гипотеза также отвергается при уровне значимости 0.01. Мы можем сказать с высокой степенью уверенности, что компания FashionDesigns столкнулась с замедлением погашения дебиторской задолженности.

При уровне значимости 0.01 есть относительно низкая вероятность отклонения гипотетического среднего срока в 45 дней или менее. Отклонение дает нам уверенность в том, что средний срок погашения дебиторской задолженности увеличился, превысив 45 дней.


Как уже было сказано выше, что, когда дисперсия генеральной совокупности неизвестна, мы используем t-тест для проверок гипотез, касающихся одного среднего значения совокупности. При, по крайней мере, приближенной нормальности распределения, мы всегда применяем t-тест, когда имеем дело с маленькими выборками и не знаем дисперсию совокупности.

Для больших выборок, в соответствии с центральной предельной теоремой, выборочное среднее приблизительно нормально распределено, независимо от распределения совокупности. Таким образом, t-тест по-прежнему необходим, но альтернативный тест может быть более полезным, когда размер выборки большой.

Для больших выборок аналитики иногда используют z-тест вместо t-тест для проверок гипотез, связанных со средним.

Эти специалисты выбирают между t-тестами и z-тестами, исходя из размера выборки. Для небольших выборок (\(n < 30\)), они используют t-тест, а для больших выборок z-тест.

Обоснование использования z-теста в этом контексте имеет два аспекта.

  • Во-первых, при больших выборках, выборочное среднее должно следовать нормальному распределению, по крайней мере приблизительно, как мы уже говорили, в соответствии с допущением о нормальности z-теста.
  • Во-вторых, разница между критическими значениями для t-теста и z-теста становится весьма небольшой, когда размер выборки является большим.

Для двусторонней проверки гипотезы при уровне значимости 0.05, критическими значениями для z-теста являются 1.96 и -1.96.

Для t-теста, критическими значениям являются 2.045 и -2.045 при df = 29 (разница примерно в 4% между критическими значениями z- и t-теста), а также 2.009 и -2.009 при df = 50 (разница примерно в 2.5% между критическими значениями z- и t-теста).

Поскольку t-тест легко выполнить с помощью статистической программы и он теоретически корректен при неизвестной дисперсии генеральной совокупности, мы рекомендуем выбирать его.

В очень ограниченном числе случаев, мы можем знать дисперсию совокупности. В таких случаях, теоретически корректен z-тест.

Например, при моделировании методом Монте-Карло, мы предопределяем распределения вероятностей для факторов риска. Если мы используем нормальное распределение, мы знаем истинные значения среднего и дисперсии.

Метод Монте-Карло предполагает использование компьютера, чтобы смоделировать работу системы с учетом риска. Моделирование методом Монте-Карло рассматривается в чтении о распределениях вероятностей.

Альтернативный z-тест.

1. Если совокупность выборки имеет нормальное распределение с известной дисперсией \(\sigma^2\), то тестовая статистика для проверки гипотезы, касающейся одного среднего по совокупности \(mu\), определяется по формуле:

\(\large \dst
z = {\overline X - \mu_0 \over \sigma \big / \sqrt n} \)
(Формула 5)

2. Если совокупность выборки имеет неизвестную дисперсию и выборка является большой, вместо t-теста, используется альтернативная тестовая статистика (опирающаяся на центральную предельную теорему):

\(\large \dst
z = {\overline X - \mu_0 \over s \big / \sqrt n} \)
(Формула 6)

В приведенных выше формулах,

  • \(\sigma\) = известное стандартное отклонение совокупности
  • \(s\) = стандартное отклонение выборки
  • \(\mu_0\) = гипотетическое значение среднего по совокупности

Когда мы используем z-тест, мы чаще всего ссылаемся на критические значения, перечисленные ниже.

Критические значения для z-теста.

A. Уровень значимости \(\alpha = 0.10\).

  1. \(H_0: \theta = \theta_0\) против \(H_a: \theta \neq \theta_0\). Критическими значениями являются \( z_{0.05} = 1.645\) и \( -z_{0.05} = -1.645\).
    Отклоняйте нулевую гипотезу, если \(z > 1.645 \) или если \(z < -1.645 \).
     
  2. \(H_0: \theta \leq \theta_0\) против \(H_a: \theta > \theta_0\).  Критическое значение \( z_{0.10} = 1.28\).
    Отклоняйте нулевую гипотезу, если \(z > 1.28 \).
     
  3. \(H_0: \theta \geq \theta_0\) против \(H_a: \theta < \theta_0\). Критическое значение \( -z_{0.10} = -1.28\).
    Отклоняйте нулевую гипотезу, если \(z < -1.28 \).

B. Уровень значимости \(\alpha = 0.05\).

  1. \(H_0: \theta = \theta_0\) против \(H_a: \theta \neq \theta_0\). Критическими значениями являются \( z_{0.025} = 1.96\) и \( -z_{0.025} = -1.96\).
    Отклоняйте нулевую гипотезу, если \(z > 1.96 \) или если \(z < -1.96 \).
     
  2. \(H_0: \theta \leq \theta_0\) против \(H_a: \theta > \theta_0\). Критическое значение \( z_{0.05} = 1.645\).
    Отклоняйте нулевую гипотезу, если \(z > 1.645 \).
     
  3. \(H_0: \theta \geq \theta_0\) против \(H_a: \theta < \theta_0\). Критическое значение \( -z_{0.05} = -1.645\).
    Отклоняйте нулевую гипотезу, если \(z < -1.645 \).

C. Уровень значимости \(\alpha = 0.01\).

  1. \(H_0: \theta = \theta_0\) против \(H_a: \theta \neq \theta_0\). Критическими значениями являются \( z_{0.005} = 2.575\) и \( -z_{0.005} = -2.575\).
    Отклоняйте нулевую гипотезу, если \(z > 2.575 \) или если \(z < -2.575 \).
     
  2. \(H_0: \theta \leq \theta_0\) против \(H_a: \theta > \theta_0\). Критическое значение \( z_{0.01} = 2.33\).
    Отклоняйте нулевую гипотезу, если \(z > 2.33 \).
     
  3. \(H_0: \theta \geq \theta_0\) против \(H_a: \theta < \theta_0\). Критическое значение \( -z_{0.01} = -2.33\).
    Отклоняйте нулевую гипотезу, если \(z < -2.33 \).

Пример (3). Влияние раскрытий о недостатках внутреннего контроля, в соответствии с законом Сарбейнса-Оксли, на котировки акций компании.

Закон Сарбейнса-Оксли вступил в силу в 2002 году и внес существенные изменения в регулирование корпоративного управления и финансовой практики в США.

Одно из требований этого Закона заключается в том, чтобы компании периодически отчитывались о некоторых видах недостатков внутреннего контроля перед Комитетом по аудиту, внешними аудиторами, а также Комиссией по ценным бумагам и биржам (SEC).

Когда компания делает раскрытие информации о недостатках внутреннего контроля, не публикует ли она информацию, которая влияет на рыночную стоимость акций компании?

Исследователи Гупта и Найяр (Gupta и Nayar) в 2007 году рассмотрели этот вопрос, изучив ряд добровольных раскрытий в первые дни реализации закона Сарбейнса-Оксли.

Их итоговая выборка для данного исследования состояла из 90 фирм, которые предоставили SEC раскрытия о недостатках контроля с марта 2003 года по июль 2004 г. Это выборка из 90 компаний была названа «полной выборкой».

Эти фирмы были дополнительно изучены, чтобы выяснить, были ли ими сделаны одновременно какие-либо другие объявления, связанные с раскрытием недостатков контроля, такие как анонсирование результатов по прибыли. Из 90 фирм, 45 не делали подобных объявлений, и выборка из этих фирм была названа «чистой выборкой».

Дата публикации раскрытий о слабостях внутреннего контроля была обозначена как \(t = 0 \). Если эти раскрытия предоставляют новую информацию, полезную для оценки ценных бумаг, информация должна привести к изменению цен на акции и доходности, сразу после публикации.

Представляет интерес только один компонент доходности акций: доходность сверх прогнозируемого рыночного риска или бета, которую еще называют сверхдоходностью (англ. 'abnormal return').

Значительная отрицательная (положительная) сверхдоходность показывает, что инвесторы реагируют на неблагоприятные (благоприятные) корпоративные новости при объявлении о слабостях внутреннего контроля.

Хотя Гупта и Найяр исследовали сверхдоходность для различных временных горизонтов или событийных окон, мы сообщаем об их выводах для окна [0, +1], которое включает в себя двухдневный период, т.е. день объявления о недостатках контроля + следующий день после объявления.

Исследователи решили использовать z-тесты для статистической значимости.


Полная выборка (90 компаний).

Нулевая гипотеза о том, что средняя сверхдоходность акций в период [0, +1] равна 0, будет истинной, если инвесторы не нашли для себя положительную или отрицательную информацию в объявлении.

  • Средняя сверхдоходность = -3.07%.
  • z-статистика для сверхдоходности = -5.938.

Чистая выборка (45 компаний).

Нулевая гипотеза о том, что средняя сверхдоходность акций в период [0, +1] равна 0, будет истинной, если инвесторы не нашли для себя положительную или отрицательную информацию в объявлении.

  • Средняя сверхдоходность = -1.87%.
  • z-статистика для сверхдоходности = -3.359.
  1. В отношении обоих случаев, предположим, что нулевая гипотеза отражает убеждение, что инвесторы в среднем, не восприняли положительную или отрицательную информацию в раскрытии о недостатках контроля. Сформулируйте набор гипотез (нулевую и альтернативную гипотезы), который охватывает оба случая.
  2. Определите, отвергается или не отвергается нулевая гипотеза, сформулированная в части 1, при уровне значимости 0.05 и 0.01, в случае с полной выборкой. Интерпретируйте результаты.
  3. Определите, отвергается или не отвергается нулевая гипотеза, сформулированная в части 1, при уровне значимости 0.05 и 0.01, в случае с чистой выборкой. Интерпретируйте результаты.

Решение для части 1:

Набор гипотез о том, что раскрытия информации о недостатках контроля не содержат влияющей на инвесторов информации, будет следующим:

  • \(H_0\): Средняя по совокупности сверхдоходность за период [0, + 1] равна 0.
  • \(H_a\): Средняя по совокупности сверхдоходность за период [0, + 1] не равна 0.

Решение для части 2:

Из информации о критических значениях для для z-тестов, мы знаем, что отвергаем нулевую гипотезу при уровне значимости 0.05, если \(z > 1.96\) или если \(z < -1.96\), и уровне значимости 0.01, если \(z > 2.575\) или если \(z < -2.575\).

z-статистика, полученная исследователями, составила -5.938 и имеет существенное значение при уровнях значимости 0.05 и 0.01. Нулевая гипотеза отвергается. Раскрытия о недостатках контроля, по-видимому, содержат информацию, влияющую на оценку акций.

Поскольку возможно, что значительные результаты могут быть результатом выбросов, исследователи также сообщили данные о числе случаев положительной и отрицательной сверхдоходности.

Отношение случаев положительной к отрицательной сверхдоходности составило 32:58, что поддерживает вывод из z-теста от статистически значимой отрицательной сверхдоходности.


Решение для части 3:

z-статистика, полученная исследователями для чистой выборки, составила -3.359, что имеет существенное значение при уровнях значимости 0.05 и 0.01. Хотя и средняя сверхдоходность, и z-статистика меньше по величине для чистой выборки, чем для полной выборки, результаты все равно остаются статистически значимыми.

Отношение случаев положительной к отрицательной сверхдоходности составило 16:29, что поддерживает вывод из z-теста от статистически значимой отрицательной сверхдоходности.


Почти все практические ситуации связаны с неизвестной дисперсией совокупности. В Таблице 4 обобщено на обсуждение проверки гипотез, касающихся среднего по совокупности, когда дисперсия совокупности неизвестна.

Таблица 4. Проверка гипотезы о среднем значении по совокупности (при неизвестной дисперсии по совокупности).

Большая выборка
(\(n \geq 30\))

Малая выборка
(\(n < 30\))

Совокупность имеет нормальное распределение

t-тест (альтернативный z-тест)

t-тест

Совокупность имеет ненормальное распределение

t-тест (альтернативный z-тест)

не доступно