Рассмотрим квантили (т.е. квартили, квинтили, децили и процентили), - наиболее часто используемые меры положения данных в распределении, - в рамках изучения количественных методов по программе CFA.
Обсудив меры центральной тенденции, рассмотрим подход к описанию положения статистических данных, который включает в себя определение пороговых значений, в пределах которых лежат указанные пропорции данных.
Например, установление того, что 25, 50 и 75% годовой доходности портфеля лежат в пределах (то есть не выше) значений -0,05, 0,16 и 0,25 соответственно, дает краткую информацию о распределении доходности портфеля.
Статистики используют слово квантиль (или фрактиль от англ. 'quantile', 'fractile') как наиболее общий термин для порогового значения не выше которого (то есть равно или ниже) которого лежит указанная часть данных. Далее мы опишем наиболее часто используемые квантили - квартили, квинтили, децили и процентили - и их применение в инвестициях.
Мы знаем, что медиана делит распределение пополам. Мы можем определить другие разделительные линии, которые разбивают распределение на меньшие части.
Квартили (англ. 'quartiles') делят распределение на четверти, квинтили (англ. 'quintiles') - на 5 частей, децили (англ. 'deciles') - на 10 частей и процентили (англ. 'percentiles') - на 100.
При заданном наборе наблюдений y-й процентиль - это значение, не выше которого лежит у процентов наблюдений. Процентили используются часто, и на основе их могут быть определены другие меры.
Например, первый квартиль \(Q_1\) делит распределение так, что 25 процентов наблюдений лежат не выше него; следовательно, 1-й квартиль также является 25-м процентилем.
Второй квартиль \(Q_2\) представляет 50-й процентиль, а третий квартиль \(Q_3\) представляет 75-й процентиль, потому что 75 процентов наблюдений лежат не выше него.
Имея дело с фактическими данными, мы часто обнаруживаем, что нам нужно найти приблизительное значение процентиля. Например, если нас интересует значение 75-го процентиля, мы можем обнаружить, что ни одно наблюдение не разделяет выборку так, что ровно 75 процентов наблюдений лежат не выше этого значения.
Следующая процедура, однако, может помочь нам определить или оценить процентиль. Процедура включает в себя сначала определение положения процентиля в наборе наблюдений, а затем определение (или оценку) значения, связанного с этой позицией.
Пусть \(P_y\) будет значением, не выше которого лежит y-процент распределения, или y-й процентиль. (Например, \(P_{18}\) - это точка, не выше которой лежат 18% наблюдений).
Формула для позиции процентиля в массиве из n записей, отсортированных по возрастанию:
\(\large \dst
L_y = (n+1) \frac{y}{10} \) (Формула 8)
где
Значение \(L_y\) может быть или не быть целым числом.
Как правило, по мере увеличения размера выборки результат расчета положения в процентилях становится более точным; в небольших выборках он может быть весьма приблизительным.
В качестве примера случая, когда \(L_y\) не является целым числом, предположим, что мы хотим определить 3-ий квартиль доходности за 2012 год (\(Q_3\) или \(P_{75}\)) для 16 европейских фондовых рынков, представленных в Таблице 8.
В соответствии с Формулой 8 позиция третьего квартиля имеет вид \(L_{75}\) = (16 + 1) (75/100) = 12.75 или между 12-м и 13-м позициями в Таблице 9, в которой доходность представлена в порядке возрастания.
12-й пункт в Таблице 9 - это доходность рынка акций Франции в 2012 году: 15.90%.
13-й пункт - это доходность акций в Австрии в 2012 году: 20.72%.
Определив «0.75» как «12.75», мы пришли бы к выводу, что \(P_{75}\) находится на 75% расстояния между 15.90% и 20.72%.
1) Когда позиция \(L_y\) представляет собой целое число, она соответствует фактическому наблюдению. Например, если бы Дания не была включена в выборку, то \(n + 1\) было бы равно 16, а при \(L_{75}\) = 12 третий квартиль был бы \(P_{75} = X_{12}\), где \(X_i\) определяется как значение наблюдения в \(i\)-й \((i = L_{75})\) позиции данных, отсортированных в порядке возрастания (т. е. \(P_{75}\) = 15.90).
2) Когда \(L_y\) не является целым числом, \(L_y\) лежит между двумя ближайшими целыми числами (одно сверху и одно снизу), и мы используем линейную интерполяцию между этими двумя положениями для определения \(P_y\) . Интерполяция означает оценку неизвестного значения на основе двух известных значений, которые его окружают (лежат над и под ним); термин «линейный» относится к линейной оценке.
Возвращаясь к расчету \(P_{75}\) для доходности капитала, мы обнаружили, что \(L_y\) = 12.75; следующее более низкое целое число равно 12, а следующее более высокое целое число равно 13.
Используя линейную интерполяцию, находим:
\( P_{75} \approx X_{12} + (12.75 - 12) (X_{13} - X_{12}) \)
Как указано выше, на 12-й позиции находится доходность акций Франции, поэтому \(X_{12}\) = 15.90%; \(X_{13}\) = 20.72%, что соответствует доходности акций Австрии.
Таким образом, наша оценка методом линейной интерполяции составит:
\( \begin{aligned}
P_{75} &\approx X_{12} + (12.75 - 12) (X_{13} - X_{12}) \\
&= 15.90 + 0.75 [20.72 - 15.90] = 15.90 + 0.75(4.82) \\
&= 15.90 + 3.62 = 19.52\%
\end{aligned} \)
Значения 15,90 и 20,72 ограничивают \(P_{75}\) снизу и сверху соответственно. Поскольку 12.75 - 12 = 0.75, используя линейную интерполяцию, мы смещаем 75 процентов в диапазоне от 15,90 до 20,72 при нашей оценке \(P_{75}\).
Мы следуем этой схеме всякий раз, когда \(L_y\) не является целым числом: ближайшие целые числа ниже и выше \(L_y\) устанавливают позиции наблюдений, которые ограничивают \(P_y\), а затем используются для интерполяции.
Пример, приведенный ниже иллюстрирует расчет различных квантилей для дивидендной доходности компонентов основного европейского индекса акций.
EURO STOXX 50 - это индекс 50 публичных компаний, который образуют «голубую фишку» лидеров суперсекторов экономики в еврозоне. Таблица 17 показывает рыночную капитализацию акций для 50 компонентов индекса STOXX Ltd. в сентябре 2013 года.
Рыночная капитализация ранжируется в порядке возрастания.
# |
Компания |
Рыночная |
---|---|---|
1 |
Arcelor-Mittal |
8.83 |
2 |
CRH |
10.99 |
3 |
RWE |
11.92 |
4 |
Carrefour |
12.13 |
5 |
Repsol |
12.84 |
6 |
Saint-Gobain |
13.60 |
7 |
France Telecom |
14.09 |
8 |
Unibail-Rodamco |
15.96 |
9 |
Enel |
16.33 |
10 |
Essilor International |
16.85 |
11 |
Intesa Sanpaolo |
17.00 |
12 |
Assicurazioni Generali |
17.76 |
13 |
Vivendi |
17.84 |
14 |
VINCI |
18.64 |
15 |
Philips |
19.04 |
16 |
EADS |
19.37 |
17 |
Inditex |
19.66 |
18 |
UniCredit |
19.69 |
19 |
Iberdrola |
20.29 |
20 |
BMW |
20.69 |
21 |
ASML |
20.71 |
22 |
Societe Generale |
20.92 |
23 |
GDF Suez |
21.10 |
24 |
Volkswagen |
21.57 |
25 |
Munich RE |
22.25 |
26 |
E.ON |
24.83 |
27 |
Deutsche Telekom |
25.60 |
28 |
ING |
25.93 |
29 |
Air Liquide |
28.98 |
30 |
L'Oreal |
29.20 |
31 |
Schneider Electric |
29.75 |
32 |
AXA |
30.13 |
33 |
Deutsche Bank |
30.92 |
34 |
LVMH Modt Hennessy |
32.36 |
35 |
Danone |
33.36 |
36 |
BBVA |
34.56 |
37 |
Telefonica |
39.00 |
38 |
ENI |
41.42 |
39 |
Daimler |
42.42 |
40 |
BNP Paribas |
43.09 |
41 |
Unilever |
46.04 |
42 |
Allianz |
47.72 |
43 |
Anheuser-Busch InBev |
49.40 |
44 |
SAP |
50.93 |
45 |
BCO Santander |
51.17 |
46 |
BASF |
63.88 |
47 |
Siemens |
64.27 |
48 |
Bayer |
65.83 |
49 |
Total |
81.06 |
50 |
Sanofi |
93.29 |
Источник: stoxx.com на 27 сентября 2013.
Используя данные Таблицы 17, сделайте следующее:
В этом примере \(n = 50\). Используя Формулу 8, находим
\( L_y = (n + 1) (y/100) \) для \(y\)-го процентиля, поэтому для 10-го процентиля мы получаем:
\(L_{10}\) = (50 + 1)(10/100) = 5.1
\(L_{10}\) находится между пятым и шестым наблюдениями со значениями \(X_5\) = 12.84 и \(X_6\) = 13.60. Оценка 10-го процентиля (первого дециля) для дивидендной доходности:
\( \begin{aligned}
P_{10} &\approx X_{5} + (5.1 - 5) (X_{6} - X_{5}) \\
&= 12.84 + 0.1(13.60 - 12.84) \\
&= 12.84 + 0.1(0.76) = 12.92
\end{aligned} \)
Для 90-го процентиля,
\(L_{90}\) = (50 + 1)(90/100) = 45.9
\(L_{90}\) находится между 45-м и 46-м наблюдениями со значениями \(X_{45}\) = 51.17 и \(X_{46}\) = 63.88 соответственно. Оценка 90-го процентиля (девятого дециля):
\( \begin{aligned}
P_{90} &\approx X_{45} + (45.9 - 45) (X_{46} - X_{45}) \\
&= 51.17 + 0.9(63.88 - 51.17) \\
&= 51.17 + 0.9(12.71) = 62.61
\end{aligned} \)
Первый, второй и третий квартили соответствуют \(P_{25}\), \(P_{50}\) и \(P_{75}\) соответственно.
\(L_{25}\) = (51) (25/100) = 12,75
\(L_{25}\) находится между 12 и 13 наблюдениями со значениями \(X_{12}\) = 17.76 и \(X_{13}\) = 17.84.
\( \begin{aligned}
P_{25} = Q_1 &\approx X_{12} + (12.75 - 12) (X_{13} - X_{12}) \\
&= 17.76 + 0.75(17.84 - 17.76) \\
&= 17.76 + 0.75(0.08) = 17.82
\end{aligned} \)
\(L_{50}\) = (51) (50/100) = 25.5
\(L_{50}\) находится между 25-й и 26-й наблюдениями со значениями \(X_{25}\) = 22.25 и \(X_{26}\) = 24.83.
\( \begin{aligned}
P_{50} = Q_2 &\approx X_{25} + (25.50 - 25) (X_{26} - X_{25}) \\
&= 22.25 + 0.50(24.83 - 22.25) \\
&= 22.25 + 0.50(2.58) = 23.54
\end{aligned} \)
\(L_{75}\) = (51)(75/100) = 38.25
\(L_{75}\) находится между 38-й и 39-й наблюдениями со значениями \(X_{38}\) = 41.42 и \(X_{39}\) = 42.42.
\( \begin{aligned}
P_{75} = Q_3 &\approx X_{38} + (38.25 - 38) (X_{39} - X_{38}) \\
&= 41.42 + 0.25(42.42 - 41.42) \\
&= 41.42 + 0.25(1.00) = 41.67
\end{aligned} \)
Медиана - 50-й процентиль, который равен 23.54.
Это то же значение, которое мы получили бы, взяв среднее значение \(n/2 = 50/2\) = 25-й элемент и \( (n + 2)/2 = 52/2\) = 26-й элемент, в соответствии с процедурой, приведенной ранее для медианы выборки с четным количеством элементов.
Есть 5 квинтилей, и они определены \(P_{20}\), \(P_{40}\), \(P_{60}\) и \(P_{80}\).
Первый квинтиль - это \(P_{20}\).
\(L_{20}\) = (50 + 1)(20/100) = 10.2
L20 находится между 10-м и 11-м наблюдениями со значениями \(X_{10}\) = 16,85 и \(X_{11}\) = 17.00.
Расчет первого квинтиля:
\( \begin{aligned}
P_{20} &\approx X_{10} + (10.2 - 10) (X_{11} - X_{10}) \\
&= 16.85 + 0.2(17.00 - 16.85) \\
&= 16.85 + 0.2(0.15) = 16.88
\end{aligned} \)