Обсудив меры центральной тенденции, рассмотрим подход к описанию положения статистических данных, который включает в себя определение пороговых значений, в пределах которых лежат указанные пропорции данных.

Например, установление того, что 25, 50 и 75% годовой доходности портфеля лежат в пределах (то есть не выше) значений -0,05, 0,16 и 0,25 соответственно, дает краткую информацию о распределении доходности портфеля.

Статистики используют слово квантиль (или фрактиль от англ. 'quantile', 'fractile') как наиболее общий термин для порогового значения не выше которого (то есть равно или ниже) которого лежит указанная часть данных. Далее мы опишем наиболее часто используемые квантили - квартили, квинтили, децили и процентили - и их применение в инвестициях.


Мы знаем, что медиана делит распределение пополам. Мы можем определить другие разделительные линии, которые разбивают распределение на меньшие части.

Квартили (англ. 'quartiles') делят распределение на четверти, квинтили (англ. 'quintiles') - на 5 частей, децили (англ. 'deciles') - на 10 частей и процентили (англ. 'percentiles') - на 100.

При заданном наборе наблюдений y-й процентиль - это значение, не выше которого лежит у процентов наблюдений. Процентили используются часто, и на основе их могут быть определены другие меры.

Например, первый квартиль \(Q_1\) делит распределение так, что 25 процентов наблюдений лежат не выше него; следовательно, 1-й квартиль также является 25-м процентилем.

Второй квартиль \(Q_2\) представляет 50-й процентиль, а третий квартиль \(Q_3\) представляет 75-й процентиль, потому что 75 процентов наблюдений лежат не выше него.


Имея дело с фактическими данными, мы часто обнаруживаем, что нам нужно найти приблизительное значение процентиля. Например, если нас интересует значение 75-го процентиля, мы можем обнаружить, что ни одно наблюдение не разделяет выборку так, что ровно 75 процентов наблюдений лежат не выше этого значения.

Следующая процедура, однако, может помочь нам определить или оценить процентиль. Процедура включает в себя сначала определение положения процентиля в наборе наблюдений, а затем определение (или оценку) значения, связанного с этой позицией.

Пусть \(P_y\) будет значением, не выше которого лежит y-процент распределения, или y-й процентиль. (Например, \(P_{18}\) - это точка, не выше которой лежат 18% наблюдений).

Формула для позиции процентиля в массиве из n записей, отсортированных по возрастанию:

\(\large  \dst
L_y = (n+1) \frac{y}{10} \)
(Формула 8)

где

  • \(y\) - это процентная точка, в которой мы делим распределение на части, а 
  • \(L_y\) - местоположение \(L\) процентиля \(P_y\) в массиве, отсортированном в порядке возрастания.

Значение \(L_y\) может быть или не быть целым числом.

Как правило, по мере увеличения размера выборки результат расчета положения в процентилях становится более точным; в небольших выборках он может быть весьма приблизительным.


В качестве примера случая, когда \(L_y\) не является целым числом, предположим, что мы хотим определить 3-ий квартиль доходности за 2012 год (\(Q_3\) или \(P_{75}\)) для 16 европейских фондовых рынков, представленных в Таблице 8.

В соответствии с Формулой 8 позиция третьего квартиля имеет вид \(L_{75}\) = (16 + 1) (75/100) = 12.75 или между 12-м и 13-м позициями в Таблице 9, в которой доходность представлена в порядке возрастания.

12-й пункт в Таблице 9 - это доходность рынка акций Франции в 2012 году: 15.90%.

13-й пункт - это доходность акций в Австрии в 2012 году: 20.72%.

Определив «0.75» как «12.75», мы пришли бы к выводу, что \(P_{75}\) находится на 75% расстояния между 15.90% и 20.72%.

Подведем итоги:

1) Когда позиция \(L_y\) представляет собой целое число, она соответствует фактическому наблюдению. Например, если бы Дания не была включена в выборку, то \(n + 1\) было бы равно 16, а при \(L_{75}\) = 12 третий квартиль был бы \(P_{75} = X_{12}\), где \(X_i\) определяется как значение наблюдения в \(i\)-й \((i = L_{75})\) позиции данных, отсортированных в порядке возрастания (т. е. \(P_{75}\) = 15.90).


2) Когда \(L_y\) не является целым числом, \(L_y\) лежит между двумя ближайшими целыми числами (одно сверху и одно снизу), и мы используем линейную интерполяцию между этими двумя положениями для определения \(P_y\) . Интерполяция означает оценку неизвестного значения на основе двух известных значений, которые его окружают (лежат над и под ним); термин «линейный» относится к линейной оценке.

Возвращаясь к расчету \(P_{75}\) для доходности капитала, мы обнаружили, что \(L_y\) = 12.75; следующее более низкое целое число равно 12, а следующее более высокое целое число равно 13.

Используя линейную интерполяцию, находим:

\( P_{75} \approx X_{12} + (12.75 - 12) (X_{13} - X_{12}) \)

Как указано выше, на 12-й позиции находится доходность акций Франции, поэтому \(X_{12}\) = 15.90%; \(X_{13}\) = 20.72%, что соответствует доходности акций Австрии.

Таким образом, наша оценка методом линейной интерполяции составит:

\( \begin{aligned}
P_{75} &\approx X_{12} + (12.75 - 12) (X_{13} - X_{12}) \\
&= 15.90 + 0.75 [20.72 - 15.90] = 15.90 + 0.75(4.82) \\
&= 15.90 + 3.62 = 19.52\%
\end{aligned} \)

Значения 15,90 и 20,72 ограничивают \(P_{75}\) снизу и сверху соответственно. Поскольку 12.75 - 12 = 0.75, используя линейную интерполяцию, мы смещаем 75 процентов в диапазоне от 15,90 до 20,72 при нашей оценке \(P_{75}\).

Мы следуем этой схеме всякий раз, когда \(L_y\) не является целым числом: ближайшие целые числа ниже и выше \(L_y\) устанавливают позиции наблюдений, которые ограничивают \(P_y\), а затем используются для интерполяции.

Пример, приведенный ниже иллюстрирует расчет различных квантилей для дивидендной доходности компонентов основного европейского индекса акций.

Пример расчета процентилей, квартилей и квинтилей.

EURO STOXX 50 - это индекс 50 публичных компаний, который образуют «голубую фишку» лидеров суперсекторов экономики в еврозоне. Таблица 17 показывает рыночную капитализацию акций для 50 компонентов индекса STOXX Ltd. в сентябре 2013 года.

Рыночная капитализация ранжируется в порядке возрастания.

Таблица 17. Рыночная капитализация EURO STOXX 50.

#

Компания

Рыночная
капитализация
(млрд. Euro)

1

Arcelor-Mittal

8.83

2

CRH

10.99

3

RWE

11.92

4

Carrefour

12.13

5

Repsol

12.84

6

Saint-Gobain

13.60

7

France Telecom

14.09

8

Unibail-Rodamco

15.96

9

Enel

16.33

10

Essilor International

16.85

11

Intesa Sanpaolo

17.00

12

Assicurazioni Generali

17.76

13

Vivendi

17.84

14

VINCI

18.64

15

Philips

19.04

16

EADS

19.37

17

Inditex

19.66

18

UniCredit

19.69

19

Iberdrola

20.29

20

BMW

20.69

21

ASML

20.71

22

Societe Generale

20.92

23

GDF Suez

21.10

24

Volkswagen

21.57

25

Munich RE

22.25

26

E.ON

24.83

27

Deutsche Telekom

25.60

28

ING

25.93

29

Air Liquide

28.98

30

L'Oreal

29.20

31

Schneider Electric

29.75

32

AXA

30.13

33

Deutsche Bank

30.92

34

LVMH Modt Hennessy

32.36

35

Danone

33.36

36

BBVA

34.56

37

Telefonica

39.00

38

ENI

41.42

39

Daimler

42.42

40

BNP Paribas

43.09

41

Unilever

46.04

42

Allianz

47.72

43

Anheuser-Busch InBev

49.40

44

SAP

50.93

45

BCO Santander

51.17

46

BASF

63.88

47

Siemens

64.27

48

Bayer

65.83

49

Total

81.06

50

Sanofi

93.29

Источник: stoxx.com на 27 сентября 2013.

Используя данные Таблицы 17, сделайте следующее:

  1. Рассчитайте 10-й и 90-й процентили.
  2. Рассчитайте первый, второй и третий квартили.
  3. Определите значение медианы.
  4. Определите квинтили и каким процентилям соответствуют квинтили.
  5. Рассчитайте значение первого квинтиля.

Решение для части 1:

В этом примере \(n = 50\). Используя Формулу 8, находим
\( L_y = (n + 1) (y/100) \) для \(y\)-го процентиля, поэтому для 10-го процентиля мы получаем:

\(L_{10}\) = (50 + 1)(10/100) = 5.1

\(L_{10}\) находится между пятым и шестым наблюдениями со значениями \(X_5\) = 12.84 и \(X_6\) = 13.60. Оценка 10-го процентиля (первого дециля) для дивидендной доходности:

\( \begin{aligned}
P_{10} &\approx X_{5} + (5.1 - 5) (X_{6} - X_{5}) \\
&= 12.84 + 0.1(13.60 - 12.84) \\
&= 12.84 + 0.1(0.76) = 12.92
\end{aligned} \)

Для 90-го процентиля,

\(L_{90}\) = (50 + 1)(90/100) = 45.9

\(L_{90}\) находится между 45-м и 46-м наблюдениями со значениями \(X_{45}\) = 51.17 и \(X_{46}\) = 63.88 соответственно. Оценка 90-го процентиля (девятого дециля):

\( \begin{aligned}
P_{90} &\approx X_{45} + (45.9 - 45) (X_{46} - X_{45}) \\
&= 51.17 + 0.9(63.88 - 51.17) \\
&= 51.17 + 0.9(12.71) = 62.61
\end{aligned} \)

Решение для части 2:

Первый, второй и третий квартили соответствуют \(P_{25}\), \(P_{50}\) и \(P_{75}\) соответственно.

\(L_{25}\) = (51) (25/100) = 12,75

\(L_{25}\) находится между 12 и 13 наблюдениями со значениями \(X_{12}\) = 17.76 и \(X_{13}\) = 17.84.

\( \begin{aligned}
P_{25} = Q_1 &\approx X_{12} + (12.75 - 12) (X_{13} - X_{12}) \\
&= 17.76 + 0.75(17.84 - 17.76) \\
&= 17.76 + 0.75(0.08) = 17.82
\end{aligned} \)


\(L_{50}\) = (51) (50/100) = 25.5

\(L_{50}\) находится между 25-й и 26-й наблюдениями со значениями \(X_{25}\) = 22.25 и \(X_{26}\) = 24.83.

\( \begin{aligned}
P_{50} = Q_2 &\approx X_{25} + (25.50 - 25) (X_{26} - X_{25}) \\
&= 22.25 + 0.50(24.83 - 22.25) \\
&= 22.25 + 0.50(2.58) = 23.54
\end{aligned} \)


\(L_{75}\) = (51)(75/100) = 38.25

\(L_{75}\) находится между 38-й и 39-й наблюдениями со значениями \(X_{38}\) = 41.42 и \(X_{39}\) = 42.42.

\( \begin{aligned}
P_{75} = Q_3 &\approx X_{38} + (38.25 - 38) (X_{39} - X_{38}) \\
&= 41.42 + 0.25(42.42 - 41.42) \\
&= 41.42 + 0.25(1.00) = 41.67
\end{aligned} \)

Решение для части 3:

Медиана - 50-й процентиль, который равен 23.54.

Это то же значение, которое мы получили бы, взяв среднее значение \(n/2 = 50/2\) = 25-й элемент и \( (n + 2)/2 = 52/2\) = 26-й элемент, в соответствии с процедурой, приведенной ранее для медианы выборки с четным количеством элементов.

Решение для части 4:

Есть 5 квинтилей, и они определены \(P_{20}\), \(P_{40}\), \(P_{60}\) и \(P_{80}\).

Решение для части 5:

Первый квинтиль - это \(P_{20}\).

\(L_{20}\) = (50 + 1)(20/100) = 10.2

L20 находится между 10-м и 11-м наблюдениями со значениями \(X_{10}\) = 16,85 и \(X_{11}\) = 17.00.

Расчет первого квинтиля:

\( \begin{aligned}
P_{20} &\approx X_{10} + (10.2 - 10) (X_{11} - X_{10}) \\
&= 16.85 + 0.2(17.00 - 16.85) \\
&= 16.85 + 0.2(0.15) = 16.88
\end{aligned} \)