При обсуждении временных рядов (Пример 2) мы уже видели, что увеличение размера выборки может привести к выборке из более чем одной совокупности. Существует, по сути, целый ряд проблем обоснования правильности выборки, которые возникают при работе с финансовыми данными.

В этом разделе мы рассмотрим четыре такие проблемы, связанные со смещением отбора (или систематической ошибкой отбора, англ. 'bias', 'selection bias', 'systematic error'):

Все эти вопросы имеют важное значение для точечной и интервальной оценки и проверки статистических гипотез.

Как мы увидим далее, если выборка смещена каким-либо образом, то точечные и интервальные оценки и любые другие выводы, которые мы делаем на основе выборки, будут ошибочны.


Добыча данных или дата-майнинг (или извлечение данных, интеллектуальный анализ данных, глубинный анализ данных, от англ. 'data-mining') связана c чрезмерным использованием одних и тех же или связанных данных.

Смещение или систематическая ошибка добычи данных (англ. 'data-mining bias') относится к ошибкам, которые возникают из-за неправильного использования данных.

Инвестиционные стратегии, которые отражают систематические ошибки добычи данных, часто не приводят к успеху в будущем. Тем не менее, и инвестиционные практики и исследователи часто занимаются добычей данных. Поэтому финансовые аналитики должны понимать эту проблему и принимать против нее меры.

Дата-майнинг является практикой определения модели с помощью обширного поиска в данных статистически значимых паттернов или шаблонов (то есть, повторяющееся «бурение» в одних и тех же данных, пока не будет найдена работающая модель).

Некоторые исследователи используют термин «отслеживание данных» (англ. 'data snooping') вместо термина дата-майнинг.

В упражнениях с участием статистической значимости мы устанавливаем уровень значимости, который является вероятностью того, что мы отвергнем проверяемую гипотезу, которая является фактически правильной.

Чтобы передать сущность добычи данных, очень полезно ввести некоторые основные понятия, связанные с проверкой гипотез. Чтение о проверке статистических гипотез содержит дальнейшее обсуждение уровней значимости и проверке значимости.

Поскольку отказ от истинной гипотезы является нежелательным, исследователь часто устанавливает относительно небольшой уровень значимости (англ. 'significance level'), например 0.05 или 5.

С точки зрения нашего предыдущего обсуждения доверительных интервалов, значимость на уровне 5% соответствует гипотетическому значению статистики совокупности, выходящему за пределы 95-процентного доверительного интервала, основанного на соответствующей выборочной статистике (например, выборочного среднего, когда гипотеза относится к среднему значению по совокупности).

Предположим, что мы проверяем гипотезу о том, что переменная величина не предсказывает доходность акций, и мы тестируем в свою очередь, 100 других различных переменных величин.

Предположим также, что на самом деле, ни одна из этих 100 переменных не обладает возможностью прогнозировать доходность акций. Используя уровень значимости 5% в наших тестах, мы по-прежнему ожидаем, что 5 из 100 переменных, окажутся значимыми предикторами (т.е. прогнозирующими факторами) доходности акций, потому что такая вероятность остается.

Мы добыли данные, чтобы найти некоторые, по-видимому, значимые переменные. В сущности, мы исследовали одни и те же данные снова и снова, пока мы не нашли в конце концов паттерн (шаблон) или паттерны в наборе данных. Именно в этом смысле добыча данных подразумевает чрезмерное использование данных.

Если мы сообщим только о значимых переменных величинах, не сообщив при этом об общем количестве переменных, тестирование которых не увенчались успехом, то мы представим очень искаженную картину наших выводов.

Наши результаты покажутся гораздо более значимыми, чем есть на самом деле, потому что серия тестов, такая как только что описанная, сводит на нет традиционное толкование заданного уровня значимости (например, 5%), согласно теории статистического вывода.

Как мы можем определить наличие систематической ошибки добычи данных?

Для большинства финансовых данных это означает проверку нужной переменной или стратегии за пределами выборки.

Проверка или тест за пределами выборки (или нешаблонный тест, от англ. 'out-of-sample test') использует выборку, которая не пересекается с временным периодом (периодами) выборки (выборок), к которому относится данная переменная, стратегия, или модель. Если переменная или инвестиционная стратегия является результатом дата-майнинга, она, как правило, не должна быть значимой в проверках за пределами выборки.

Переменная или инвестиционная стратегия, которая является статистически и экономически значимой в проверках за пределами выборки, имеет правдоподобную экономическую основу, и может быть основой для правильной инвестиционной стратегии.

Тем не менее, нужна осмотрительность. Наиболее важным тестом за пределами выборки является будущий успех инвестиций.

Если стратегия станет известна другим инвесторам, цены могут скорректироваться таким образом, что стратегия, несмотря на то, что она хорошо протестирована, не сработает в будущем.

Подводя итоги, финансовый аналитик должен осознавать, что многие, вероятно прибыльные инвестиционные стратегии могут отражать систематическую ошибку интеллектуального анализа данных, поэтому нужно проявлять осторожность в отношении будущего применения опубликованных результатов инвестиционных исследований.

Интеллектуальный анализ больших объемов данных может быть сложным. Для того, чтобы оценить значение инвестиционной стратегии, мы должны знать, сколько неудачных стратегий были протестированы не только текущим исследователем, но и предыдущими исследователями с использованием тех же или связанных данных.


На практике, многие исследования сильно полагаются на то, что сделали другие исследователи ранее, и поэтому отражают межпоколенческий интеллектуальный анализ данных, использовать терминологию МакКвина и Торли (McQueen and Thorley, 1999).

Межпоколенческая добыча данных (англ. 'intergenerational data mining') предполагает использование информации, разработанной предыдущими исследователи с использованием определенных данных, чтобы вести текущие исследования с использованием тех же или связанный данных.

Термин «межпоколенческий» (англ. 'intergenerational') означает, что исследователи, осуществляющие каждый раунд исследований, воспринимаются как поколение. Кэмпбелл, Ло и МакКинли (Campbell, Lo and MacKinlay, 1997) назвали межпоколенческий дата-майнинг «отслеживанием данных».

Последняя фраза, однако, обычно используется как синоним интеллектуального анализа данных (т.е. дата-майнинга). Таким образом, терминология МакКвина и Торли менее неоднозначна.

Термин «внутрипоколенческая добыча данных» (англ. 'intragenerational data mining') применяется, если мы хотим подчеркнуть, что речь идет о новой или независимой добыче данных исследователя.

Аналитики уже накопили много наблюдений об особенностях многих финансовых наборов данных, и другие аналитики могут разрабатывать модели или инвестиционные стратегии, которые, как правило, поддерживаются данными, основанными на их знакомстве с предшествующим опытом других аналитиков.

Как следствие, важность этих новых результатов может быть завышена. Исследования показали, что величина этого типа смещения добычи данных может быть значительной.

Например, Ло и МакКинли (1990), проведя тестирование модели ценообразования финансовых активов, пришли к выводу, что величина системной ошибки этого типа была значительной.

На фоне приведенных выше определений и объяснений, мы можем понять убедительное исследование добычи данных, проведенное МакКвином и Торли (1999), в контексте популярной инвестиционной стратегии «Fool Four» финансовой аналитической компании Motley Fool.

Стратегия «Fool Four» или «Четыре джокера» (игра слов, связанная с названием компании Motley Fool, т.е. дословно - шут, изображенный на игральной карте-джокере), впервые представленная в 1996 году, была версией стратегии Dow Dividend Strategy, которая была настроена разработчиками так, чтобы показать еще более высокую среднеарифметическую доходность, чем у дивидендной стратегии Доу в период 1973 до 1993 года.

Дивидендная стратегия Доу (англ. 'Dow Dividend Strategy'), также известная как «Собаки Доу» (англ. 'Dogs of the Dow Strategy'), заключается в удерживании равновзвешенного портфеля из 10 самых доходных акций индекса DJIA (индекс Доу-Джонса для акций промышленных компаний) по состоянию на начало года.

Во время исследования МакКвина и Торли, стратегия Четыре джокера осуществлялась следующим образом: в начале каждого года портфель Четырех джокеров формируется из 4 акций, выбранных из 5 акций с самой низкой ценой, выбранных из 10 самых доходных акций DJIA.

Последняя, самая дешёвая из 5 акций с самой низкой ценой исключается, 40% средств инвестируется в предпоследнюю акцию, а остальные 60% инвестируются по 20%, в оставшиеся 3 из 5 акций с самой низкой ценой.

С 1973 по 1993 портфель Четырех джокеров приносил среднюю годовую доходность в размере 25%, и в СМИ появилось заявление о том, что стратегия должна приносить аналогичные доходы в будущем.

Однако, как выяснили МакКвин и Торли, стратегия Четырех джокеров была объектом очень сильной систематической ошибки интеллектуального анализа данных, в том числе систематической ошибки межпоколенческого дата-майнинга, поскольку разработчики стратегии опирались на наблюдения, сделанные предыдущими исследователями.

МакКвин и Торли осветили вопросы интеллектуального анализа данных, продвинув стратегию Четырех Джокеров еще на один шаг вперед. Они добыли данные, на основе которых создали портфель «Разорванная четверка» (англ. 'Fractured Four'), который принес почти 35% доходность с 1973 по 1996 год, побив стратегию Четырех джокеров почти на 8 процентных пунктов.

Заметив, что все акции Четырех джокеров хорошо показали себя в четные годы, но не в нечетные годы, и что предпоследняя акция из 10 акций с самыми низкими ценами была соответственно самой высокодоходной акцией в нечетные годы, портфельная стратегия Разорванная четверка предписывала удерживать акции Четырех Джокеров в равных пропорциях (т.е. инвестировать по 25% в каждую акцию) в четные годы и удерживать только предпоследнюю акцию (т.е. инвестировать в нее 100%) в нечетные годы.

Насколько велика вероятность того, что разница в эффективности между четными и нечетными годами отражает лежащие в ее основе экономические силы, а не случайный паттерн данных за определенный период времени?

Это возможно, но очень маловероятно.

Если инвестиционная стратегия не отражает лежащие в ее основе экономические силы, мы не ожидаем, что она представляет собой какую-либо ценность как инструмент для прогнозирования рынка. Поскольку стратегия Четырех джокеров также использовала интеллектуальный анализ данных, проблемы дата-майнинга распространяются и на нее.


МакКвин и Торли обнаружили, что в тесте за пределами выборки - за период 1949-72 г., стратегия Четырех джокеров приносила примерно такой же средний доход, что базовая стратегия, заключавшаяся в покупке и удерживании акций DJIA, но с более высоким риском. Если также учесть более высокие налоги и операционные издержки стратегии Четырех джокеров были, то сравнение оказывалось еще более неблагоприятным.

МакКвин и Торли сформулировали два признака, которые могут предупредить аналитиков о возможном наличии систематической ошибки интеллектуального анализа данных:

Слишком много «рытья» / слишком мало уверенности.

Тестирование исследователем множества переменных считается признаком проблемы «слишком много рытья» (англ. 'too much digging') интеллектуального анализа данных.

К сожалению, многие исследователи не раскрывают число переменных, рассматриваемых ими при разработке модели. Хотя о числе рассматриваемых переменных может не сообщаться в отчете об исследовании, мы должны внимательно взглянуть на словесные намеки на то, что исследователь проверил множество переменных.

Использование таких фраз, как «мы заметили (или отметили), что» или «кто-то заметил (или отметил), что» в отношении паттерна набора данных, должно вызвать подозрения в том, что исследователи проверяли переменные на основе собственных или чужих наблюдений данных.

Нет объяснения / нет будущего.

Отсутствие явного экономического обоснования для переменной или торговой стратегии не является признаком проблемы «нет объяснения» (англ. 'no story') интеллектуального анализа данных. Без правдоподобного экономического обоснования или объяснения того, почему переменная должна работать, эта переменная вряд ли будет оказывать каким-либо прогностический эффект.

В демонстрационном упражнении с применением обширного поиска переменных в международной финансовой базе данных, Лейнвебер (Leinweber, 1997) обнаружил, что уровень производства масла в той или иной стране, удаленной от США, объясняет 75% изменений доходности акций США по индексу S&P 500.

Такой вывод, без правдоподобного экономического обоснования, весьма вероятно, будет случайным паттерном, характерным для конкретного периода времени.

В финансовой литературе случайную, но не имеющую отношения к будущему модель, иногда называют артефактом набора данных (англ. 'artifact of the dataset').

Но что делать, если у нас есть правдоподобное экономическое объяснение значимой переменной?

МакКвин и Торли предостерегают о том, что правдоподобное экономическое обоснование является необходимым, но не достаточным условием для того, чтобы торговая стратегия была значимой.

Как мы уже упоминали ранее, если стратегия станет общеизвестна, рыночные цены могут скорректироваться с учетом новой информации, так как трейдеры будут стремиться использовать эту стратегию. В результате, стратегия может перестать работать.