Окончательная модель машинного обучения, полученная на основе соответствующего порогового значения \(p\) была проверена и теперь готова к использованию.

Модель может использоваться для прогнозирования настроений новых предложений из корпуса тестовых данных, а также из аналогичных источников финансовых текстов, таких как новости, объявления о финансовых результатах и ежеквартальные финансовые отчеты.

Окончательная модель представляет собой коллекцию коэффициентов пенализированной регрессии для токенов юниграмм и биграмм из мешка слов обучающего корпуса.

Чтобы использовать модель для прогнозирования настроений новых предложений, необходимо выполнить токенизацию и идентичные операции очистки и предварительной обработки текстовых данных.

Все процессы, выполняемые на обучающих данных, должны быть выполнены на новых данных, к которым будет применяться модель (как это было сделано для тестового набора данных).

Модель будет использовать коэффициенты обученной пенализированной регрессии на значениях частоты слов (TF) токенов из матрицы DTM для новых предложений и будет определять целевое значение (\(p\)).

Столбцы матрицы DTM для новых предложений такие же, как и у обучающей DTM, но значения TF рассчитываются на основе тестового корпуса. При пороговом значении \(p=0.60\), предсказывается класс настроений для каждого предложения в тестовом корпусе.

Теперь модель применяется к тестовым данным, которые содержат 436 предложений. Обратите внимание, что тестовые данные не использовались для обучения или проверки / настройки модели и являются новыми для модели.

Тестовые данные были предварительно обработаны так же, как обучающие данные и данные кросс-валидации (CV) из общего первоначального корпуса. Затем модель применяется к тестовой матрице DTM и дает результаты.

Иллюстрация 49 отображает выборку из 30 результатов, полученных из тестового корпуса. Таблица результатов содержит очищенные и предварительно обработанные предложения, фактические настроения, целевые значения \(p\) из модели и прогнозируемые настроения.

Обратите внимание, что эта выборка содержит три случая неправильной классификации:

  • 10-й текст, где \(p\) = 0.46;
  • 26-й текст, где \(p\) = 0.77; и
  • 30-й текст, где \(p\) = 0.71.

Следовательно, общая точность этой выборки из 30 текстов составляет 27/30 = 90%.

Иллюстрация 49. Выборка из тридцать результатов тестовых данных.

Предложение

Настроение

p

Прогнози­руемое
настроение

exclude non recur item pre tax surg percentsign

1

0.81

1

adp news feb finnish retail kesko oyj hel kesbv said today total sale exclud valu ad tax vat stood at januari down percentsign on yea

0

0.12

0

india trade with russia current stand at four billion dollar grow per cent fiscal

1

0.83

1

refin margin was bbl combar bbl prior

1

0.81

1

scania morgan Stanley lift share target on swedish heavi duti truck bus maker scania ab crown euro crown euro

1

0.83

1

deal is like bring save

1

0.83

1

will also strengthen ruukki offshore busi

1

0.83

1

last week finnish metl technolog group announc plan sell more than percent technolog unit further compani strategy goal becom world largest stainless steel maker

1

0.83

1

nest oil board propos dividend full compar with ago

1

0.81

1

pre tax loss total compar loss first quarter

1

0.46

0

pretax total compar loss fourth quarter

1

0.74

1

re use back into pet bottle has also steadili increas rate use strap tape has pick up again after dip pector said previous

1

0.95

1

satama sale would be higher than befor

1

0.83

1

octob finnish wood product technolog supplier raut oyj hel rutav said today swung first nine month versus loss same period earlier

1

0.79

1

ebit total compar loss correspond period

1

0.74

1

finnish consum packag manufactur huhtamaki oyj said swung euro first nine month loss euro same period

1

0.77

1

finnish dental care group oral hammaslaakarit oyj post total euro first nine month versus loss euro same period

1

0.79

1

finnish silicon water manufactur okmet oyj said swung euro first nine month loss euro earlier

1

0.77

1

adp news feb finnish print circuit board pcb maker aspocomp group oyj hel acg said today swung versus loss

1

0.79

1

mn pretax third quarter

1

0.83

1

oper total compar correspond period

1

0.81

1

raut post euro third quarter compar loss euro correspond period

1

0.74

1

russian export duti will active harvest finland sale russia will increas also

1

0.91

1

compani expect sale signific increas

1

0.91

1

compani amount ee which was percentsign more than

1

0.81

1

third quarter fiscal efor swung loss versus correspond period fiscal

0

0.77

1

acando ab acanb ss fell percent kronor lowest close sinc dec

0

0.20

0

compani oper loss total compar

0

0.27

0

last paseng flew airlin down percent

0

0.12

0

loss after financi item total compar correspond period

0

0.71

1

В Иллюстрации 50 показана матрица неточностей для тестовых данных. Общая точность и оценка F1 составляют 90% и 93% соответственно, в то время как точность и отзывчивость составляют 89% и 98% соответственно.

Следовательно, очевидно, что модель работает аналогичным образом на обучающих, CV и тестовых наборах данных. Эти выводы показывают, что модель надежна и не переобучена.

Результаты также предполагают, что модель должна хорошо обобщать данных вне выборки и, таким образом, может прогнозировать классы настроений для новых предложений из аналогичных источников финансовых текстовых данных.

Конечно, эти новые текстовые данные нужно сначала подвергнуть идентичной токенизации, очистке и предварительной обработке, как это было сделано для обучающего набора данных.

Иллюстрация 50. Матрица неточностей для результатов использования модели на тестовых данных с пороговым значением p=0.60.

Матрица неточностей для тестовых данных.

Фактические метки

Прогнозируемые результаты

Класс «1»

Класс «0»

Класс «1»

284 (TP)

35 (FP)

Класс «0»

7 (FN)

110 (TN)

Показатели эффективности.

TP = 284, FP = 35, FN = 7, TN = 110

P = 284 / (284 + 35) = 0.89

R = 284 / (284 + 7) = 0.98

Оценка F1 = (2 \(\times\) 0.89 \(\times\) 0.98) / (0.89 + 0.98) = 0.93

Общая точность = (284 + 110) / (284 + 35 + 110 + 7) = 0.90

Подытожим: этот проект включает в себя преобразование неструктурированных данных (то есть текстовых данных из финансовых источников) в структурированные данные (то есть в токены, предложения и значения частоты слов) в матрице DTM, которая используется в качестве входных данных для обучения, валидации и тестирования моделей машинного обучения (здесь, логистическая регрессия), которые прогнозируют классификацию (здесь, классы настроений).

Подобные модели можно построить и использовать в разных контекстах, чтобы понять настроения, заложенные в более крупные тексты. Полученная классификация настроений может быть полезна в качестве инструмента визуализации, чтобы дать представление о тексте без чтения больших документов.

Результаты классификации настроений также могут использоваться в качестве структурированных входных данных для более крупных моделей машинного обучения, которые имеют определенную цель, например, для прогнозирования будущих изменений цен на акции.

Пример 7. Сравнение показателей эффективности для матриц неточностей с различными пороговыми значениями p.

В предыдущем анализе, в котором использовались данные кросс-валидации (CV), показатели эффективности для модели классификации настроений были рассчитаны для широкого диапазона (от 0.45 до 0.75) пороговых значений \(p\).

Пороговое значение 0.60 было определено как значение \(p\), которое максимизирует точность модели и оценку F1; матрица неточностей для этой модели показана в Иллюстрации 48.

Используйте приведенные матрицы неточностей с пороговыми значениями 0.75 и 0.45, A и B, соответственно, чтобы ответить на следующие вопросы.

Матрица неточностей A, порог = 0.75.

Фактические метки

Прогнозируемые результаты

Класс «1»

Класс «0»

Класс «1»

281 (TP)

28 (FP)

Класс «0»

12 (FN)

110 (TN)

Показатели эффективности.

TP = 281, FP = 28, FN = 17, TN = 110

Точность = TP/(TP + FP) = 0.91

Отзывчивость = TP/(TP + FN) = 0.94

Оценка F1 = Гармоническое среднее: Точность & Отзывчивость = 0.93

Общая точность = (TP + TN)/N = 0.90

Матрица неточностей B, порог = 0.45.

Фактические метки

Прогнозируемые результаты

Класс «1»

Класс «0»

Класс «1»

281 (TP)

41 (FP)

Класс «0»

4 (FN)

110 (TN)

Показатели эффективности.

TP = 281, FP = 41, FN = 4, TN = 110

Точность = TP / (TP + FP) = 0.87

Отзывчивость = TP / (TP + FN) = 0.99

Оценка F1 = Гармоническое среднее: Точность & Отзывчивость = 0.93

Общая точность = (TP + TN) / N = 0.90

  1. Сравните показатели эффективности матрицы неточностей A (использующей пороговое значение 0.75) с матрицей неточностей из Иллюстрации 48 (использующей пороговое значение 0.60).
  2. Сравните показатели эффективности матрицы неточностей B (использующей пороговое значение 0.45) с матрицей неточностей из Иллюстрации 48 (использующей пороговое значение 0.60).
  3. Сравните показатели эффективности матриц неточностей A и B и объясните компромиссы, подразумеваемые между ними.

Решение для части 1:

Поскольку матрица неточностей A имеет меньше истинно положительных результатов (TP) и меньше истинно отрицательных (TN), чем матрица неточностей в Иллюстрации 48 (281 против 284 и 110 против 114, соответственно), матрица A имеет более низкую общую точность и более низкую оценку F1 по сравнению с Иллюстрацией 48 (0.90 против 0.91 и 0.93 по сравнению с 0.94, соответственно).

Кроме того, хотя матрица A имеет немного лучшую точность, 0.91 против 0.90, из-за несколько меньшего числа ложно позитивных результатов (FP), она имеет значительно более низкую отзывчивость, 0.94 против 0.98, из-за того, что она имеет гораздо больше ложно отрицательных (FN), 17 против 7, чем матрица неточностей в Иллюстрации 48.

Модель, использующая пороговое значение 0.60 является превосходной моделью для этой задачи классификации настроений.


Решение для части 2:

Матрица неточностей B имеет такое же количество TP (281) и TN (110), что и матрица A. Поэтому матрица B также имеет более низкую общую точность (0.90) и более низкую оценку F1 (0.93) по сравнению с Иллюстрацией 48.

Несмотря на то, что матрица неточностей B имеет немного лучшую отзывчивость, то есть 0.99 против 0.98, из-за меньшего количества FN, она имеет несколько более низкую точность, 0.87 против 0.90, из-за того, что имеет гораздо большее количество FP, 41 против 30, чем матрица неточностей из Иллюстрации 48.

Опять же, очевидно, что модель, использующая пороговое значение \(p\) = 0.60, является лучшей моделью в этом контексте классификации настроений.


Решение для части 3:

Основные различия в показателях эффективности между матрицами A и B заключаются в точности и отзывчивости. Матрица A имеет более высокую точность, 0.91 против 0.87, но матрица B имеет более высокую отзывчивость, 0.99 против 0.94.

Эти различия подчеркивают компромисс между FP (ошибка I рода) и FN (ошибка II рода). Точность полезна, когда цена FP высока, например, когда дорогой продукт, не имеющий дефектов, ошибочно классифицируется дефектный; в этом случае количество FP должно быть сведено к минимуму.

Отзывчивость полезна, когда цена FN высока, например, когда дорогой продукт является дефектным, но ошибочно проходит проверку качества и передается клиенту; в этом случае количество FN должно быть сведено к минимуму.

В контексте классификации настроений, FP может привести к покупке акций, для которых настроения неверно классифицируются как положительные, когда они фактически являются отрицательными.

И наоборот, FN может привести к предотвращению покупки (или даже распродаже) акций, для которых настроения неправильно классифицируются как отрицательные, когда они на самом деле положительные. Модель, лежащая в основе матрицы неточностей в Иллюстрации 48, нарушает баланс в компромиссе между точностью и отзывчивостью.