46
ЭНЕРГОСНАБЖЕНИЕ
Анализ ошибок применения
алгоритмов машинного обучения
в задачах электроэнергетики
УДК 621.311: 004.855
Хальясмаа
А
.
И
.,
к.т.н., доцент кафедры
«Электротехника»
УрФУ им. Б.Н. Ельцина,
доцент кафедры «Электри-
ческие станции» НГТУ
Матренин
П
.
В
.,
к.т.н., доцент кафедры
«Системы электроснабжения
предприятий» НГТУ
Ерошенко
С
.
А
.,
старший преподаватель
кафедры «Автоматизи-
рованные электри-
ческие системы»
УрФУ им. Б.Н. Ельцина,
старший преподаватель
кафедры «Электрические
станции» НГТУ
Ключевые
слова
:
машинное обучение, электро-
энергетика, данные, обработка
данных, фотоэлектрические
станции, прогнозирование
Сегодня
цифровизация
топливно
–
энергетического
комплекса
во
всем
мире
привела
к
активному
и
практически
повсеместному
внедрению
цифровых
технологий
и
платфор
–
менных
решений
и
в
большинстве
развитых
стран
даже
вошла
в
число
отдельных
при
–
оритетных
национальных
программ
.
Такая
активная
трансформация
отрасли
выявила
новые
проблемы
,
среди
которых
одними
из
основных
стали
проблемы
непрерывного
ро
–
ста
объемов
данных
и
необходимость
новых
подходов
к
их
обработке
и
анализу
.
Авторы
данной
статьи
имеют
достаточно
большой
опыт
разработки
и
внедрения
систем
поддерж
–
ки
принятия
решений
на
базе
алгоритмов
машинного
обучения
в
различных
задачах
электроэнергетики
и
в
представленной
статье
попытались
агрегировать
весь
свой
прак
–
тический
опыт
для
анализа
основных
ошибок
и
последствий
их
влияния
на
результаты
работы
таких
систем
в
электроэнергетической
отрасли
.
В
статье
также
описаны
приме
–
ры
интерпретации
результатов
и
с
точки
зрения
обработки
данных
,
и
,
что
еще
важнее
,
с
точки
зрения
их
интерпретации
для
электроэнергетики
.
АКТУАЛЬНОСТЬ
Существует большое количество публикаций, описывающих сами
алгоритмы машинного обучения и принципы их работы и даже кон-
кретные их отраслевые применения, в том числе для электроэнер-
гетических задач. Но в Data Science именно обработанные данные,
полученные в результате фильтрации и прочих преобразований, как
и полученные в результате применения методов Data Mining, базы
знаний представляют интеллектуальную собственность и чаще все-
го являются закрытой коммерческой информацией. В такой ситуа-
ции очевидно, что в каждом конкретном случае методы и подходы,
реализованные авторами исследования, практически невозможно
повторить для верификации. В то же время особенности каждой
конкретной задачи и возможности ее эффективного решения с по-
мощью алгоритмов машинного обучения практически полностью за-
висят именно от использованных при решении задачи данных.
Сегодня машинное обучение общепризнанно является эффек-
тивным инструментом обработки данных, но вопрос его корректно-
го применения именно разработчиками до сих пор является актив-
но обсуждаемым. Сложность разработки интеллектуальных систем
в электроэнергетике на системном уровне можно описать следу-
ющим образом: современные высококвалифицированные спе ци а-
лис ты в области элек тро энер ге ти ки не обладают в полном объеме
требуемыми компетенциями в области Data Science, а высококва-
лифицированные Data Science и IT-специалисты не представляют
в полном объеме всей физики процессов генерации, передачи и по-
требления электрической энергии. Отсюда появляются два типа
глобальных ошибок: в первом случае — некорректной реализации
математического аппарата и архитектуры программного обеспече-
ния; во втором случае — некорректного формирования базы зна-
ний и некорректной интерпретации полученных результатов. По-
этому эффективная реализация таких проектов возможна только
совместной командой Data Science и IT-специалистов и специали-
стов-электроэнергетиков, каждый из которых дополнительно обла-
дает хотя бы базовыми знаниями и в области Data Science, и в об-
ласти электроэнергетики.
47
ВОЗМОЖНЫЕ
ВИДЫ
ОШИБОК
Многие ученые в области электроэнергетики не об-
ладают глубокими знаниями в Data Science и, что
также очень важно, обычно не являются профессио-
нальными программистами. Поэтому они ошибочно
полагают, что реализация интеллектуальных систем
заключается только в использовании конкретного
алгоритма машинного обучения. Если корректно ис-
пользовать алгоритмы машинного обучения, то в ре-
зультате формируется процесс, который объединяет
в себе низкоуровневые детали и высокоуровневую
структуру программного обеспечения.
Другими словами, какую бы задачу в области
электроэнергетики вы не решали с помощью алго-
ритмов машинного обучения, в конечном счете вы
создаете программное обеспечение. Это очень важ-
но осознавать, так как для таких задач свойственны
все соответствующие этапы и проблемы реализации
программного обеспечения. Поэтому в данной ста-
тье возможные ошибки создания автоматизирован-
ных систем на базе машинного обучения условно
разделены в зависимости от этапов реализации про-
граммного обеспечения в контексте электроэнерге-
тических задач:
– ошибки на стадии сбора, анализа и подготовки
данных;
– ошибки моделирования и тестирования;
– ошибки промышленной эксплуатации.
ОШИБКИ
НА
СТАДИИ
СБОРА
,
АНАЛИЗА
И
ПОДГОТОВКИ
ДАННЫХ
Ошибки на стадии сбора, анализа и подготовки дан-
ных, по мнению авторов, имеют одни из самых тяже-
лых последствий для работы системы, так как имен-
но данные являются базой для интеллектуальных
систем, и их неправильное понимание может при-
вести к ошибкам при трансформации и интерпрета-
ции результатов. Если учесть, что преобразованные
данные в одном этапе могут быть использованы как
входные в другом, то становится понятно, что даже
небольшая ошибка на раннем этапе может много-
кратно усилиться и совершенно исказить результа-
ты, привести или к результату с низкой точностью,
или к совершенно некорректной интерпретации ре-
зультата.
К основным этапам, на которых чаще всего со-
вершают такие ошибки, можно отнести следующие
ниже.
Выбор
источников
данных
.
Могут быть вы-
браны нерелевантные источники данных, так что
данные могут быть изначально некорректными.
На этом этапе нужно понимать, что выбор источ-
ников данных целиком и полностью зависит от
человека еще на этапе проектирования автомати-
зированной системы, поэтому очень важно, чтобы
такие системы были разработаны совместно Data
Science-специалистами и энергетиками. Такие
ошибки могут привести к ложным корреляциям
и зависимостям параметров, которых на самом
деле может и вовсе не существовать [1]. Напри-
мер, когда для распознавания силовых трансфор-
маторов 220 кВ используются данные о дефектах
силовых трансформаторов 35 кВ. Основной за-
дачей алгоритмов машинного обучения является
обобщение данных, поэтому машина ищет зако-
номерности исключительно в тех данных, которые
выбрал разработчик.
Важным аспектом в данной ситуации является из-
начальная корректность данных, здесь не идет речь
про выбросы и частные ошибки в данных, а скорее
о случаях плохих («отравленных») данных, когда, на-
пример, все в ту же исходную выборку по трансфор-
маторам попадают данные с заведомо дефектных
(например, еще с завода-изготовителя) трансфор-
маторов, и в этой выборке число таких трансфор-
маторов образует целый кластер. Также появление
«отравленных» данных может быть умышленным,
например, в результате кибератак, что также явля-
ется вполне реальной проблемой. Поэтому для ав-
томатизированных систем, функционирующих на
стратегических высоковольтных объектах, таких
как станции и подстанции, нужно обеспечивать еще
и безопасность передачи данных. Итогом ошибок на
данном этапе при условии превалирования «отрав-
ленных» данных может быть полностью некоррект-
ная работа системы и неадекватное обобщение дан-
ных моделями.
Предобработка
данных
.
Предобработка дан-
ных является неотъемлемым условием применения
алгоритмов машинного обучения и может включать
в себя следующие процедуры: извлечение призна-
ков, преобразование признаков, анализ взаимодей-
ствия признаков, заполнение пропусков, фильтрация
и т.д. И снова от разработчика на этапе проектирова-
ния системы зависит объем и очередность необхо-
димых этапов обработки данных, а на этапах разра-
ботки и тестирования — валидация разработанных
решений.
При выборе релевантных источников данных от-
сутствие их предобработки скорее приведет к низкой
точности разработанной модели и низкой скорости
работы такой системы, чем к систематическим ошиб-
кам (при условии, что не стоит задачи работы систе-
мы в реальном времени). Например, в рамках автор-
ских исследований было выявлено, что отсутствие
процесса предобработки данных из релевантных
источников в среднем снижает точность полученного
результата для задачи прогнозирования генерации
фотоэлектрических станций на 20–25%.
Принципы
формирования
выборок
.
Еще
одним из важных этапов на стадии сбора, анали-
за и подготовки данных является выбор спосо-
ба формирования и принципа деления данных на
обуча ющую, валидационную и тестовую выборки.
Общепринято считать, что от объема обучающей
выборки во многом зависит точность работы алго-
ритма [2]. Такое утверждение не всегда корректно,
так как большой объем обучающей выборки еще
не гарантирует обеспечение баланса внутри нее.
Например, для задачи классификации разбалан-
сировка по классам (отсутствие данных опреде-
ленных классов или кратное превалирование ко-
личества экземпляров одного класса над другим)
может в конечном счете свести на нет всю работу
№
3 (66) 2021
48
системы, так как корректно обобщать алгоритм бу-
дет не способен. Аналогичные проблемы связаны
и с формированием тестовой и валидационных
выборок. Такие проблемы можно в общем случае
решить либо с помощью процедуры нормализа-
ции, либо с помощью добавления или исключения
обуча ющих данных и т.д.
Разбалансировка в обучающей и тестовой вы-
борках практически всегда свойственна для за-
дачи распознавания дефектов высоковольтного
оборудования вне зависимости от вида оборудо-
вания. Очевидно, что в генеральной совокупности
в таких задачах будут превалировать параметры,
характеризующие бездефектное состояние обо-
рудования или, в худшем случае, определенные
виды дефектов могут и вовсе отсутствовать. Если
формировать обучающую и тестовую выборки в со-
ответствии с общепринятым утверждением, что ве-
роятность появления определенного вида дефекта
в обучающей выборке равна вероятности появле-
ния данных дефектов в генеральной совокупности,
то это приведет к тому, что система будет прекрас-
но распознавать бездефектное состояние и, скорее
всего, редкие дефекты будут считать за «выбросы»
в измерениях. Таким образом выбор процесса фор-
мирования и принципов деления данных на обуча-
ющие, тестовые и валидационные выборки должен
быть отдельной задачей для разработчика интел-
лектуальных систем.
ОШИБКИ
МОДЕЛИРОВАНИЯ
И
ТЕСТИРОВАНИЯ
Общие
ошибки
.
Одной из фундаментальных оши-
бок применения алгоритмов машинного обучения
для конкретной задачи электроэнергетики является
отсутствие обоснования их использования. Несмо-
тря на эффективность данного математического
аппарата, разработчики интеллектуальных систем
должны предварительно убедиться в реальной не-
обходимости применения алгоритмов машинного
обуче ния, а именно четко определить категорию за-
дачи с точки зрения ее математической постановки,
достаточности данных для ее корректной реализа-
ции, а также убедиться в неэффективности исполь-
зования традиционных аналитических детерминиро-
ванных подходов обработки и анализа данных.
Алгоритмы машинного обучения обычно стоит ис-
пользовать в задачах с так называемыми большими
данными (Big Data). Но есть алгоритмы машинного
обучения, которые действительно могут быть эф-
фективными и для небольшого объема данных, но
для каждой конкретной задачи и каждого отдельного
алгоритма необходимо дополнительно определять
минимально требуемый и достаточный объем дан-
ных для реализации корректной обобщающей спо-
собности алгоритма.
Одной из главных проблем при моделировании
в энергетике интеллектуальных систем с помощью
алгоритмов машинного обучения является коррект-
ная постановка задачи машинного обучения и отне-
сения ее к одной из условно возможных категорий
(наиболее распространенных в электроэнергетике):
– задаче регрессии — определению (прогнозиро-
ванию) непрерывной зависимой переменной (или
нескольких переменных) из ряда независимых
переменных (например, прогнозированию гене-
рации электрических станций или потребления
электрической энергии [3]);
– задаче классификации — разделению (или упо-
рядочиванию) объектов по заранее известным
классам (например, анализу технического состо-
яния и определению принадлежности к одному из
состояний электроэнергетического оборудования
по показателям его функционирования [4, 5]);
– задаче кластеризации — разделению объектов на
группы (кластеры) в зависимости от их схожести
при условии, что их перечень кластеров заранее
четко не задан и определяется в процессе работы
алгоритмов, в том числе одной из подзадач клас-
теризации является определение наличия связи
внутри кластеров (например, идентификация
различных видов дефектов в высоковольтном
оборудовании на основе различных данных тех-
нического диагностирования [6, 7]).
Задача регрессии, как и задача классификации
являются задачами обучения с учителем и реали-
зуются для заранее размеченных данных. Задача
кластеризации является задачей обучения без учи-
теля.
Каждая из категорий имеет свои особенности, об-
ласти применения, преимущества и недостатки. За-
частую исследователи используют простой перебор
методов в поиске решения для анализируемых за-
дач и чаще всего этот перебор основан на эксперт-
ном мнении и личном опыте разработчиков, и обос-
нование необходимости применения тех или иных
алгоритмов выглядит не всегда убедительно.
Также стоит сразу же разделять задачи по необ-
ходимому времени ее решения и требуемому време-
ни обучения модели машинного обучения:
1. Оперативная задача, требующая большого (за-
ранее определенного) объема высокого каче-
ства данных и малого времени обучения модели
и предполагающая функционирование в онлайн-
режиме или в режиме, близкому к темпу реаль-
ного процесса. Например, задача оперативного
планирования баланса мощности в энергосисте-
ме с целью обеспечения баланса мощности (но-
минального уровня частоты), определения тре-
буемого резерва мощности с учетом вероятности
нарушения баланса мощности, где исходными
данными являются нагрузка (оперативный про-
гноз потребления), выработка на выбранном ин-
тервале упреждения на электрических станциях,
оперативный прогноз ВИЭ, электросетевые огра-
ничения [8]. Решение таких задач при их практи-
ческом отраслевом внедрении всегда сопряжены
с необходимостью формирования инфраструкту-
ры для их корректной реализации: необходимо-
сти гибкого хранилища данных и мощных распре-
деленных вычислений.
2. Среднесрочная задача, требующая достаточного
объема данных для получения результата хоро-
шей точности в разумное время. Например, зада-
ЭНЕРГОСНАБЖЕНИЕ
49
чи диагностики состояния оборудования с целью
выявления развивающихся дефектов, где исход-
ными данными являются данные о текущем тех-
ническом состоянии оборудования и его элемен-
тов [9]. В данном случае речь не идет о системах
онлайн-мониторинга.
3. Долгосрочная задача, основные требования
в которой предъявляются к увеличению точнос-
ти при увеличении времени обучения в условиях
ограниченности данных (либо небольшого объе-
ма данных, либо большого объема данных недо-
статочно высокого качества). Например, задача
разработки схемы и программы развития энер-
госистемы с целью разработки мероприятий
по обеспечению надежного электроснабжения
субъектов, где исходными данными являются
общие данные об энергосистеме, нагрузке, гене-
рации, данные о предполагаемом развитии сети,
изменении электропотребления, долгосрочные
балансы мощности и электрической энергии
и др. [10, 11]. Обычно это так называемый класс
систем-советчиков, или систем поддержки при-
нятия решений.
Частные
ошибки
.
Частные ошибки обычно яв-
ляются следствием математической или программ-
ной неосведомленности (неопытности) разработ-
чиков. Чаще всего ошибки связаны со следующими
процессами:
– выбор способа обучения модели (с учителем, без
учителя, с подкреплением);
– выбор критериев качества модели (выбор метрики);
– анализ ошибок в результате работы алгоритмов
и их интерпретация;
– адаптация или дообучение системы в случае
появления новых объектов.
ПРИМЕРЫ
ОШИБОК
ДЛЯ
РЕАЛЬНОЙ
ПРОМЫШЛЕННОЙ
ЭКСПЛУАТАЦИИ
В
ЗАДАЧАХ
ПРОГНОЗИРОВАНИЯ
ГЕНЕРАЦИИ
В реальной промышленной эксплуатации систем
поддержки принятия решений на базе алгоритмов
машинного обучения вышеперечисленные ошибки
могут встречаться как по отдельности, так и все вме-
сте. В рамках данного раздела авторы приводят ана-
лиз возможных ошибок и их влияния на результаты
работы системы на примере задачи прогнозирова-
ния генерации электрической энергии фотоэлектри-
ческой станции.
Актуальность
решаемой
задачи
.
Необходи-
мость прогнозирования генерации возобновляемых
источников энергии закреплена на государственном
уровне, согласно приказу от 11.02.2019 № 91 «Об
утверждении требований к прогнозированию потре-
бления и формированию балансов электрической
энергии и мощности энергосистемы на календарный
год и периоды в пределах года»: «…Объем произ-
водства электрической энергии в прогнозном балан-
се электрической энергии энергосистемы должен
определяться для ветровых и солнечных электро-
станций на основе помесячных данных о средней
многолетней величине производства электрической
энергии данными электростанциями за три послед-
них года, а при отсутствии указанных данных (в том
числе для строящихся электростанций) — в соответ-
ствии с предложениями собственников по формиро-
ванию сводного прогнозного баланса…». При этом
на момент написания настоящей статьи авторам
неизвестно универсальное надежное отраслевое
решение задачи прогнозирования генерации фото-
электрических станций, внедренное в технологиче-
скую деятельность основных субъектов энергетики.
В настоящее время при краткосрочном планирова-
нии электрических режимов с целью компенсации
стохастического снижения выдачи мощности элек-
тростанциями на основе возобновляемых источни-
ков энергии увеличивается объем резервов активной
мощности ЭЭС на суммарную величину генерации,
заявленной собственниками таких генерирующих
объектов, что фактически говорит о полном резерви-
ровании мощности возобновляемых источников ге-
нерации на традиционных тепловых электрических
станциях.
С целью повышения эффективности краткосроч-
ного планирования режимов в части соблюдения
системных ограничений, размещения резервов ак-
тивной мощности требуется создание инструмен-
тов прогнозирования генерации фотоэлектрических
станций для краткосрочного (на сутки вперед) пла-
нирования. Кроме того, собственники фотоэлектри-
ческих станций также заинтересованы в развитии
инструментов прогнозирования. В существующих
условиях это позволит не только решать задачи вы-
бора состава включенного генерирующего оборудо-
вания, планирования резервов мощности, но обес-
печить эффективное планирование технического
обслуживания и ремонтов основного генерирующего
оборудования.
Постановка задачи: разработка модели системы
прогнозирования генерации фотоэлектрическими
станциями на сутки вперед (краткосрочный прогноз).
Ошибка
на
этапе
сбора
данных
.
В редких слу-
чаях для решения задачи прогнозирования генера-
ции фотоэлектрических станций, как и для любой
другой задачи в реальной жизни, имеется готовый
датасет — обработанный набор очищенных данных,
пригодных для обработки алгоритмами машинного
обучения.
Формирование такого набора данных — это не
просто задача сбора данных, но и, что очень важно,
ранжирование их источников по релевантности, где
под релевантностью подразумевается степень отно-
шения (соответствия) анализируемого объекта в да-
тасете к вашей конкретной задаче.
Например, если исключить процесс ранжирова-
ния источников данных в задаче прогнозирования
генерации фотоэлектрических станций, то в датасе-
те могут оказаться данные, нерелевантные для ре-
шаемой задачи, например:
– данные со станций, расположенных в различных
климатических зонах, или данные, собранные
только в определенное время года, что и в том,
и в другом случае приведет к неучету тренда и/или
сезонной составляющей во временном ряде;
№
3 (66) 2021
50
– данные фотоэлектрических станций, существен-
но отличающихся по типам солнечных панелей,
по составу прочего оборудования, величине
потерь в линиях и трансформаторах и т.д., что
приведет к увеличению дисперсии прогнозируе-
мой величины.
Таким образом нельзя случайным образом фор-
мировать исходный набор данных, ранжирование
данных должно реализовываться с учетом различ-
ных факторов, подтверждающих релевантность ис-
точников.
В качестве конкретного примера рассмотрим сле-
дующую ситуацию. Заказчик — компания-владелец
ряда фотоэлектрических станций с условными на-
званиями от A до K (11 объектов) ставит задачу по
разработке системы прогнозирования графиков их
генерации. Для наглядности на рисунке 1 представ-
лено отображение полной выборки данных с этих
станций в осях «месяц» — «географическая широ-
та» (эти факторы выбраны, в первую очередь, для
большей наглядности и простоты рисунка).
Крестиками отмечены данные, которые в данном
примере попали в выборку при плохом планирова-
нии этапа сбора данных. Видно, что в выборке есть
данные за каждый месяц, но при этом нет ни одной
станции, для которой в выборке были бы данные
за все месяцы года. Охвачен определенный диапа-
зон географических широт (климатических зон), но
при этом нет данных по станциям B и C, входящим
в этот диапазон. В результате на этапе построения,
оценки и тестирования модели (принимаем, что вы-
борка разделена случайным образом на обучаю-
щую и тестовую) результаты на тестовой выборке
могут оказаться достаточно хорошими для постав-
ленной задачи, но в то же время модель окажется
не пригодной для использования в жизни. Точность
модели для всей системы показана на рисунке 2,
в качестве критерия точности взят коэффициент
детерминации R2.
Снижение точности для станций G–K происхо-
дит по очевидным причинам — в выборке не было
данных со станций, находящихся на этих широтах.
Но из-за того, что временные интервалы (месяцы)
были разными для разных станций, получилось так,
что несмотря на наличие в выборке данных за весь
год, ни для одной из станций построенная модель не
может быть применена в течение всего года. Исклю-
чение — станция E, поскольку в выборке были дан-
ные близких к ней станций D и F, охватывающие все
месяцы года. Кроме того, результаты для станции
C оказались неожиданно низкими, причем в любой
из месяцев. Это объясняется особенностями самой
станции С (электроэнергетическое оборудование,
тип солнечных панелей и их соединение в единую
систему производства электрической энергии).
В результате на этапе тестирования модели ее
точность была высокой, при этом в тестовой выбор-
ке были данные по разным электростанциям, рас-
положенным на разных широтах, данные по разным
месяцам. Но на этапе эксплуатации оказывается,
что модель не работает не только для фотоэлек-
трических станций на других широтах, в других кли-
матических условиях, чего можно было ожидать,
но не работает и для станций другого типа, распо-
ложенных в тех же широтах. И самое плохое, что
модель может давать низкую точность в отдельные
месяцы даже для тех самых станций, с которых
были собраны исходные данные.
Поэтому на этапе планирования сбора данных
необходимо:
1) четко определять условия, в которых требуется,
чтобы модель работала, и согласовывать их с за-
казчиком;
Рис
. 1.
Исходный
набор
данных
по
фотоэлектрическим
станциям
Рис
. 2.
Точность
на
всей
системе
фотоэлектрических
станций
Географическая широта
12
11
10
9
8
7
6
5
4
3
2
1
44
A
G
B
H
I
J
K
Ложь
Истина
C
E
D
F
46
48
50
52
М
есяц
Географическая широта
12
11
10
9
8
7
6
5
4
3
2
1
44
A
G
B
H
I
J
K
66
72
C
E
D
F
46
48
50
52
М
есяц
78
84
Ложь
×
Истина
R2
В наборе
данных
90
ЭНЕРГОСНАБЖЕНИЕ
51
2) собирать данные так, что-
бы в выборке были пред-
ставлены все требуемые
условия в достаточном для
обучения и тестирования
объеме и качестве;
3) понимать, что должны быть
представлены не только
все условия, но и комби-
нации условий в случае их
взаимного влияния.
В рассмотренном при-
мере следовало бы начать
со сбора данных за все ме-
сяцы и несколько лет одной
фотоэлектрической станции,
и только после успешной
проверки работоспособности
модели после ее внедрения и начала эксплуатации
переходить к масштабированию модели (адапта-
ции, дообучению, повторному обучению с нуля или
даже построению совершенно новой модели) для
других станций.
Ошибка
на
этапе
предобработки
данных
.
От-
сутствие удаления выбросов (искажений данных).
В предыдущей главе данной работы авторы описыва-
ли важность процесса предобработки данных. Ниже
рассмотрен пример обучения регрессионной моде-
ли, прогнозирующей генерацию фотоэлектрических
станций. На рисунке 3 показан фрагмент графика
генерации до предобработки (содержит искажения,
выделенные кружками) и после (искажения удале-
ны). В общем случае ошибки в данных могут быть
связаны с искажениями при измерениях и передаче
даных, ошибками в программном коде конвертации
и записи показаний измерительного прибора в файл,
опечатками, которые сделаны из-за ручного копиро-
вания данных. Искажения, показанные на рисунке 3,
внесены в данные намеренно вручную для форми-
рования данного примера.
При обучении модель будет стремиться найти
в исходных данных (график выработки, дата и вре-
мя, метеорологические данные: температура, облач-
ность, влажность, скорость ветра) зависимости. При
этом искажения в данных могут искажать истинные
зависимости и даже приво-
дить к обнаружению ложных.
Если применяются средства
для борьбы с переобучени-
ем, то можно избежать фор-
мирования моделью ложных
зависимостей, тем не менее
искажения снизят точность,
так как они исказят значения
функции потерь при обучении
и таким образом ухудшат схо-
димость процесса обучения.
В случае формирования
ложных зависимостей модель
в отдельные часы эксплуа-
тации может давать прогноз
с большими ошибками, как
показано на рисунке 4. При этом такие ошибки будут
для пользователя свидетельствами того, что в моде-
ли заложены неадекватные правила, что существен-
но снизит доверие к модели, которая и так является
черным ящиком из-за применения алгоритмов ма-
шинного обучения.
На рисунке 4: зеленая линия — настоящее значе-
ние генерации СЭС; коричневая — прогноз, получен-
ный моделью, обученной на данных с исправлением
больших искажений; оранжевая — прогноз, полу-
ченный моделью, обученной на данных с большими
искажениями. Полупрозрачные области показывают
доверительный интервал. Ошибки из-за отсутствия
предобработки исходных данных, как правило, сни-
жают значения показателей точности, следовательно,
расширяют доверительный интервал.
Чтобы избежать описанных негативных эффек-
тов, необходимо:
1) до начала обучения модели выполнить анализ
данных с использованием статистических методов
обнаружения выбросов и экспертного анализа ре-
зультатов визуализации данных;
2) на этапе оценки модели проводить отдельный
анализ больших ошибок на валидационной вы-
борке, поскольку такие ошибки могут быть связа-
ны с искажениями входных данных или искажени-
ями разметки данных (ground truth).
Рис
. 3.
График
генерации
ФЭС
с
искажениями
и
после
их
удаления
Время, ч
8000
7000
6000
5000
4000
3000
2000
1000
0
0
20
40
60
80
М
ощность, кВ
т
Качество данных:
с большими искажениями;
отфильтрованные
Рис
. 4.
Результаты
моделей
,
обученных
на
данных
с
искажениями
и
на
фильтро
–
ванных
данных
Время, ч
8000
6000
4000
2000
0
0
20
40
60
80
М
ощность, кВ
т
№
3 (66) 2021
52
Ошибка
выбора
непод
–
ходящего
показателя
каче
–
ства
.
От выбора показателя
точности модели зависят и то,
как будет проходить процесс
ее обучения, и формирование
заключения о полученных ре-
зультатах. При этом как в за-
дачах классификации, так
и в задачах регрессии суще-
ствует большое количество
различных показателей каче-
ства моделей. Выбор непод-
ходящего показателя качества
может ввести в заблуждение
из-за того, что он не будет от-
ражать качество модели по
существу, с точки зрения эф-
фективности ее эксплуатации. На рисунке 5 показан
суточный график генерации ФЭС, прогноз некоторой
модели и два графика показателя качества: модуль
относительной ошибки |(
y
–
y
*) /
y
| и модуль абсолют-
ного значения ошибки |
y
–
y
*|.
В данном примере, когда ошибка, по существу,
большая, относительные значения ошибки низкие
из-за большого значения истинной выработки. Зато
в граничные часы (утренние и вечерние), совсем
незначительная, по существу, ошибка приводит
к огромным относительным ошибкам.
Если использовать относительную ошибку при
обуче нии модели, то модель будет стремиться всег-
да давать нулевой выход, потому что даже неболь-
шие отклонения в граничные часы будут давать
очень большие значения относительной ошибки (бо-
лее 100%).
Поэтому необходимо выбирать и интерпретиро-
вать показатели качества модели исходя из того,
для какой задачи будет использоваться модель,
а также понимать, что ошибка означает по суще-
ству, не согласно математическим, а согласно фи-
зическим и экономическим критериям.
Ошибка
выбора
неподходящей
по
особенно
–
сти
задачи
модели
.
Выбор модели и алгоритма
машинного обучения, которые по своим особен-
ностям не соответствуют задаче, приводит к не-
достижению требуемой точности. Такие ошибки
менее опасны, чем рассмо-
тренные выше ошибки, по-
скольку негативный эффект
от них проявляется сразу же
в процессе обучения модели,
а не обнаруживается уже на
этапе эксплуатации. Тем не
менее попытки применения
неподходящих моделей мо-
гут существенно увеличить
трудозатраты на разработку
интеллектуальной системы,
а в худшем случае привести
к выводу о невозможности
достичь требуемых показате-
лей качества.
Для примера рассмотрено применение к той же
задаче прогнозирования генерации ФЭС следующих
моделей: полиномиальной регрессии; дерева реше-
ний; ансамбля деревьев, построенного алгоритмом
градиентного бустинга. На рисунке 6 приведен гра-
фик дневной генерации ФЭС.
Очевидно, что в рассматриваемом примере мо-
дель должна уметь давать прогноз принципиаль-
но по-разному в диапазоне часов светового дня,
а также в период после заката и до рассвета. По-
линомиальная регрессионная модель не способ-
на обучать ся такой логике, поскольку является по
своей природе непрерывной функцией. Дерево
решений, наоборот, формирует кусочно-непрерыв-
ную функцию и легко обучается логике разделения
рабочего и нерабочего интервалов, но при малой
глубине не сможет точно прогнозировать генера-
цию из-за своей дискретности. Для решения задачи
может эффективно быть применен ансамбль неглу-
боких деревьев решений. Результаты моделей для
данного фрагмента показаны на рисунке 7. Полино-
миальная регрессия не может обучиться отсекать
ночные часы и поэтому уходит на них в минус. Не-
глубокое дерево решений дает слишком ступенча-
тый выход, так как не может достаточно точно опи-
сать график из-за своей дискретности.
Чтобы избежать ошибочного выбора неподходя-
щей модели и алгоритма обучения, следует:
Рис
. 5.
Точность
модели
по
разным
показателям
: GT — ground truth,
истинный
гра
–
фик
генерации
; Model —
выход
регрессионной
модели
, APE — absolute percentage
error,
модуль
относительной
ошибки
; AE — absolute error,
модуль
ошибки
Время, ч
10 000
8000
6000
4000
2000
0
10
20
30
40
50
60
70
М
ощность, кВ
т
Рис
. 6.
Дневной
фрагмент
генерации
ФЭС
Время, ч
8000
6000
4000
2000
0
0
5
10
15
20
М
ощность, кВ
т
ЭНЕРГОСНАБЖЕНИЕ
53
Рис
. 7.
Результаты
моделей
: GT — ground truth,
истинный
график
генерации
;
PR — polynomial regression,
полиномиальная
регрессия
; DT — decision tree,
дерево
решений
; GB — gradient boosting,
ансамблевая
модель
,
построенная
градиентным
бустингом
Время, ч
10 000
8000
6000
4000
2000
0
0
5
10
15
20
М
ощность, кВ
т
1) понимать особенности задачи и характер измене-
ний целевой величины;
2) понимать математическую природу моделей
и принципы работы алгоритмов их обучения;
3) проводить анализ не только показателей качества
модели, но и сопоставление ее выхода с требуе-
мым.
ЗАКЛЮЧЕНИЕ
Рассмотренные примеры ошибок обосновывают
абсолютную необходимость тесного взаимодей-
ствия специалистов в Data Science со специалиста-
ми в электроэнергетике на всех этапах создания
интеллектуальных систем.
На каждом этапе необходи-
мо как полное понимание
специфики решаемой задачи
и рассматриваемого объек-
та, так и глубокое понимание
принципов работы математи-
ческих моделей, алгоритмов
и статистических показате-
лей. Недостаток как перво-
го, так и второго с высокой
вероятностью
приведут
к увеличению трудозатрат на
создание интеллектуальной
системы или снижению по-
казателей качества работы
модели на этапе ее эксплуа-
тации.
В данной статье были
продемонстрированы на реальных примерах в раз-
личных электроэнергетических задачах возмож-
ные ошибки при создании автоматизированных
систем на базе машинного обучения и выявлены
основные этапы, на которых имеет смысл допол-
нительно проверять корректность использования
алгоритмов машинного обучения (на стадии сбора,
анализа и подготовки данных; на стадии моделиро-
вания и тестирования и на стадии промышленной
эксплуатации). Также в статье были представлены
рекомендации для выявления таких ошибок и их
интерпретация на каждом из вышеперечисленных
этапов.
ЛИТЕРАТУРА / REFERENCES
1. 9 проблем машинного обучения.
URL: https://www.kaspersky.ru/blog/
machine-learning-ten-cha llenges/
21193/.
Nine issues of machine learning.
URL: https://www.kaspersky.ru/blog/
machine-learning-ten-cha llenges/
21193/. (In Russian)
2. Кафтанников И.Л., Парасич А.В.
Проблемы формирования обуча-
ющей выборки в задачах машин-
ного обучения // Вестник ЮУрГУ.
Серия: Компьютерные технологии,
управление, радиоэлектроника,
2016, т. 16, № 3. С. 15–24.
Kaftannikov I.L., Parasich A.V. Issues
of training sample formation in ma-
chine learning tasks // News of South
Ural State University. Series: Com-
puter technologies, management, ra-
dio electronics, 2016, vol. 16, no. 3,
pp. 15–24. (In Russian)
3. Obando E.D., Carvajal S.X., Pineda
Agudelo J. Solar Radiation Pre-
diction Using Machine Learning
Techniques. IEEE Latin America
Transactions, 2019, vol. 17, no. 04,
pp. 684-697.
4. Mirowski P., LeCun Y. Statistical
Machine Learning and Dissolved
Gas Analysis. IEEE Transactions on
Power Delivery, 2012, vol. 27, no. 4,
pp. 1791-1799.
5. Benmahamed Y., Teguar M., Bou-
bakeur A. Application of SVM and
KNN to Duval Pentagon 1 for trans-
former oil diagnosis. IEEE Trans-
actions on Dielectrics and Electri-
cal Insulation, 2017, vol. 24, no. 6,
pp. 3443-3451.
6. Tra V., Duong B., Kim J. Improving
diagnostic performance of a power
transformer using an adaptive over-
sampling method for imbalanced
data. IEEE Transactions on Dielec-
trics and Electrical Insulation, 2019,
vol. 26, no. 4, pp. 1325-1333.
7. Hao X., Tao C., Rui-jing L., Jian L.,
Cai-xin S. Fault Diagnosis of Power
Transformer Using Kernel-Based
Possibilistic Clustering. International
Conference on Power System Tech-
nology, Chongqing, China, 2006.
URL: https://www.researchgate.net/
publication/224060901.
8. Hu J., Wei X., Yang M., Tang B.,
Lin K., Zhong Y. A Practical RBF
Framework for Database Load Bal-
ancing Prediction. 3rd International
Conference on Artifi cial Intelligence
and Big Data (ICAIBD), Chengdu,
China, 2020. URL: https://ieeex-
plore.ieee.org/document/9137481.
9. Dong M., Li W., Nassif A.B. Long-
term Health Index Prediction for Pow-
er Asset Classes Based on Sequence
Learning. IEEE Transactions on Pow-
er Delivery, 2021. URL: https://arxiv.
org/pdf/2006.14193v1.pdf.
10. Glavic M., Fonteneau R., Ernst D.
Reinforcement Learning for Elec-
tric Power System Decision and
Control: Past Considerations and
Perspectives. IFAC-PapersOnLine,
2017, vol. 50, Issue 1, pp. 6918-
6927.
11. Donida Labati R., Genovese A., Pi-
uri V., Scotti F., Sforza G. A Decision
Support System for Wind Power
Production. IEEE Transactions
on Systems, Man, and Cybernet-
ics: Systems, 2020, vol. 50, no. 1,
pp. 290-304.
№
3 (66) 2021
Оригинал статьи: Анализ ошибок применения алгоритмов машинного обучения в задачах электроэнергетики
Сегодня цифровизация топливно-энергетического комплекса во всем мире привела к активному и практически повсеместному внедрению цифровых технологий и платформенных решений и в большинстве развитых стран даже вошла в число отдельных приоритетных национальных программ. Такая активная трансформация отрасли выявила новые проблемы, среди которых одними из основных стали проблемы непрерывного роста объемов данных и необходимость новых подходов к их обработке и анализу. Авторы данной статьи имеют достаточно большой опыт разработки и внедрения систем поддержки принятия решений на базе алгоритмов машинного обучения в различных задачах электроэнергетики и в представленной статье попытались агрегировать весь свой практический опыт для анализа основных ошибок и последствий их влияния на результаты работы таких систем в электроэнергетической отрасли. В статье также описаны примеры интерпретации результатов и с точки зрения обработки данных, и, что еще важнее, с точки зрения их интерпретации для электроэнергетики.