Анализ ошибок применения алгоритмов машинного обучения в задачах электроэнергетики




Page 1


background image







Page 2


background image

46

ЭНЕРГОСНАБЖЕНИЕ

Анализ ошибок применения 
алгоритмов машинного обучения 
в задачах электроэнергетики

УДК 621.311: 004.855

Хальясмаа

 

А

.

И

.,

к.т.н., доцент кафедры 

«Электротехника»

УрФУ им. Б.Н. Ельцина,

доцент кафедры «Электри-

ческие станции» НГТУ

Матренин

 

П

.

В

.,

к.т.н., доцент кафедры 

«Системы электроснабжения 

предприятий» НГТУ

Ерошенко

 

С

.

А

.,

старший преподаватель 

кафедры «Автоматизи-

рованные электри-

ческие системы»

УрФУ им. Б.Н. Ельцина,

старший преподаватель 

кафедры «Электрические 

станции» НГТУ

Ключевые

 

слова

:

машинное обучение, электро-

энергетика, данные, обработка 

данных, фотоэлектрические 

станции, прогнозирование

Сегодня

 

цифровизация

 

топливно

энергетического

 

комплекса

 

во

 

всем

 

мире

 

привела

 

к

 

активному

 

и

 

практически

 

повсеместному

 

внедрению

 

цифровых

 

технологий

 

и

 

платфор

менных

 

решений

 

и

 

в

 

большинстве

 

развитых

 

стран

 

даже

 

вошла

 

в

 

число

 

отдельных

 

при

оритетных

 

национальных

 

программ

Такая

 

активная

 

трансформация

 

отрасли

 

выявила

 

новые

 

проблемы

среди

 

которых

 

одними

 

из

 

основных

 

стали

 

проблемы

 

непрерывного

 

ро

ста

 

объемов

 

данных

 

и

 

необходимость

 

новых

 

подходов

 

к

 

их

 

обработке

 

и

 

анализу

Авторы

 

данной

 

статьи

 

имеют

 

достаточно

 

большой

 

опыт

 

разработки

 

и

 

внедрения

 

систем

 

поддерж

ки

 

принятия

 

решений

 

на

 

базе

 

алгоритмов

 

машинного

 

обучения

 

в

 

различных

 

задачах

 

электроэнергетики

 

и

 

в

 

представленной

 

статье

 

попытались

 

агрегировать

 

весь

 

свой

 

прак

тический

 

опыт

 

для

 

анализа

 

основных

 

ошибок

 

и

 

последствий

 

их

 

влияния

 

на

 

результаты

 

работы

 

таких

 

систем

 

в

 

электроэнергетической

 

отрасли

В

 

статье

 

также

 

описаны

 

приме

ры

 

интерпретации

 

результатов

 

и

 

с

 

точки

 

зрения

 

обработки

 

данных

и

что

 

еще

 

важнее

с

 

точки

 

зрения

 

их

 

интерпретации

 

для

 

электроэнергетики

.

АКТУАЛЬНОСТЬ

 

Существует  большое  количество  публикаций,  описывающих  сами 

алгоритмы машинного обучения и принципы их работы и даже кон-

кретные их отраслевые применения, в том числе для электроэнер-

гетических задач. Но в Data Science именно обработанные данные, 

полученные в результате фильтрации и прочих преобразований, как 

и  полученные  в  результате  применения  методов  Data  Mining,  базы 

знаний представляют интеллектуальную собственность и чаще все-

го  являются  закрытой  коммерческой  информацией.  В  такой  ситуа-

ции очевидно, что в каждом конкретном случае методы и подходы, 

реализованные  авторами  исследования,  практически  невозможно 

повторить  для  верификации.  В  то  же  время  особенности  каждой 

конкретной задачи и возможности ее эффективного решения с по-

мощью алгоритмов машинного обучения практически полностью за-

висят именно от использованных при решении задачи данных.  

Сегодня  машинное  обучение  общепризнанно  является  эффек-

тивным инструментом обработки данных, но вопрос его корректно-

го применения именно разработчиками до сих пор является актив-

но обсуждаемым. Сложность разработки интеллектуальных систем 

в  электроэнергетике  на  системном  уровне  можно  описать  следу-

ющим образом: современные высококвалифицированные спе ци а-

лис ты в области элек тро энер ге ти ки не обладают в полном объеме 

требуемыми компетенциями в области Data Science, а высококва-

лифицированные Data Science и IT-специалисты не представляют 

в полном объеме всей физики процессов генерации, передачи и по-

требления  электрической  энергии.  Отсюда  появляются  два  типа 

глобальных ошибок: в первом случае — некорректной реализации 

математического аппарата и архитектуры программного обеспече-

ния; во втором случае — некорректного формирования базы зна-

ний  и  некорректной  интерпретации  полученных  результатов.  По-

этому  эффективная  реализация  таких  проектов  возможна  только 

совместной командой Data Science и IT-специалистов и специали-

стов-электроэнергетиков, каждый из которых дополнительно обла-

дает хотя бы базовыми знаниями и в области Data Science, и в об-

ласти электроэнергетики. 







Page 3


background image

47

ВОЗМОЖНЫЕ

 

ВИДЫ

 

ОШИБОК

 

Многие ученые в области электроэнергетики не об-

ладают  глубокими  знаниями  в  Data  Science  и,  что 

также очень важно, обычно не являются профессио-

нальными программистами. Поэтому они ошибочно 

полагают, что реализация интеллектуальных систем 

заключается  только  в  использовании  конкретного 

алгоритма машинного обучения. Если корректно ис-

пользовать алгоритмы машинного обучения, то в ре-

зультате формируется процесс, который объединяет 

в  себе  низкоуровневые  детали  и  высокоуровневую 

структуру программного обеспечения.

Другими  словами,  какую  бы  задачу  в  области 

электроэнергетики  вы  не  решали  с  помощью  алго-

ритмов  машинного  обучения,  в  конечном  счете  вы 

создаете программное обеспечение. Это очень важ-

но осознавать, так как для таких задач свойственны 

все соответствующие этапы и проблемы реализации 

программного  обеспечения.  Поэтому  в  данной  ста-

тье  возможные  ошибки  создания  автоматизирован-

ных  систем  на  базе  машинного  обучения  условно 

разделены в зависимости от этапов реализации про-

граммного  обеспечения  в  контексте  электроэнерге-

тических задач: 

 

– ошибки на стадии сбора, анализа и подготовки 

данных;

 

– ошибки моделирования и тестирования;

 

– ошибки промышленной эксплуатации.

ОШИБКИ

 

НА

 

СТАДИИ

 

СБОРА

,

АНАЛИЗА

 

И

 

ПОДГОТОВКИ

 

ДАННЫХ

Ошибки на стадии сбора, анализа и подготовки дан-

ных, по мнению авторов, имеют одни из самых тяже-

лых последствий для работы системы, так как имен-

но  данные  являются  базой  для  интеллектуальных 

систем,  и  их  неправильное  понимание  может  при-

вести к ошибкам при трансформации и интерпрета-

ции результатов. Если учесть, что преобразованные 

данные в одном этапе могут быть использованы как 

входные в другом, то становится понятно, что даже 

небольшая  ошибка  на  раннем  этапе  может  много-

кратно  усилиться  и  совершенно  исказить  результа-

ты,  привести  или  к  результату  с  низкой  точностью, 

или к совершенно некорректной интерпретации ре-

зультата.

К  основным  этапам,  на  которых  чаще  всего  со-

вершают  такие  ошибки,  можно  отнести  следующие 

ниже.

Выбор

 

источников

 

данных

.

  Могут  быть  вы-

браны  нерелевантные  источники  данных,  так  что 

данные  могут  быть  изначально  некорректными. 

На этом этапе нужно понимать, что выбор источ-

ников  данных  целиком  и  полностью  зависит  от 

человека еще на этапе проектирования автомати-

зированной системы, поэтому очень важно, чтобы 

такие системы были разработаны совместно Data 

Science-специалистами  и  энергетиками.  Такие 

ошибки  могут  привести  к  ложным  корреляциям 

и  зависимостям  параметров,  которых  на  самом 

деле  может  и  вовсе  не  существовать  [1].  Напри-

мер, когда для распознавания силовых трансфор-

маторов 220 кВ используются данные о дефектах 

силовых  трансформаторов  35  кВ.  Основной  за-

дачей  алгоритмов  машинного  обучения  является 

обобщение  данных,  поэтому  машина  ищет  зако-

номерности исключительно в тех данных, которые 

выбрал разработчик. 

Важным аспектом в данной ситуации является из-

начальная корректность данных, здесь не идет речь 

про выбросы и частные ошибки в данных, а скорее 

о случаях плохих («отравленных») данных, когда, на-

пример, все в ту же исходную выборку по трансфор-

маторам  попадают  данные  с  заведомо  дефектных 

(например,  еще  с  завода-изготовителя)  трансфор-

маторов,  и  в  этой  выборке  число  таких  трансфор-

маторов образует целый кластер. Также появление 

«отравленных»  данных  может  быть  умышленным, 

например,  в  результате  кибератак,  что  также  явля-

ется вполне реальной проблемой. Поэтому для ав-

томатизированных  систем,  функционирующих  на 

стратегических  высоковольтных  объектах,  таких 

как станции и подстанции, нужно обеспечивать еще 

и безопасность передачи данных. Итогом ошибок на 

данном этапе при условии превалирования «отрав-

ленных» данных может быть полностью некоррект-

ная работа системы и неадекватное обобщение дан-

ных моделями.

Предобработка

 

данных

.

  Предобработка  дан-

ных является неотъемлемым условием применения 

алгоритмов машинного обучения и может включать 

в  себя  следующие  процедуры:  извлечение  призна-

ков, преобразование признаков, анализ взаимодей-

ствия признаков, заполнение пропусков, фильтрация 

и т.д. И снова от разработчика на этапе проектирова-

ния системы зависит объем и очередность необхо-

димых этапов обработки данных, а на этапах разра-

ботки и тестирования — валидация разработанных 

решений. 

При выборе релевантных источников данных от-

сутствие их предобработки скорее приведет к низкой 

точности  разработанной  модели  и  низкой  скорости 

работы такой системы, чем к систематическим ошиб-

кам (при условии, что не стоит задачи работы систе-

мы в реальном времени). Например, в рамках автор-

ских  исследований  было  выявлено,  что  отсутствие 

процесса  предобработки  данных  из  релевантных 

источников в среднем снижает точность полученного 

результата  для  задачи  прогнозирования  генерации 

фотоэлектрических станций на 20–25%.  

Принципы

 

формирования

 

выборок

.

  Еще 

одним  из  важных  этапов  на  стадии  сбора,  анали-

за  и  подготовки  данных  является  выбор  спосо-

ба  формирования  и  принципа  деления  данных  на 

обуча ющую,  валидационную  и  тестовую  выборки. 

Общепринято  считать,  что  от  объема  обучающей 

выборки во многом зависит точность работы алго-

ритма [2]. Такое утверждение не всегда корректно, 

так  как  большой  объем  обучающей  выборки  еще 

не  гарантирует  обеспечение  баланса  внутри  нее. 

Например,  для  задачи  классификации  разбалан-

сировка  по  классам  (отсутствие  данных  опреде-

ленных  классов  или  кратное  превалирование  ко-

личества  экземпляров  одного  класса  над  другим) 

может в конечном счете свести на нет всю работу 

 3 (66) 2021







Page 4


background image

48

системы, так как корректно обобщать алгоритм бу-

дет не способен. Аналогичные проблемы связаны 

и  с  формированием  тестовой  и  валидационных 

выборок.  Такие  проблемы  можно  в  общем  случае 

решить  либо  с  помощью  процедуры  нормализа-

ции, либо с помощью добавления или исключения 

обуча ющих данных и т.д. 

Разбалансировка  в  обучающей  и  тестовой  вы-

борках  практически  всегда  свойственна  для  за-

дачи  распознавания  дефектов  высоковольтного 

оборудования  вне  зависимости  от  вида  оборудо-

вания. Очевидно, что в генеральной совокупности 

в  таких  задачах  будут  превалировать  параметры, 

характеризующие  бездефектное  состояние  обо-

рудования  или,  в  худшем  случае,  определенные 

виды дефектов могут и вовсе отсутствовать. Если 

формировать обучающую и тестовую выборки в со-

ответствии с общепринятым утверждением, что ве-

роятность появления определенного вида дефекта 

в обучающей выборке равна вероятности появле-

ния данных дефектов в генеральной совокупности, 

то это приведет к тому, что система будет прекрас-

но распознавать бездефектное состояние и, скорее 

всего, редкие дефекты будут считать за «выбросы» 

в измерениях. Таким образом выбор процесса фор-

мирования и принципов деления данных на обуча-

ющие, тестовые и валидационные выборки должен 

быть  отдельной  задачей  для  разработчика  интел-

лектуальных систем.

ОШИБКИ

 

МОДЕЛИРОВАНИЯ

 

И

 

ТЕСТИРОВАНИЯ

Общие

 

ошибки

.

  Одной  из  фундаментальных  оши-

бок  применения  алгоритмов  машинного  обучения 

для конкретной задачи электроэнергетики является 

отсутствие  обоснования  их  использования.  Несмо-

тря  на  эффективность  данного  математического 

аппарата,  разработчики  интеллектуальных  систем 

должны  предварительно  убедиться  в  реальной  не-

обходимости  применения  алгоритмов  машинного 

обуче ния, а именно четко определить категорию за-

дачи с точки зрения ее математической постановки, 

достаточности  данных  для  ее  корректной  реализа-

ции, а также убедиться в неэффективности исполь-

зования традиционных аналитических детерминиро-

ванных подходов обработки и анализа данных.

Алгоритмы машинного обучения обычно стоит ис-

пользовать в задачах с так называемыми большими 

данными (Big Data). Но есть алгоритмы машинного 

обучения,  которые  действительно  могут  быть  эф-

фективными  и  для  небольшого  объема  данных,  но 

для каждой конкретной задачи и каждого отдельного 

алгоритма  необходимо  дополнительно  определять 

минимально  требуемый  и  достаточный  объем  дан-

ных  для  реализации  корректной  обобщающей  спо-

собности алгоритма.

Одной  из  главных  проблем  при  моделировании 

в  энергетике  интеллектуальных  систем  с  помощью 

алгоритмов  машинного  обучения  является  коррект-

ная постановка задачи машинного обучения и отне-

сения  ее  к  одной  из  условно  возможных  категорий 

(наиболее распространенных в электроэнергетике):

 

– задаче  регрессии  —  определению  (прогнозиро-

ванию) непрерывной зависимой переменной (или 

нескольких  переменных)  из  ряда  независимых 

переменных  (например,  прогнозированию  гене-

рации  электрических  станций  или  потребления 

электрической энергии [3]);

 

– задаче  классификации  —  разделению  (или  упо-

рядочиванию)  объектов  по  заранее  известным 

классам (например, анализу технического состо-

яния и определению принадлежности к одному из 

состояний электроэнергетического оборудования 

по показателям его функционирования [4, 5]);

 

– задаче кластеризации — разделению объектов на 

группы (кластеры) в зависимости от их схожести 

при условии, что их перечень кластеров заранее 

четко не задан и определяется в процессе работы 

алгоритмов, в том числе одной из подзадач клас-

теризации  является  определение  наличия  связи 

внутри  кластеров  (например,  идентификация 

различных  видов  дефектов  в  высоковольтном 

оборудовании на основе различных данных тех-

нического диагностирования [6, 7]).

Задача регрессии, как и задача классификации 

являются задачами обучения с учителем и реали-

зуются  для  заранее  размеченных  данных.  Задача 

кластеризации является задачей обучения без учи-

теля. 

Каждая из категорий имеет свои особенности, об-

ласти применения, преимущества и недостатки. За-

частую исследователи используют простой перебор 

методов  в  поиске  решения  для  анализируемых  за-

дач и чаще всего этот перебор основан на эксперт-

ном мнении и личном опыте разработчиков, и обос-

нование  необходимости  применения  тех  или  иных 

алгоритмов выглядит не всегда убедительно.

Также стоит сразу же разделять задачи по необ-

ходимому времени ее решения и требуемому време-

ни обучения модели машинного обучения: 

1.  Оперативная  задача,  требующая  большого  (за-

ранее  определенного)  объема  высокого  каче-

ства данных и малого времени обучения модели 

и предполагающая функционирование в онлайн-

режиме  или  в  режиме,  близкому  к  темпу  реаль-

ного  процесса.  Например,  задача  оперативного 

планирования баланса мощности в энергосисте-

ме с целью обеспечения баланса мощности (но-

минального  уровня  частоты),  определения  тре-

буемого резерва мощности с учетом вероятности 

нарушения  баланса  мощности,  где  исходными 

данными  являются  нагрузка  (оперативный  про-

гноз потребления), выработка на выбранном ин-

тервале упреждения на электрических станциях, 

оперативный прогноз ВИЭ, электросетевые огра-

ничения [8]. Решение таких задач при их практи-

ческом отраслевом внедрении всегда сопряжены 

с необходимостью формирования инфраструкту-

ры  для  их  корректной  реализации:  необходимо-

сти гибкого хранилища данных и мощных распре-

деленных вычислений.

2.  Среднесрочная задача, требующая достаточного 

объема  данных  для  получения  результата  хоро-

шей точности в разумное время. Например, зада-

ЭНЕРГОСНАБЖЕНИЕ







Page 5


background image

49

чи диагностики состояния оборудования с целью 

выявления развивающихся дефектов, где исход-

ными данными являются данные о текущем тех-

ническом состоянии оборудования и его элемен-

тов [9]. В данном случае речь не идет о системах 

онлайн-мониторинга. 

3.  Долгосрочная  задача,  основные  требования 

в которой предъявляются к увеличению точнос-

ти при увеличении времени обучения в условиях 

ограниченности данных (либо небольшого объе-

ма данных, либо большого объема данных недо-

статочно высокого качества). Например, задача 

разработки схемы и программы развития энер-

госистемы  с  целью  разработки  мероприятий 

по  обеспечению  надежного  электроснабжения 

субъектов,  где  исходными  данными  являются 

общие данные об энергосистеме, нагрузке, гене-

рации, данные о предполагаемом развитии сети, 

изменении  электропотребления,  долгосрочные 

балансы  мощности  и  электрической  энергии 

и др. [10, 11]. Обычно это так называемый класс 

систем-советчиков, или систем поддержки при-

нятия решений.

Частные

 

ошибки

.

 Частные ошибки обычно яв-

ляются  следствием  математической  или  программ-

ной  неосведомленности  (неопытности)  разработ-

чиков. Чаще всего ошибки связаны со следующими 

процессами:

 

– выбор способа обучения модели (с учителем, без 

учителя, с подкреплением);

 

– выбор критериев качества модели (выбор метрики);

 

– анализ  ошибок  в  результате  работы  алгоритмов 

и их интерпретация;

 

– адаптация  или  дообучение  системы  в  случае 

появления новых объектов.

ПРИМЕРЫ

 

ОШИБОК

 

ДЛЯ

 

РЕАЛЬНОЙ

 

ПРОМЫШЛЕННОЙ

 

ЭКСПЛУАТАЦИИ

 

В

 

ЗАДАЧАХ

 

ПРОГНОЗИРОВАНИЯ

 

ГЕНЕРАЦИИ

 

В  реальной  промышленной  эксплуатации  систем 

поддержки  принятия  решений  на  базе  алгоритмов 

машинного  обучения  вышеперечисленные  ошибки 

могут встречаться как по отдельности, так и все вме-

сте. В рамках данного раздела авторы приводят ана-

лиз возможных ошибок и их влияния на результаты 

работы  системы  на  примере  задачи  прогнозирова-

ния генерации электрической энергии фотоэлектри-

ческой станции.

Актуальность

 

решаемой

 

задачи

.

  Необходи-

мость  прогнозирования  генерации  возобновляемых 

источников энергии закреплена на государственном 

уровне,  согласно  приказу  от  11.02.2019  №  91  «Об 

утверждении требований к прогнозированию потре-

бления  и  формированию  балансов  электрической 

энергии и мощности энергосистемы на календарный 

год  и  периоды  в  пределах  года»:  «…Объем  произ-

водства электрической энергии в прогнозном балан-

се  электрической  энергии  энергосистемы  должен 

определяться  для  ветровых  и  солнечных  электро-

станций  на  основе  помесячных  данных  о  средней 

многолетней  величине  производства  электрической 

энергии данными электростанциями за три послед-

них года, а при отсутствии указанных данных (в том 

числе для строящихся электростанций) — в соответ-

ствии с предложениями собственников по формиро-

ванию  сводного  прогнозного  баланса…».  При  этом 

на  момент  написания  настоящей  статьи  авторам 

неизвестно  универсальное  надежное  отраслевое 

решение  задачи  прогнозирования  генерации  фото-

электрических  станций,  внедренное  в  технологиче-

скую деятельность основных субъектов энергетики. 

В  настоящее  время  при  краткосрочном  планирова-

нии  электрических  режимов  с  целью  компенсации 

стохастического  снижения  выдачи  мощности  элек-

тростанциями  на  основе  возобновляемых  источни-

ков энергии увеличивается объем резервов активной 

мощности ЭЭС на суммарную величину генерации, 

заявленной  собственниками  таких  генерирующих 

объектов, что фактически говорит о полном резерви-

ровании  мощности  возобновляемых  источников  ге-

нерации  на  традиционных  тепловых  электрических 

станциях.

С целью повышения эффективности краткосроч-

ного  планирования  режимов  в  части  соблюдения 

системных  ограничений,  размещения  резервов  ак-

тивной  мощности  требуется  создание  инструмен-

тов  прогнозирования  генерации  фотоэлектрических 

станций  для  краткосрочного  (на  сутки  вперед)  пла-

нирования. Кроме того, собственники фотоэлектри-

ческих  станций  также  заинтересованы  в  развитии 

инструментов  прогнозирования.  В  существующих 

условиях это позволит не только решать задачи вы-

бора состава включенного генерирующего оборудо-

вания,  планирования  резервов  мощности,  но  обес-

печить  эффективное  планирование  технического 

обслуживания и ремонтов основного генерирующего 

оборудования.

Постановка задачи: разработка модели системы 

прогнозирования  генерации  фотоэлектрическими 

станциями на сутки вперед (краткосрочный прогноз).

Ошибка

 

на

 

этапе

 

сбора

 

данных

.

 В редких слу-

чаях  для  решения  задачи  прогнозирования  генера-

ции  фотоэлектрических  станций,  как  и  для  любой 

другой  задачи  в  реальной  жизни,  имеется  готовый 

датасет — обработанный набор очищенных данных, 

пригодных  для  обработки  алгоритмами  машинного 

обучения. 

Формирование  такого  набора  данных  —  это  не 

просто задача сбора данных, но и, что очень важно, 

ранжирование их источников по релевантности, где 

под релевантностью подразумевается степень отно-

шения (соответствия) анализируемого объекта в да-

тасете к вашей конкретной задаче.

Например,  если  исключить  процесс  ранжирова-

ния  источников  данных  в  задаче  прогнозирования 

генерации фотоэлектрических станций, то в датасе-

те могут оказаться данные, нерелевантные для ре-

шаемой задачи, например:

 

– данные со станций, расположенных в различных 

климатических  зонах,  или  данные,  собранные 

только в определенное время года, что и в том, 

и в другом случае приведет к неучету тренда и/или

сезонной составляющей во временном ряде; 

 3 (66) 2021







Page 6


background image

50

 

– данные фотоэлектрических станций, существен-

но отличающихся по типам солнечных панелей, 

по  составу  прочего  оборудования,  величине 

потерь  в  линиях  и  трансформаторах  и  т.д.,  что 

приведет к увеличению дисперсии прогнозируе-

мой величины. 

Таким образом нельзя случайным образом фор-

мировать  исходный  набор  данных,  ранжирование 

данных  должно  реализовываться  с  учетом  различ-

ных  факторов,  подтверждающих  релевантность  ис-

точников. 

В качестве конкретного примера рассмотрим сле-

дующую  ситуацию.  Заказчик  —  компания-владелец 

ряда  фотоэлектрических  станций  с  условными  на-

званиями от A до K (11 объектов) ставит задачу по 

разработке  системы  прогнозирования  графиков  их 

генерации. Для наглядности на рисунке 1 представ-

лено  отображение  полной  выборки  данных  с  этих 

станций  в  осях  «месяц»  —  «географическая  широ-

та»  (эти  факторы  выбраны,  в  первую  очередь,  для 

большей наглядности и простоты рисунка). 

Крестиками отмечены данные, которые в данном 

примере попали в выборку при плохом планирова-

нии этапа сбора данных. Видно, что в выборке есть 

данные за каждый месяц, но при этом нет ни одной 

станции,  для  которой  в  выборке  были  бы  данные 

за все месяцы года. Охвачен определенный диапа-

зон географических широт (климатических зон), но 

при этом нет данных по станциям B и C, входящим 

в этот диапазон. В результате на этапе построения, 

оценки и тестирования модели (принимаем, что вы-

борка  разделена  случайным  образом  на  обучаю-

щую  и  тестовую)  результаты  на  тестовой  выборке 

могут оказаться достаточно хорошими для постав-

ленной задачи, но в то же время модель окажется 

не пригодной для использования в жизни. Точность 

модели  для  всей  системы  показана  на  рисунке  2, 

в  качестве  критерия  точности  взят  коэффициент 

детерминации R2.

Снижение  точности  для  станций  G–K  происхо-

дит по очевидным причинам — в выборке не было 

данных  со  станций,  находящихся  на  этих  широтах. 

Но  из-за  того,  что  временные  интервалы  (месяцы) 

были разными для разных станций, получилось так, 

что несмотря на наличие в выборке данных за весь 

год, ни для одной из станций построенная модель не 

может быть применена в течение всего года. Исклю-

чение — станция E, поскольку в выборке были дан-

ные близких к ней станций D и F, охватывающие все 

месяцы  года.  Кроме  того,  результаты  для  станции 

C оказались неожиданно низкими, причем в любой 

из месяцев. Это объясняется особенностями самой 

станции  С  (электроэнергетическое  оборудование, 

тип  солнечных  панелей  и  их  соединение  в  единую 

систему производства электрической энергии).

В результате на этапе тестирования модели ее 

точность была высокой, при этом в тестовой выбор-

ке были данные по разным электростанциям, рас-

положенным на разных широтах, данные по разным 

месяцам.  Но  на  этапе  эксплуатации  оказывается, 

что  модель  не  работает  не  только  для  фотоэлек-

трических станций на других широтах, в других кли-

матических  условиях,  чего  можно  было  ожидать, 

но не работает и для станций другого типа, распо-

ложенных  в  тех  же  широтах.  И  самое  плохое,  что 

модель может давать низкую точность в отдельные 

месяцы  даже  для  тех  самых  станций,  с  которых 

были собраны исходные данные.

Поэтому  на  этапе  планирования  сбора  данных 

необходимо: 

1)  четко  определять  условия,  в  которых  требуется, 

чтобы модель работала, и согласовывать их с за-

казчиком; 

Рис

. 1. 

Исходный

 

набор

 

данных

 

по

 

фотоэлектрическим

 

станциям

Рис

. 2. 

Точность

 

на

 

всей

 

системе

 

фотоэлектрических

 

станций

Географическая широта

12

11

10

9

8

7

6

5

4

3

2

1

44

A

G

B

H

I

J

K

Ложь

Истина

C

E

D

F

46

48

50

52

М

есяц

Географическая широта

12

11

10

9

8

7

6

5

4

3

2

1

44

A

G

B

H

I

J

K

  66
  72

C

E

D

F

46

48

50

52

М

есяц

  78
  84

  Ложь

×

  Истина

R2

В наборе 

данных

  90

ЭНЕРГОСНАБЖЕНИЕ







Page 7


background image

51

2)  собирать  данные  так,  что-

бы  в  выборке  были  пред-

ставлены  все  требуемые 

условия в достаточном для 

обучения  и  тестирования 

объеме и качестве; 

3)  понимать, что должны быть 

представлены  не  только 

все  условия,  но  и  комби-

нации условий в случае их 

взаимного влияния.

В  рассмотренном  при-

мере  следовало  бы  начать 

со  сбора  данных  за  все  ме-

сяцы  и  несколько  лет  одной 

фотоэлектрической  станции, 

и  только  после  успешной 

проверки работоспособности 

модели после ее внедрения и начала эксплуатации 

переходить  к  масштабированию  модели  (адапта-

ции, дообучению, повторному обучению с нуля или 

даже  построению  совершенно  новой  модели)  для 

других станций.

Ошибка

 

на

 

этапе

 

предобработки

 

данных

.

 От-

сутствие  удаления  выбросов  (искажений  данных). 

В предыдущей главе данной работы авторы описыва-

ли важность процесса предобработки данных. Ниже 

рассмотрен  пример  обучения  регрессионной  моде-

ли,  прогнозирующей  генерацию  фотоэлектрических 

станций.  На  рисунке  3  показан  фрагмент  графика 

генерации  до  предобработки  (содержит  искажения, 

выделенные  кружками)  и  после  (искажения  удале-

ны).  В  общем  случае  ошибки  в  данных  могут  быть 

связаны с искажениями при измерениях и передаче 

даных, ошибками в программном коде конвертации 

и записи показаний измерительного прибора в файл, 

опечатками, которые сделаны из-за ручного копиро-

вания данных. Искажения, показанные на рисунке 3, 

внесены в данные намеренно вручную для форми-

рования данного примера. 

При  обучении  модель  будет  стремиться  найти 

в исходных данных (график выработки, дата и вре-

мя, метеорологические данные: температура, облач-

ность, влажность, скорость ветра) зависимости. При 

этом искажения в данных могут искажать истинные 

зависимости  и  даже  приво-

дить  к  обнаружению  ложных. 

Если  применяются  средства 

для  борьбы  с  переобучени-

ем,  то  можно  избежать  фор-

мирования  моделью  ложных 

зависимостей,  тем  не  менее 

искажения  снизят  точность, 

так  как  они  исказят  значения 

функции потерь при обучении 

и таким образом ухудшат схо-

димость процесса обучения.

В  случае  формирования 

ложных зависимостей модель 

в  отдельные  часы  эксплуа-

тации  может  давать  прогноз 

с  большими  ошибками,  как 

показано на рисунке 4. При этом такие ошибки будут 

для пользователя свидетельствами того, что в моде-

ли заложены неадекватные правила, что существен-

но снизит доверие к модели, которая и так является 

черным  ящиком  из-за  применения  алгоритмов  ма-

шинного обучения.

На рисунке 4: зеленая линия — настоящее значе-

ние генерации СЭС; коричневая — прогноз, получен-

ный моделью, обученной на данных с исправлением 

больших  искажений;  оранжевая  —  прогноз,  полу-

ченный моделью, обученной на данных с большими 

искажениями.  Полупрозрачные  области  показывают 

доверительный  интервал.  Ошибки  из-за  отсутствия 

предобработки  исходных  данных,  как  правило,  сни-

жают значения показателей точности, следовательно, 

расширяют доверительный интервал.

Чтобы  избежать  описанных  негативных  эффек-

тов, необходимо: 

1)  до  начала  обучения  модели  выполнить  анализ 

данных с использованием статистических методов 

обнаружения выбросов и экспертного анализа ре-

зультатов визуализации данных; 

2)  на  этапе  оценки  модели  проводить  отдельный 

анализ  больших  ошибок  на  валидационной  вы-

борке, поскольку такие ошибки могут быть связа-

ны с искажениями входных данных или искажени-

ями разметки данных (ground truth).

Рис

. 3. 

График

 

генерации

 

ФЭС

 

с

 

искажениями

 

и

 

после

 

их

 

удаления

Время, ч

8000

7000

6000

5000

4000

3000

2000

1000

0

0

20

40

60

80

М

ощность, кВ

т

Качество данных:   

  с большими искажениями;    

  отфильтрованные

Рис

. 4. 

Результаты

 

моделей

обученных

 

на

 

данных

 

с

 

искажениями

 

и

 

на

 

фильтро

ванных

 

данных

Время, ч

8000

6000

4000

2000

0

0

20

40

60

80

М

ощность, кВ

т

 3 (66) 2021







Page 8


background image

52

Ошибка

 

выбора

 

непод

ходящего

 

показателя

 

каче

ства

.

  От  выбора  показателя 

точности модели зависят и то, 

как  будет  проходить  процесс 

ее обучения, и формирование