36
энергоснабжение
Повышение эффективности
почасового прогнозирования
электропотребления с помощью
моделей машинного обучения
на примере Иркутской
энергосистемы. Часть 2
*
УДК 621.311:004.855
Томин Н.В.,
к.т.н., старший научный сотрудник,
заведующий лабораторией управления
функционированием электроэнергетических
систем ИСЭМ СО РАН
Корнилов В.Н.,
заместитель главного диспетчера по режиму
филиала АО «СО ЕЭС» — Иркутское РДУ
Курбацкий В.Г.,
д.т.н., профессор, главный научный сотрудник
ИСЭМ СО РАН
Ключевые слова:
прогнозирование, электропотребление,
электроэнергетическая система, машинное
обучение, глубокие рекуррентные нейросети
Решение задачи почасового прогнозирования электропотребления (ЭП) зна
-
чительно усложняется при постоянном действии различных «нерегулярных»
эффектов (метеофакторы, тяговая нагрузка, праздники, плохие данные и пр.),
влияние которых в региональных диспетчерских управлениях (филиалах
АО «СО ЕЭС») пытаются нивелировать фактически в ручном режиме, полага
-
ясь на эмпирический опыт сотрудников. Такой подход часто приводит к уве
-
личению ошибок суточного прогноза ЭП и, как следствие, дополнительным
издержкам для АО «СО ЕЭС». В статье предлагается методология повышения
эффективности почасового прогноза ЭП на базе моделей машинного обуче
-
ния, позволяющая автоматизировать задачу коррекции моделей и повысить
точность прогноза, прежде всего в условиях действия «нерегулярных» эффек
-
тов. Эффек тивность предложенного подхода продемонстрирована на примере
реальных данных района Восточных электрических сетей Иркутской ЭЭС. Ре
-
зультаты прогноза на базе моделей машинного обучения сравниваются с дан
-
ными корпоративного программного обеспечения, используемого АО «СО ЕЭС».
В
первой части данной статьи [1] была рас-
смотрена постановка задачи почасового
электропотребления (ЭП) на основе опыта
филиалов АО «СО ЕЭС» региональными
диспетчерскими управлениями (РДУ) с применени-
ем корпоративного программного обеспечения «Про-
граммное обеспечение иерархической системы про-
гнозирования ЭП для планирования режимов ЕЭС»
(ПО ИСП), разработанной ООО «Энергостат» [2, 3].
Были выделены основные проблемы при решении
данной задачи, прежде всего связанные c влиянием
постоянно действующих «нерегулярных» эффектов
(метеофакторы, тяговая нагрузка, праздники, плохие
данные и пр.), которые часто корректируются диспет-
черским центром в ПО ИСП в «ручном режиме». Так-
же был проведен всесторонний аналитический обзор
современных методов краткосрочного прогнозирова-
ния электропотребления (КПЭП). По результатам об-
зора было показано, что эффективным решением при
автоматизации и повышении точности прогноза КПЭП
могут быть модели на основе алгоритмов машинного
обучения, прежде всего градиентного бустинга и глу-
боких нейросетей с долгой краткосрочной памятью
(англ. Long Short-Term Memory, LSTM).
* Часть 1 —
в журнале «ЭЛЕКТРОЭНЕРГИЯ.
Передача и распределение»
№ 6(69), 2021.
37
обработки данных, блок выбора эталонной модели
классического машинного обучения и блок обуче-
ния и тестирования LSTM. Вследствие того, что
цель нашего исследования — это повышение эф-
фективности решения задачи КПЭП, мы также вво-
дим в эту схему модель прогнозирования на осно-
ве корпоративного ПО ИСП, широко используемой
в настоящий момент всеми РДУ «СО ЕЭС». Други-
ми словами, цель работы заключается в разработ-
ке такой модели (моделей) машинного обучения,
которая бы обеспечивала более высокую степень
автоматизации и точность прогноза по сравнению
с моделью ПО ИСП.
1. Краткая характеристика
этапов методологии
Первый этап обработки начинается с объедине-
ния данных о потреблении электроэнергии с погод-
ными данными и временными лагами, а также дру-
Рис. 1. Общая диаграмма исследования моделей машинного обучения для КПЭП по данным Иркутского РДУ
Во второй части статьи авторы предлагают ме-
тодологию повышения эффективности КПЭП при
наличии постоянно действующих нерегулярных эф-
фектов на основе процедуры бенчмаркинга, которая
позволяет выбирать и настраивать эффективные
модели машинного обучения для конкретных усло-
вий решения задачи КПЭП.
МЕТОДОЛОГИЯ ПОЧАСОВОГО
ПРОГНОЗИРОВАНИЯ
ЭЛЕКТРОПОТРЕБЛЕНИЯ НА БАЗЕ
МАШИННОГО ОБУЧЕНИЯ
В этом разделе описан предлагаемый методологи-
ческий процесс для исследования эффективности
моделей машинного обучения в задаче КПЭП, ко-
торый структурно может быть представлен в виде
блок-схемы (рисунок 1). Этот процесс можно рас-
сматривать как структуру из трех блоков обработ-
ки, а именно: блок подготовки и предварительной
№ 1 (70) 2022
38
ЭНЕРГОСНАБЖЕНИЕ
гими возможными зависимыми параметрами (день
недели, маркер праздников и пр.). Затем выполняет-
ся предварительная обработка данных для провер-
ки нулевых значений и выбросов, масштабирования
данных до заданного диапазона и разделения дан-
ных временного ряда на обучающие и тестовые под-
множества, сохраняя при этом временной порядок.
Этот шаг направлен на подготовку и очистку данных
для дальнейшего анализа.
На втором этапе обработки в рамках предло-
женного процесса посредством процедуры кросс-
валидации выбирается эталонная модель про-
гнозирования из классических моделей, которые
себя хорошо зарекомендовали в задаче КПЭП.
На основе проведенного обзора последних иссле-
дований это модели многослойного персептрона,
машины опорных векторов, градиентного бустин-
га (XGBoost, LightGBM, CatBoost), случайного леса
(Random Forest), экстра деревьев (Extra Trees). Ос-
новным критерием выбора эталонной модели явля-
ются лучшая автоматизация и точность КПЭП как
по сравнению с моделями машинного обучения, так
и с ПО ИСП.
На третьем этапе выполняемого процесса тести-
руется несколько моделей LSTM с различными кон-
фигурациями моделей, такими как количество слоев,
количество нейронов в каждом слое, эпох обучения,
типа оптимизатора и т.д. Модели LSTM также срав-
ниваются с эталонной моделью, полученной на вто-
ром этапе, по критерию автоматизации и точности
прогноза ЭП.
2. Подготовка и предварительная
обработка данных
На втором и третьем этапах задача КПЭП реша-
ется в разных постановках. В первом случае решает-
ся задача восстановления регрессии, то есть когда
прогнозируемая переменная зависит от нескольких
независимых переменных, природа которых может
быть различна. В нашем случае прогнозируемая пе-
ременная — это будущее ЭП, а независимые пере-
менные — временные лаги ЭП, температура, день
недели и индикатор праздничного дня. На третьем же
этапе при обучении и тестировании моделей LSTM
выполняется прогнозирование временного ряда,
схожее с классическими методами Бокса-Дженкин-
са, когда независимые переменные не используют-
ся. Прогнозирование будущих значений опирается
только на историю предыдущих значений временно-
го ряда, то есть только на данные ЭП.
Предварительная обработка данных — крайне
важный шаг для повышения производительности
и точности машинного обучения, а также моделей
на основе глубокого обучения. Данные разделя-
ются на обучающий и тестовый наборы. Тестовые
данные используются для оценки точности предло-
женной модели прогнозирования и не применяются
на этапе обучения. Стандартная практика для раз-
деления данных выполняется с использованием
соотношений 80/20 или 70/30 для моделей машин-
ного обучения. Последние 30 процентов набора
данных не используются для обучения, в то время
как модель обучается на оставшихся 70 процентах
данных.
3. Выбор эталонной модели
машинного обучения
Бенчмаркинг (эталонное оценивание, англ. bench-
marking) — это сопоставительный анализ на основе
эталонных показателей различных методологий, на-
пример, моделей прогнозирования [4]. В представ-
ленной статье в качестве выбранных нами моделей
машинного обучения использовались: многослойный
персептрон, машина опорных векторов, градиентный
бустинг (XGBoost, LightGBM, CatBoost), случайный
лес, экстра деревья. В качестве входных параметров
для этих моделей применялся полный набор функ-
ций, включающий временные лаги ЭП, температуру
и переменные, связанные с характеристикой суток
(день недели, рабочий/выходной день, обычный/
праздничный день). Использование лагированных
переменных ЭП в регрессионной модели позволя-
ет привлекать различные объемы ретроспективных
данных в модели прогнозирования.
4. Повышение эффективности
бенчмаркинга с помощью отбора признаков
и настройки гиперпараметров
При построении модели машинного обучения не
всегда понятно, какие из признаков действитель-
но для нее важны (то есть имеют связь с целевой
переменной), а какие являются избыточными (или
шумовыми). Удаление избыточных признаков позво-
ляет лучше понять данные, а также сократить время
настройки модели, улучшить ее точность и облег-
чить интерпретируемость. Для решения этой задачи
в работе использовались два метода отбора призна-
ков: встроенные методы (англ. embedded methods)
и обертки (англ. wrapper methods). В методе обертки
важность функции оценивается с использованием
алгоритма обучения, в то время как во встроенных
методах алгоритм обучения выполняет также выбор
функции, в которой тип функции и пространство вы-
бора параметров ищутся одновременно. Для иссле-
дуемых моделей машинного обучения эти методы
позволят идентифицировать как линейные, так и не-
линейные отношения между функциями и, таким об-
разом, установить как релевантные, так и избыточ-
ные функции.
Дополнительное использование метода кросс-
валидации позволяет выполнить глубокий поиск
оптимальной конфигурации гиперпараметров эта-
лонной модели машинного обучения по заданным
критериям такого поиска.
5. Метрики для оценки
эффективности модели
Обычно используемые метрики для оценки
точности прогнозов — это среднеквадратичная
ошибка (англ. root mean square error, RMSE), сред-
няя абсолютная ошибка (англ. mean absolute error,
MAE) и средняя относительная ошибка (англ. mean
39
absolute percentage error, MAPE). MAE и MAPE —
обычно используемые показатели, представляю-
щие собой средние значения суммы абсолютных
разностей между фактическими и прогнозируе-
мыми значениями в абсолютных (например, в кВт)
или относительных (%) значениях соответственно.
RMSE — в свою очередь, эффективный показатель
того, насколько модель хорошо «попадает» в пико-
вые значения.
ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ
В нашем исследовании используется набор данных
энергопотребления Иркутского РДУ СО ЕЭС, кото-
рый дает нам уникальную возможность спрогнозиро-
вать следующее почасовое ЭП в МВт, содержащее
данные за один год по Иркутской энергосистеме.
Профиль ЭП за 2018 год, как показано на рисунке 2,
следует циклическим и сезонным моделям, которые
могут быть связаны с человеческой, промышленной
и коммерческой деятельностью.
Стоит подчеркнуть, что для исследования вы-
бран характерный район, не содержащий крупных
промышленных потребителей — район Восточных
электрических сетей Иркутской ЭЭС. Основной объ-
ем ЭП — это быто-
вая и мелкомотор-
ная нагрузка. Одна
из особенностей за-
ключается в том,
что в этом районе
как в близком при-
городе г. Иркутска
в последние годы
ведется
активная
жилая малоэтажная
застройка с преиму-
щественно электри-
ческим отоплением.
Следствием этого
является высокая
зависимость ЭП рай-
она от температуры
окружающего воз-
духа с низкой инер-
ционностью
это-
го процесса, что подтверждается корреляционной
мат рицей электропотребления (рисунок 3). Темный
квадрат в данном случае означает безусловную об-
ратную зависимость величин (чем больше одна ве-
личина, тем меньше другая, и наоборот), белый —
прямую.
Для проведения исследований разработано
программное обеспечение в среде Python c привле-
чением открытых библиотек машинного обучения
Scikit-Learn, Keras и TensorFlow. Все модели исполь-
зовали RMSE в качестве функции потерь, которую
необходимо минимизировать. Все обучен ные моде-
ли оценивались на одном и том же наборе тестов,
а производительность измерялась с помощью на-
ших оценочных показателей. Результаты бенчмар-
кинга по основным метрикам визуализированы на
рисунках 4 и 5, где также отражены результаты про-
гноза от ПО ИСП, известные априори по данным
Иркутского РДУ СО «ЕЭС».
Как явствует из рисунков 4 и 5, в качестве эта-
лонных моделей могут быть выбраны модели Extra
Trees и CatBoost. Поэтому на следующем этапе
был проведен анализ важных признаков с после-
дующей процедурой кросс-валидации для поиска
Рис. 2. Почасовое ЭП района Восточных электрических сетей Иркутской области
Рис. 3. Корреляционная матрица (T_1, T_2 … — временные лаги ЭП)
№ 1 (70) 2022
40
ЭНЕРГОСНАБЖЕНИЕ
оптимальных гиперпа-
раметров этих моделей
в задаче почасового про-
гнозирования ЭП.
На рисунке 6 приве-
дена относительная важ-
ность каждого входного
параметра. Видно, что
наиболее важными для
решения поставленной
задачи являются отдель-
ные временные лаги, та-
кие как T_24, T_23, T_12,
T_48, T_22. Это означа-
ет, что наибольший вес
для прогнозной модели
имеют ЭП примерно за
12, 24 и 48 часов до про-
гнозируемого часа. В то
же время температу-
ра имеет минимальную
важность для эталонных
моделей, несмотря на то
что определена высокая
корреляционная
связь
этого параметра с ЭП.
Последнее подтвержда-
ется и другими работа-
ми, например, при поча-
совом прогнозировании
ЭП в энергосистеме
Франции по данным сис-
темного оператора RTE,
где также тестировались
модели машинного обу-
чения [5].
Рис. 4. Результат процедуры бенчмаркинга моделей машинного обучения для прогнозирования ЭП на 24 часа вперед
Рис. 5. Сравнение эффективности моделей машинного обучения с моделью ПО
ИСП (Energostat) по критериям ошибок MAPE и RMSE
Рис. 6. График анализа важности входных параметров для эталонных моделей Extra
Trees и CatBoost в задаче почасового прогноза ЭП на 24 часа вперед
41
В таблице 1 представлены по-
казатели эффективности эталон-
ных моделей, полученных при
найденных оптимальных гипер-
параметрах, а также модели ПО
ИСП. Хорошо видно, что модель
CatBoost позволяет получить бо-
лее низкие ошибки MAE и MAPE
по сравнению с моделью ПО ИСП.
Для визуализации эффективности
прогноза ЭП на базе CatBoost на
рисунке 7 представлена гисто-
грамма, где ось X — различные
значения ЭП на тестовом интерва-
ле, а ось Y — частота появления
этих значений в данный период.
Ввиду того что для моделей
машинного обучения фактически
значимыми являются только пре-
дыдущие значения ЭП, для про-
гнозирования были протестиро-
ваны модели глубоких нейросетей
LSTM. В этом случае исходная вы-
борка включала только почасовые
значения ЭП района Восточных
электрических сетей за 2018 год.
Данная выборка была разделена
на обучающие и тестовые наборы
с использованием соотношения
70% и 30% соответственно.
В процессе автоматической
настройки модели LSTM наи-
лучшие результаты прогноза ЭП
были получены при использо-
вании шести скрытых слоев, со-
держащих 100, 60 и 50 нейронов.
Количество использованных эпох
обучения составляло 150 при раз-
мере партии 125 обучающих при-
Табл. 1. Результаты глубокой настройки
лучших моделей соревнования в результате кросс-валидации
Метрика
Extra Trees
CatBoost
ПО ИСП
до
настройки
после
настройки
до
настройки
после
настройки
MAE, МВт
6,50
6,48
6,55
6,00
6,33
RMSE, %
9,75
9,51
9,02
8,39
8,33
MAPE, %
4,01
3,77
4,22
3,55
3,80
Рис. 7. Сравнение эффективности модели CatBoost с моделью Энергостата
На прав
ах рек
ламы
№ 1 (70) 2022
42
ЭНЕРГОСНАБЖЕНИЕ
меров. Для нашей задачи функ-
ция активации типа линейный
выпрямитель (англ. rectified linear
unit, ReLU) «сработала» лучше
всего и поэтому использовалась
как функция активации для каж-
дого из скрытых слоев. Среди оп-
тимизаторов адаптивная оценка
момента (англ. adaptive moment
estimation, ADAM) показала луч-
шие результаты и обеспечила бо-
лее быструю сходимость, чем тра-
диционный стохастический гра-
диентный спуск.
Результаты прогноза ЭП на
24 часа вперед на базе LSTM
сравнивались с моделью ПО ИСП
для тестового месячного интер-
вала (рисунок 8, таблица 2). Хо-
рошо видно, что модель LSTM по
основной метрике MAPE позво-
ляет практически вдвое уточнить
краткосрочный прогноз. Из рисун-
ка хорошо видно, что нейросети
LSTM значительно лучше «попа-
дают» в пиковые значения ЭП, не-
жели модели ПО ИСП.
ВЫВОДЫ
1. Предложена методология повышения эффек-
тивности КПЭП при наличии постоянно действу-
ющих нерегулярных эффектов (метеофакторы,
тяговая нагрузка, праздничные дни, «плохие»
данные и пр.)
2. Для повышения эффективности КПЭП разра-
ботан подход и соответствующее ПО в среде
Python на основе современных моделей ма-
шинного обучения, в том числе моделей гради-
ентного бустинга (XGBoost, LightGBM, CatBoost)
и рекуррентных нейросетей типа LSTM. Основ-
ным инструментом предложенного подхода яв-
ляется процедура бенчмаркинга, позволяющая
выполнить сопоставительный анализ на основе
эталонных показателей различных моделей про-
гнозирования.
3. Результаты экспериментальных исследований
по данным филиала АО «СО ЕЭС» — Иркутское
РДУ показали, что применение предложенного
подхода для района Восточных электрических
сетей Иркутской области обеспечивает повыше-
ние точности прогноза почасового ЭП на сутки
вперед по сравнению с корпоративным ПО ИСП.
При этом модель рекуррентной нейросети LSTM
позволяет практически вдвое снизить среднюю
относительную ошибку MAPE по сравнению
c результатом ПО ИСП.
ЛИТЕРАТУРА / REFERENCES
1. Томин Н.В., Корнилов В.Н., Кур-
бацкий В.Г. Повышение эффектив-
ности почасового прогнозирования
электропотребления с помощью
моделей машинного обучения на
примере Иркутской энергосисте-
мы. Часть 1 // ЭЛЕКТРОЭНЕР-
ГИЯ. Передача и распределение,
2021, № 6(69). С. 44–50.
Tomin N.V., Kornilov V.N., Kur bat-
sky V.G. Increasing the efficiency
of hourly load forecasting using
machine learning techniques on the
example of the Irkutsk energy state
system. Part 1 //
ELEKTROENER
-
GIYA. Peredacha i raspredeleniye
[ELECTRIC POWER. Transmission
and Distribution], 2021, no. 6(69),
pp. 44-50. (In Russian)
2. Макоклюев Б.И. Особенности
и тенденции потребления электро-
энергии в энергосистемах России
// Энергия Единой Сети, 2017,
№ 5(34). С. 64–76.
Makoklyuev B.I. Peculiarities and
trends of power consumption in Rus-
sian power systems //
Energiya Yedi
-
noy Seti
[Unified Grid Energy], 2017,
no. 5(34), pp. 64-76. (In Russian)
3. Макоклюев Б.И. Анализ и плани-
рование электропотребления. М.:
Энергоатомиздат, 2008. 296 с.
Makoklyuev B.I. Power consumption
study and planning. Moscow,
Energoatomizdat Publ., 2008. 296 p.
(In Russian)
4. Marino D.L., Amarasinghe K., Ma-
nic M. Building energy load fore-
casting using Deep Neural Net-
works. In Proceedings of the
IECON 42nd Annual Conference of
the IEEE Industrial Electronics So-
ciety, Florence, Italy, 23-26 October
2016, pp. 7046-7051.
5. Bouktif S., Fiaz A., Ouni A., Serha-
ni M.A. Optimal Deep Learning
LSTM Model for Electric Load Fore-
casting using Feature Selection and
Genetic Algorithm: Comparison with
Machine Learning Approaches. En-
ergies, 2018, vol. 11, p. 1636.
Табл. 2. Результаты сравнения прогнозов ЭП моделей LSTM и ПО ИСП
Метрика
Модель
Метрика
Модель
LSTM
ПО ИСП
LSTM
ПО ИСП
MAE, МВт
3,87
6,81
MAPE, %
1,44
2,51
RMSE
2,27
2,93
R
2
*
0,995
0,989
* Коэффициент детерминации R
2
изменяется от 0 до 1, чем ближе значение коэффи
-
циента к 1, тем сильнее зависимость. Для прогнозных моделей это интерпретиру
-
ется как соответствие модели данным, то есть чем ближе к 1, тем лучше прогноз.
Рис. 8. Прогноз электропотребления для тестового периода на базе
обучен ной модели нейросети LSTM и модели ПО ИСП (Энергостат)
Оригинал статьи: Повышение эффективности почасового прогнозирования электропотребления с помощью моделей машинного обучения на примере Иркутской энергосистемы. Часть 2
Решение задачи почасового прогнозирования электропотребления (ЭП) значительно усложняется при постоянном действии различных «нерегулярных» эффектов (метеофакторы, тяговая нагрузка, праздники, плохие данные и пр.), влияние которых в региональных диспетчерских управлениях (филиалах АО «СО ЕЭС») пытаются нивелировать фактически в ручном режиме, полагаясь на эмпирический опыт сотрудников. Такой подход часто приводит к увеличению ошибок суточного прогноза ЭП и, как следствие, дополнительным издержкам для АО «СО ЕЭС». В статье предлагается методология повышения эффективности почасового прогноза ЭП на базе моделей машинного обучения, позволяющая автоматизировать задачу коррекции моделей и повысить точность прогноза, прежде всего в условиях действия «нерегулярных» эффектов. Эффективность предложенного подхода продемонстрирована на примере реальных данных района Восточных электрических сетей Иркутской ЭЭС. Результаты прогноза на базе моделей машинного обучения сравниваются с данными корпоративного программного обеспечения, используемого АО «СО ЕЭС».