136
диагностика и мониторинг
Применение методов
машинного обучения для
идентификации технического
состояния маслонаполненных
измерительных трансформаторов
УДК 621.314.22.08:004.855
Хальясмаа
А
.
И
.,
к.т.н., доцент кафедры
«Электрические
станции» ФГБОУ ВО
«Новосибирский
государственный
технический
университет»
Ключевые
слова
:
трансформатор тока,
оценка технического
состояния, обработка
данных, машинное
обуче ние, распознава-
ние образов
Статья
посвящена
проблеме
оценки
фактического
состояния
маслонаполнен
-
ных
измерительных
трансформаторов
тока
как
одного
из
видов
вспомогатель
-
ного
высоковольтного
оборудования
распределительных
устройств
станций
и
подстанций
,
для
которых
характерно
отсутствие
систем
мониторинга
и
,
как
следствие
,
высокая
неопределенность
при
идентификации
технического
состо
-
яния
.
Автором
статьи
реализована
пошаговая
процедура
обработки
исходных
данных
,
включающая
в
себя
подбор
и
преобразование
отдельных
признаков
и
классов
состояний
,
восстановление
пропусков
в
исходных
данных
,
анализ
коллинеарности
признаков
и
направленная
на
повышение
точности
иденти
-
фикации
состояния
оборудования
.
Задача
распознавания
классов
состояний
трансформаторов
тока
решена
с
использованием
алгоритмов
случайного
леса
и
градиентного
бустинга
над
деревьями
решений
.
Апробация
разработанной
системы
выполнена
на
основе
базы
данных
парка
оборудования
региональной
сетевой
компании
,
что
позволило
получить
решение
эксплуатационной
за
-
дачи
—
формирование
ранжированных
списков
оборудования
для
включения
в
программу
ремонтов
и
обслуживания
.
СОВРЕМЕННЫЕ
ПОДХОДЫ
К
АНАЛИЗУ
ТЕХНИЧЕСКОГО
СОСТОЯНИЯ
ВЫСОКОВОЛЬТНОГО
ОБОРУДОВАНИЯ
Современные системы мониторинга и диагностики состояния высоко-
вольтного электроэнергетического оборудования позволяют анализиро-
вать состояние их различных видов и элементов при помощи различных
методов неразрушающего контроля, среди которых можно выделить ос-
новные следующие:
1) анализ состояния маслонаполненных силовых и измерительных транс-
форматоров чаще всего реализуется с помощью физико-химического
анализа трансформаторного масла и хроматографического анализа
газов, растворенных в масле, с помощью инфракрасной термографии
[1] или методов анализа частичных разрядов в изоляции [2];
2) анализ состояния кабельных линий реализуется с использованием
распределенных датчиков температуры (анализ износа изоляции
и загрузки кабелей) [3], контроля токов в экранах и оболочках кабелей
[4] и мониторинга частичных разрядов в изоляции с помощью специ-
альных сенсоров [5];
3) для анализа состояния воздушных линий электропередачи применя-
ется контроль загрязненности изоляции [6, 7] и контроль обледенения
проводов линий [8–10];
4) методы диагностики вращающихся электрических машин направле-
ны на выявление вибраций статора [11, 12], анализа напряженности
магнитного поля в воздушном зазоре и выявление частичных разря-
дов и замыканий в обмотках [12–14] и др.
Сегодня для реализации вышеописанных систем производители
электротехнического оборудования и энергокомпании разрабатыва-
ют специализированное программное обеспечение (ПО), различное по
структуре, принципам реализации, математическим подходам, назначе-
нию и т.д. [15–16].
137
Некоторое ПО, предлагаемое крупными коммер-
ческими компаниями [15–16], использует постоянный
контроль значений параметров режима работы вы-
соковольтного оборудования не только для анализа
его работы, но и для прогнозирования его жизненного
цикла. Например, ABB реализует этот подход с помо-
щью анализа рисков в соответствии с теорией надеж-
ности энергосистем, оперируя вероятностными рас-
пределениями отказов элементов систем.
Некоторые исследователи (как, например, в рабо-
те [17]) предлагают взамен устанавливаемого ПО для
анализа состояния оборудования использовать бра-
узерный продукт, доступ к которому может осущест-
вляться удаленно со всех доступных устройств, как
на обычный интернет-сайт: данные из системы мони-
торинга загружаются пользователем на сервер и на
основании ретроспективных данных об эксплуатации
элемента системы определяется индекс исправности
оборудования.
В любом случае, как бы ни была выполнена про-
граммная реализация (в виде привычных программ-
ных пакетов или браузерных продуктов), работа сис-
тем мониторинга и диагностики высоковольтного
электроэнергетического оборудования электриче-
ских станций и подстанций во многом зависит от ма-
тематических методов обработки и анализа данных.
Большинство современных систем по-прежнему
используют классические математические подходы
на основе продукционных правил, методов статисти-
ческого анализа и т.д., но не всегда такие подходы
являются эффективными. Онлайн-мониторинг состо-
яния высоковольтного оборудования сегодня по праву
можно отнести к так называемым системам с Big Data,
так как число анализируемых параметров и их объ-
емы уже сложно интерпретировать классическими
методами не только с точки зрения самих алгоритмов,
но и с точки зрения вычислительных мощностей, кото-
рые требуются при классических подходах.
Все вышесказанное заставило разработчиков со-
временных систем мониторинга и диагностики состо-
яния оборудования искать новые методы и подходы
к анализу состояния электроэнергетического обору-
дования, в результате чего и возникло целое направ-
ление применения методов машинного обучения для
решения задач анализа технического состояния обо-
рудования.
АНАЛИЗ
ТЕХНИЧЕСКОГО
СОСТОЯНИЯ
ТРАНСФОРМАТОРОВ
ТОКА
Необходимость
анализа
технического
состояния
оборудования
.
Одним из ключевых требований к со-
временным энергосистемам является наблюдае-
мость, которая отражает свойство объекта электро-
энергетики, показывающее насколько получаемый
от него объем телеметрической информации соот-
ветствует требованиям процессов управления энер-
госистемой. Для обеспечения наблюдаемости широ-
кое применение нашли системы оценки состояния,
то есть расчеты установившегося режима на основе
ограниченной телеметрической информации, посту-
пающей с объектов электроэнергетики.
Основным оборудованием, обеспечивающим на-
блюдаемость на объекте электроэнергетики, являют-
ся измерительные трансформаторы — трансформа-
торы тока (ТТ) и напряжения (ТН). Данные устройства
также используются для целей коммерческого учета
электроэнергии, релейной защиты и противоаварий-
ной автоматики.
Особая важность измерительных трансформато-
ров связана с применением информации от данных
устройств в системах противоаварийной и режимной
автоматики, в частности, для автоматики предотвра-
щения перегрузки оборудования (АОПО), где превы-
шение значения допустимого тока по защищаемому
элементу является пусковым органом для примене-
ния управляющих воздействий на отключение ге-
нерации или нагрузки. Поэтому техническая неис-
правность измерительных трансформаторов может
привести к потере противоаварийного управления
или перерегулированию.
Таким образом, техническое состояние изме-
рительных трансформаторов напрямую влияет на
устойчивость и надежность энергосистемы в целом.
Кроме того, их технические повреждения могут при-
водить к каскадным авариям, в результате которых
возможны многочасовые ограничения потребления,
а также сложные восстановительные работы.
Для энергокомпаний и собственников электри-
ческих станций и подстанций единство процесса
производства и передачи электрической энергии
(технологическая связь) вызывает необходимость
в обеспечении надежности и регулировании техно-
логических факторов в равной степени для каждой
единицы оборудования на энергообъекте, поэтому
состояние измерительных трансформаторов (как ча-
сти этой системы) также анализируется в рамках про-
грамм технического обслуживания и ремонтов (ТОиР)
оборудования. В свою очередь, именно программа
ТОиР является основной для корпоративной системы
управления производственными активами и форми-
рования инвестиционных программ энергокомпаний.
Все вышесказанное делает задачу анализа тех-
нического состояния трансформаторов тока и напря-
жения для сетевых компаний не менее важной, чем
любого другого высоковольтного оборудования на
энергообъекте.
Применение
методов
машинного
обучения
.
Ав-
тором статьи были проведены многочисленные ис-
следования, доказывающие эффективность приме-
нения методов машинного обучения для решения
представленных задач для крупных единиц обору-
дования, таких как, например, силовой трансфор-
матор и силовой выключатель. Особенности ана-
лиза состояния такого оборудования заключаются
в избыточности данных в связи с встроенными на
таких единицах оборудования большого числа сис-
тем мониторинга, ориентированных на сбор пара-
метров функционирования оборудования различной
физической природы. Наличие систем мониторинга
в сравнении с данными результатов технического
диагностирования (в рамках плановых ремонтов)
обеспечивает не только достаточный объем данных
для их анализа, но и значительно повышает их точ-
ность и полноту, а также минимизирует влияние че-
ловеческого фактора, а именно снижает количество
выбросов и пропусков в данных.
№
6 (63) 2020
138
Проблема анализа технического состояния изме-
рительных трансформаторов в отличие от анализа со-
стояния крупных единиц оборудования усложняется
отсутствием систем мониторинга на объектах данного
типа и в этих условиях является многокритериальной
задачей в условиях неопределенности, а значит и до-
биться требуемой точности в идентификации состоя-
ния такого оборудования кратно сложнее.
Основная цель данного исследования заклю-
чалась в поиске эффективного решения задачи
идентификации технического состояния маслона-
полненных измерительных трансформаторов (ТТ)
в условиях неопределенности и малого объема ис-
ходных данных.
РАСЧЕТНЫЙ
ПРИМЕР
Для подтверждения гипотезы об эффективности
применения методов машинного обучения для ана-
лиза технического состояния измерительных транс-
форматоров с целью решения многокритериальной
задачи в условиях неопределенности первоначаль-
но была разработана математическая модель адап-
тивной системы анализа технического состояния ТТ
и реализована на Pythone в командной оболочке
Jupiter Notebook, а также апробирована на реальных
данных крупного энергоузла Свердловской области.
Извлечение
признаков
.
Исходные данные для
анализа технического состояния масляных ТТ в дан-
ном случае — это результаты технического диа-
гностирования оборудования крупного энергоузла
Свердловской области на основе различных методов
неразрушающего контроля, реализованных в соот-
ветствии с установленной нормативной документа-
цией и выполненные как в соответствии с плановым
обслуживанием оборудования, так и в случаях вне-
плановых работ, необходимых по фактическому со-
стоянию оборудования.
Сбор данных для анализа ТТ осуществлялся
вручную на основе протоколов диагностики и осмот-
ров оборудования, а также анализа паспортных дан-
ных оборудования. По результатам сбора данных
была сформирована исходная база данных, включа-
ющая в себя перечень параметров, представленных
в таблице 1.
ДИАГНОСТИКА
И МОНИТОРИНГ
Табл. 1. Извлечение признаков для анализа состояния трансформатора тока
Параметр
Описание
target
Состояние оборудования (экспертная оценка) сгруппировано в два класса (0 — неудов-
летворительное, неисправное; 1 — удовлетворительное, хорошее)
year
Год выпуска. Пересчитывается возраст оборудования [
age
] = 2019 – [
year
]
I
conn
Номинальный ток присоединения, в котором установлен ТТ, А
H
2
,
CH
4
,
C
2
H
4
,
C
2
H
6
,
C
2
H
2
,
CO
2
,
CO
,
vH
2
,
vCH
4
,
vC
2
H
4
,
vC
2
H
6
Данные хроматографического анализа растворенных в масле газов: концентрации газов
и скорости их изменения
moist
Влагосодержание
U
breakdown
Напряжение пробоя
acidNr
Кислотное число
purity
Класс промышленной чистоты
T
flame
Температура вспышки в закрытом тигле
tg
Oil
90
Тангенс угла диэлектрических потерь трансформаторного масла при 90°С
R
main
20
Сопротивление основной изоляции, приведенное к 20°С
R
secondary
20
Сопротивление изоляции вторичных обмоток, приведенное к 20°С, минимальное
tg
Rmain
20
Тангенс угла диэлектрических потерь основной изоляции, приведенный к 20°С
rubber_age
Степень старения резиновых уплотнений (0 — норма, 1 — трещины, 2 — разрушены,
капельная течь масла)
porcelain
Наличие сколов фарфоровой покрышки (0 — нет сколов, 1 — незначительные сколы,
2 — недопустимые сколы)
no_leveling
Отсутствие уравнительного проводника между крышкой и оголовником (0 — наличие,
1 — отсутствие)
air_
fi
lter_malfunction
Неисправность воздухоосушительного фильтра (0 — норма, 1 — дефект)
low_oil
Низкий уровень масла по маслоуказателю (0 — норма, 1 — дефект)
outer_heating
Нагрев внешних КС, степень дефекта (0 — норма, 1 — начальная, 2 — развившийся,
3 — аварийный)
I
_thermal
Величина тока нагрузки при тепловизионном обследовании, А
T
max_outercont_thermal
Максимальная измеренная температура нагрева внешнего контактного соединения, °С
T
min_outercont_thermal
Минимальная измеренная температура внешнего контактного соединения других фаз, °С
T
air_thermal
Температура воздуха при тепловизионном обследовании, °С
139
Преобразование
признаков
.
Монотонное преоб-
разование признаков критично для одних алгоритмов
и не оказывает влияния на другие, поэтому в данном
случае было необходимо проанализировать распре-
деления значений признаков.
1.
Изменение
распределения
.
Первоначально
анализировались распределения значений призна-
ков с помощью box-and-whiskers diagram — графика,
использующегося в описательной статистике, ком-
пактно изображающего одномерное распределение
вероятностей. Данный формат позволяет отобра-
зить 25 (первый квартиль), 50 (медиана), 75 (третий
квартиль), 98 и 2 (границы статистически значимой
выборки) процентили на одном графике. Границами
ящика служат первый и третий квартили (25-й и 75-й
процентили соответственно), линия в середине ящи-
ка — медиана (50-й процентиль). Концы усов — края
статистически значимой выборки.
По полученным графикам можно оценить коэф-
фициент асимметрии распределения. Значительная
доля алгоритмов машинного обучения делает пред-
положение о нормальном распределении данных;
при наличии асимметрии распределения величины
рекомендуется изменить логарифмическим преоб-
разованием, поскольку на данных с искривленным
распределением возможно ухудшение предсказа-
тельных способностей алгоритма. На рисунке 1 при-
ведены примеры графиков распределения величин
признаков со сплошными величинами в исходных
данных.
Из рисунка 1 видно, например, что
CO
2
,
moist
,
tg
Rmain
20
имеют положительную асимметрию; сильно
положительно асимметричны распределения
tg
Oil
90
,
acidNr
,
R
secondary
20
,
C
2
H
4
,
CH
4
,
C
2
H
6
(также
H
2
,
CO
,
C
2
H
2
;
не указаны);
U
breakdown
слабо отрицательно симме-
трична. Признаки
moist
,
tg
Rmain
20
,
tg
Oil
90
,
I
conn
,
R
secondary
20
,
все признаки хроматографии имеют значительное
число выбросов за границами статистически значи-
мой выборки.
Для приведения к нулю асимметрии распределе-
ний и включения выбросов в границы статистически
значимой выборки было выполнено логарифмиче-
ское преобразование по формуле
log
10(
x
+ 0,0001)
для признаков хроматографии,
moist
,
acidNr
,
tg
Oil
90
,
R
main20
,
R
secondary
20
,
tg
Rmain20
. Результаты преобразования
представлены на рисунке 2. Для признаков хромато-
графии удалось только сократить число выбросов;
в то время как у признаков
moist
,
acidNr
,
tg
Oil
90
,
R
main20
,
R
secondary
20
,
tg
Rmain20
значительно сократилось число вы-
бросов и их распределения обрели менее асиммет-
ричный вид.
2.
Анализ
взаимодействия
признаков
.
Исходные
данные имеют значительное число пропусков и не
сбалансированы по классам. Распределение коли-
чества записей классов состояний оборудования,
взятых из диагностических заключений лаборато-
рий, приведено в таблице 2.
При малом объеме выборки, описывающей от-
дельный класс, обученный алгоритм не будет обла-
дать достаточной обобщающей способностью. Для
расширения выборки и упрощения задачи класси-
фикации было решено объединить классы попарно:
«непригодное» и «неудовлетворительное» в класс 0
(64 записи; 4,63% от всей выборки), «хорошее»
Табл. 2. Распределение по классам
Состояние
Соотношение
Число
записей
Непригодное
2,80%
37
Неудовлетворительное
2,05%
27
Удовлетворительное
67,80%
895
Хорошее
27,30%
360
Рис
. 1.
Графики
распределения
признаков
:
а
)
CO
2
;
б
)
moist
;
в
)
T
flame
;
г
)
I
conn
;
д
)
acidNr
;
е
)
R
secondary20
0
1000
2000
3000
0,00
0,05
0,10
0,15
0,20
0,0
0,1
0,2
0,3
0,4
0
20
40
60
15000
10000
5000
0
135
140
145
150
155
г)
а)
д)
б)
е)
в)
№
6 (63) 2020
140
Рис
. 2.
Графики
распределения
признаков
после
логарифмического
преобразования
:
а
)
H
2
;
б
)
CH
4
;
в
)
C
2
h
4
;
г
)
C
2
H
6
;
д
)
CO
;
е
)
CO
2
-4
-4
-4
-3
-3
-3
-2
-2
-2
-1
-1
-1
0
-4,0
-4,0
-3,5
-3,5
-3,0
-3,0
-2,5
-2,5
-1,5
-2,5
-2,0
-2,0
-1,0
-1,5
-2,0
г)
а)
д)
б)
е)
в)
ДИАГНОСТИКА
И МОНИТОРИНГ
и «удовлетворительное» в класс 1 (1255 записей;
95,37% от всей выборки).
С точки зрения диагностики состояния оборудо-
вания (физики процесса и природы данных) объеди-
нение этих классов достаточно обосновано, так как
в ходе анализа классовой принадлежности было вы-
явлено, что классы «непригодное» и «неудовлетво-
рительное», и «удовлетворительное» и «хорошее»
являются пересекающимися соответственно, а раз-
личия граничных значений параметров в первом слу-
чае наблюдается только у 8% параметров от общего
числа, а во втором — у 13% параметров.
Для дальнейшего сокращения неравномерности
распределения в ходе фильтрации данных под со-
кращение в приоритете будет попадать класс 1 как
наиболее представленный (полный) и удаление ча-
сти строк для класса 1 не ведет к потере большой
доли информации.
3.
Заполнение
пропусков
.
Для анализа пропусков
в данных и возможности восстановления данных
была проанализирована зависимость числа пропу-
сков от признака. Результаты представлена на ри-
сунке 3.
Из рисунка 3 видно, что наиболее заполненны-
ми являются признаки
rubber_age
,
porcelain
,
air_
fi
lter_
malfunction
,
low_oil
,
outer_heating
,
no_leveling
, причем
пропуски наблюдаются только у класса 1.
Пропуски были заполнены наиболее частыми
значениями, определенными с помощью функции
библиотеки pandas df.mode(). При этом для призна-
target
rubber_age
air_
fi
lter_malfunction
porcelain
low_oil
no_leveling
U
breakdown
R
main
20
I
conn
R
secondary
20
year
tg
Rmain
20
outer_heating
moist
T
air_thermal
acidNr
CO
2
CO
CH
4
C
2
H
4
T
flame
C
2
H
6
C
2
H
2
T
max_outercont_thermal
T
min_outercont_thermal
I
_thermal
tg
Oil
90
purity
vH
2
vC
2
H
2
vC
2
H
6
vCH
4
vC
2
H
4
1200
1000
800
600
400
200
0
Рис
. 3.
Распределение
пропусков
в
наборе
исходных
данных
target
air_
fi
lter_malfunction
no_leveling
porcelain
rubber_age
low_oil
U
breakdown
I
conn
R
main
20
R
secondary
20
tg
Rmain
20
acidNr
year
moist
T
flame
outer_heating
tg
Oil
90
CO
2
C
2
H
4
CH
4
H
2
CO
C
2
H
6
C
2
H
2
500
400
300
200
100
0
Рис
. 4.
Распределение
пропусков
в
наборе
исходных
дан
-
ных
после
преобразования
141
0
Возраст, лет
Вероятность, %
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
40
20
60
ка «Нагрев внешних КС» (
outer_heating
) было принято
решение не восстанавливать пропуски, так как от-
сутствие перегрева может быть характерно и для ис-
правного, и для неисправного ТТ.
Для признаков
U
breakdown
и
I
conn
пропуски за редкими
исключениями также принадлежат классу 1. Анализ
этих параметров показывает, что:
– значения для данных признаков заполнены более
чем на 50% и корреляции Спирмена с состоянием
ТТ для обоих признаков составляют 0,2 и –0,3,
это подтверждает то, что данные признаки некор-
ректно удалять целиком;
– пропуски в данных для этих параметров преиму-
щественно характерны для исправных ТТ;
– восстановить значения не представляется воз-
можным, так как для
U
breakdown
нет связанных пара-
метров для восстановления, а для
I
conn
характерна
значительная неопределенность; даже если
сопоставлять названия трансформатора с номи-
нальными токами, на которые он рассчитан, то
удалить строки можно только для класса 1, что
не повлияет на обобщающие свойства исполь-
зуемого алгоритма, так как класс достаточно
полный; для класса 0 аналогичные действия (как
для класса 1) приведут к сокращению, в том чис-
ле, примерно четверти строк, которые к тому же
содержат данные о хроматографии или диагно-
стическом контроле сопротивлений; поэтому для
класса 1 строки с пропусками в колонках
U
breakdown
,
I
conn
были удалены, для класса 0 — сохранены.
Признак
outer_heating
и признаки-результаты теп ло-
визионного контроля связаны: для строк, где данные
с тепловизора заполнены, было замечено, что
outer_
heating
= 2 и
outer_heating
= 1 обозначены при превыше-
нии максимальной температуры трансформатора над
температурой воздуха на 7°С и 4°С соответственно.
Наличие значительного числа пропусков в признаках
по тепловизионному контролю, возможно, связано
с тем, что данные по ТТ анализировались с 1996 года,
а обязательным тепловизионный контроль в РФ стал
гораздо позднее. Поскольку
outer_heating
включает
в себя данные тепловизионного контроля и имеет
меньше пропусков, то признаки тепловизионного об-
следования были сокращены целиком.
Признаки хроматографического анализа, опи-
сывающие скорость изменения содержаний газов
в масле не заполнены практически полностью, по-
этому были полностью сокращены.
Класс промышленной чистоты масла показывает
число примесей в масле, в том числе тех, которые
способны создавать проводимость. Была выдвину-
та гипотеза, что чистота масла является причиной
снижения напряжения пробоя масла, и это коррели-
рующие величины. Рассчитать корреляцию для них
не удалось, так как данных по классу чистоты недо-
статочно. Из-за малочисленности данных и потенци-
ального дублирования напряжения пробоя признак
класса чистоты был также полностью сокращен.
Признак
year
(год) был преобразован в признак
возраста оборудования
age
по формуле:
age
= 2019 –
year
.
После всех преобразований (рисунок 4) итоговое
распределение данных по классам составило 8,85%
(класс 0; 59 строк) к 91,15% (класс 1; 601 строка). На
рисунке 5 представлены примеры распределения
признака
age
в зависимости от состояния ТТ.
На основе полученных распределений можно ска-
зать, что для неисправных трансформаторов более
вероятен возраст, превышающий 40 лет, c напряже-
нием пробоя менее 40 В, приведенным к 20°С, c со-
противлением основных обмоток менее 1000 МОм,
приведенном к 20°С, с сопротивлением вторичных
обмоток менее 100 МОм и более высоким содержани-
ем
C
2
H
4
,
CO
,
CO
2
, а также более высоким значением
тангенса угла диэлектрических потерь трансформа-
торного масла.
4.
Анализ
коллинеарности
признаков
.
Анализ
коллинеарности (корреляции) признаков между со-
бой также позволяет исключить избыточные призна-
ки. В данной работе опытным путем было определе-
но, что анализ коллинеарности для решения данной
задачи эффективнее реализовывать на основе ана-
лиза коэффициента корреляция Спирмена, на осно-
ве которых составляется матрица корреляций. Коэф-
фициент корреляции Спирмена рассчитывается как
6
∫
d
2
p
= 1 – — ,
(1)
n
(
n
2
– 1)
где
d
— разница в рангах для пары (
X
,
Y
) двух рядов
чисел;
n
— длина рядов
X
и
Y
. На рисунке 6 приве-
дены значения корреляции Спирмена для признаков
air_
fi
lter_malfunction
outer_heating
I
conn
low_oil
C
2
H
2
age
tg
Rmain
20
rubber_age
porcelain
moist
C
2
H
4
CO
2
H
2
CH
4
C
2
H
6
CO
no_leveling
acidNr
T
flame
tg
Oil
90
U
breakdown
R
secondary
20
R
main
20
60 –
50 –
40 –
30 –
20 –
10 –
0 –
Рис
. 5.
Распределение
признаков
от
состояния
ТТ
(
си
-
ний
— 0,
оранжевый
— 1)
Рис
. 6.
Коэффициенты
корреляции
Спирмена
для
при
-
знаков
по
отношению
к
образу
состояния
–
–
–
–
№
6 (63) 2020
142
по отношению к оценке со-
стояния ТТ.
Значения корреляций
интерпретируются так, что
положительные значения
коэффициента
означа-
ют более высокое значе-
ние целевой переменной
(больше 1, чем 0) при ро-
сте значений признака,
и наоборот для отрица-
тельных значений. По ана-
лизу можно судить, что вы-
сокие значения признаков,
таких как сопротивлений
обмоток, напряжения про-
боя масла, тангенса угла
диэлектрических потерь
сопротивления масла, ско-
рее свойственны росту це-
левой переменной и более
характерны для класса 1.
Для признаков, таких
как данные хроматогра-
фии и признаков-катего-
рий, отражающих отсут-
ствие
неисправностей
значением 0, корреляция
отрицательна; иначе гово-
ря, при отрицательной корреляции малые значения
количественных признаков или большее число нулей
в признаках-категориях в большей степени указыва-
ют на исправность трансформатора (целевая пере-
менная чаще будет равна 1). Амплитуда корреляции
показывает, насколько ярко выражена тенденция.
Также были рассчитаны коэффициенты корреля-
ции Спирмена для признаков по отношению к образу
состояния.
На рисунке 7 представлена матрица взаимной
корреляции Спирмена для всех признаков. Отсут-
ствие значений корреляции вызвано отсутствием
или малым перекрестным заполнением признаков.
На рисунке можно увидеть взаимозависимости изме-
нений признаков по отношению друг к другу. К при-
меру, по высокому значению корреляции признаков
хроматографии и
outer_heating
можно предположить,
что повышение концентраций газов в масле совпа-
дает с наличием сколов на фарфоровой крышке.
АНАЛИЗ
АЛГОРИТМОВ
МАШИННОГО
ОБУЧЕНИЯ
В работе был выполнен сравнительный анализ
двух наиболее подходящих алгоритмов машинного
обуче ния для представленной задачи: градиентного
бустинга на основе решающих деревьев (XGBoost)
и случайного леса (Random Forest).
XGBoost. Бустинг является мощной техникой
комбинирования базовых классификаторов для
создания системы более точной, чем каждый из ба-
зовых классификаторов по отдельности [3]. В ходе
бустинга создается аддитивная композиция, в кото-
рой каждый последующий классификатор обучает-
ся минимизировать текущую ошибку модели. Клас-
сификаторы итеративно добавляются до тех пор,
пока возможно улучшение результата. В ходе бус-
тинга можно получить дающую хорошую предска-
зательную способность композицию несмотря на
то, что каждый из базовых «слабых» классификато-
ров может быть лишь немногим более точным, чем
случайный выбор [4]. При контролируемом обуче-
нии для набора данных
D
= { (
x
i
,
y
i
):
x
i
∈
Rn
,
y
i
∈
R
},
композиция на основе решающих деревьев ис-
пользует
K
аддитивных функций для предсказания
ответа:
y
̂
i
=
F
(
x
i
) =
K
j
=
i
f
i
(
x
i
),
(2)
где
f
(
x
) =
w
q
(
x
). В данном случае
q
:
R
m
→
T
описыва-
ет структуру каждого образуемого дерева, которое
определяет элемент данных в соответствующий
лист дерева c весовым коэффициентом
w
∈
T
.
Random Forest.
Случайный лес (англ. random
forest) — алгоритм машинного обучения, исполь-
зующий ансамбль решающих деревьев. Сочетает
метод случайных подпространств и бэггинга. Бэг-
гинг (bagging от bootstrap aggregation) базируется на
бутстрэпе (bootstrap). Бутстрэп — статистический
метод формирования
m
новых выборок размером
n
из
n
объектов исходной выборки. Производится
n
раз выбор предмета в одну из
m
выборок с воз-
вратом предмета в исходное множество, то есть
каждый предмет может быть получен из сходной
выборки с вероятностью 1/
n
и возможно его повто-
рение в разных сформированных выборках. При
бэггинге выборки формируются описанным под-
ходом, на каждой выборке обучается свой класси-
фикатор
a
i
(
x
), итоговый классификатор усред няет
ответы всех алгоритмов:
ДИАГНОСТИКА
И МОНИТОРИНГ
0,8
0,4
0
-0,4
-0,8
target
I
conn
H
2
CH
4
C
2
H
4
C
2
H
6
C
2
H
2
CO
2
CO
moist
U
breakdown
acidNr
T
flame
tg
Oil
90
R
main
20
R
secondary
20
tg
Rmain
20
rubber_age
porcelain
no_leveling
air_
fi
lter_malfunction
low_oil
outer_heating
age
target
I
conn
H
2
CH
4
C
2
H
4
C
2
H
6
C
2
H
2
CO
2
CO
moist
U
breakdown
acidNr
T
flame
tg
Oil
90
R
main
20
R
secondary
20
tg
Rmain
20
rubber_age
porcelain
no_leveling
air_
fi
lter_malfunction
low_oil
outer_heating
age
Рис
. 7.
Матрица
корреляции
Спирмена
для
всех
признаков
и
образа
состояния
143
1
a
(
x
) = —
m
i
= 1
a
i
(
x
).
(3)
m
Каждое дерево в алгоритме случайного леса
обучается на одной из выборок, полученных бут-
стрэпом.
Выборка для Random Forest была изменена за-
полнением пропусков данных. Признаки с менее чем
50% заполненных записей были исключены (данные
хроматографии, tgOil90); для признаков со сплошны-
ми величинами (
I
conn
,
moist
,
U
breakdown
,
acidNr
,
T
flame
,
R
main
20,
R
secondary
20,
tg
Rmain
20
) в пропуски были помещены сред-
ние значения по соответствующему признаку с по-
мощью преобразователя Imputer(strategy = "mean");
для признаков-категорий и дискретных численных
признаков (
rubber_age
,
porcelain
,
no_leveling
,
air_
fi
lter_
malfunction
,
low_oil
,
outer_heating
,
age
) в пропуски
были установлены наиболее часто встречающиеся
значения величины с помощью преобразователя
Imputer(strategy = "most_frequent").
Настройка
модели
.
С целью повышения точно-
сти алгоритма была выполнена настройка параме-
тров с помощью функции GridSearch, проводящей
перебор комбинаций значений параметров модели
в поиске, дающих наибольшие метрики качества
модели, такие как точность (
presicion
) и чувствитель-
ность (
recall
):
precision
=
TP
/(
TP
+
FP
),
recall
=
TP
/(
TP
+
FN
), (4)
где
TP
— истинно положительный;
FP
— ложно по-
ложительный;
FN
— ложно отрицательный.
Результирующие метрики точности и полно-
ты определены как среднее между данными ме-
триками для каждого из классов (precision_macro
и recall_macro); это сделано для учета несбаланси-
рованности классов.
Анализ
результатов
.
Важность признаков для
каждого из алгоритмов определяется как улучшение
в точности, полученное от использования признака
в ветвях дерева при делении. С помощью функ-
ции .feature_importance можно получить статистику
улучшения точности классификации от применения
признаков; сумма важности всех признаков приве-
дена к единице. Результаты для XGBoost и Random
Forest представлены на рисунках 8 и 9.
Из рисунков 8 и 9 видно, что алгоритмы, в целом,
выбирают практически похожий набор параметров
(отличие всего по нескольким параметрам), но при
этом распределение важности между параметрами
значительно отличается и, например, часть призна-
ков, которые для работы алгоритма XGBoost прак-
тически не важны, для алгоритма Random Forest
имеют существенный вес. То есть можно сделать
вывод, что данные алгоритмы формируют практи-
чески идентичный состав параметров, но именно от
веса (важности) каждого параметра и зависит точ-
ность распознавания состояния ТТ.
В таблице 3 представлены характеристики вы-
борок и признаков, используемых в данном иссле-
довании.
Из таблицы 4 видно, что оценки качества класси-
фикации алгоритмов (
precision
и
recall
) различаются на
18,4% и 19,7% для XGBoost и Random Forest соответ-
ственно. В этом случае очевидно, что XGBoost имеет
значительно большую точность при определении со-
стояния силового оборудования, чем классификатор
Random Forest. Для каждого из алгоритмов оценива-
ется средняя точность по классам и, как также видно
из таблицы 4, разница — значительная.
С точки зрения электроэнергетики метрику
Precision можно охарактеризовать как пропуск нера-
0,000
0,00
0,025
0,02
0,050
0,04
0,125
0,10
0,150
0,12
0,175 0,200
0,14
0,075
0,06
0,100
0,08
C
2
H
6
outer_heating
low_oil
air_
fi
lter_malfunction
no_leveling
porcelain
tg
Rmain
20
CO
2
C
2
H
2
CO
H
2
rubber_age
T
flame
acidNr
tg
Oil
90
R
secondary
20
C
2
H
4
U
breakdown
R
main
20
age
moist
CH
4
I
conn
porcelain
acidNr
low_oil
T
flame
moist
rubber_age
R
main
20
outer_heating
no_leveling
air_
fi
lter_malfunction
tg
Rmain
20
R
secondary
20
age
U
breakdown
I
conn
Рис
. 8.
Важность
признаков
для
модели
на
основе
XGBoost
Рис
. 9.
Важность
признаков
для
модели
на
основе
Random Forest
№
6 (63) 2020
144
ботоспособного состояния, что
может иметь гораздо более тя-
желые последствия (если такое
оборудование будет ошибочно
оставлено в работе без допол-
нительных действий со сторо-
ны персонала или недостаточ-
ности принятых воздействий
на оборудование), чем ложная
классификация неработоспо-
собного состояния.
Метрика Recall демонстри-
рует, какую долю объектов по-
ложительного класса из всех
объектов положительного клас-
са идентифицировал алгоритм,
то есть способность алгоритма
обнаруживать данный класс
вообще (по сути, это чувстви-
тельность алгоритма к данному
классу), что очень важно в за-
дачах с несбалансированными
классами, как в представленной
задаче.
В результате, чем выше
и
precision
, и
recall
, тем надеж-
нее работает представленный
алгоритм и тем точнее он для
каждого из классов идентифи-
цирует реальное состояние
и корректно исключает ложное,
поэтому для решения представ-
ленной задачи при выборе мет-
рик необходимо использовать
две основные метрики одновре-
менно — и
precision
, и
recall
.
ВНЕДРЕНИЕ
РАЗРАБОТАННОЙ
МОДЕЛИ
На основе представленной модели было разрабо-
тано программное обеспечение для анализа техни-
ческого состояния трансформаторов тока, которое
было внедрено для тестовой работы в энергокомпа-
нии Свердловской области.
ПО предполагает анализ технического состо-
яния как одиночного трансформатора тока, так
и группы трансформаторов тока — для ранжиро-
ванного анализа состояния ТТ. Групповой анализ
ТТ необходим для компаний, у которых на балансе
имеются одна и более подстанций для возможно-
сти формирования на основе такой оценки состоя-
ния графиков технического обслуживания и ремон-
тов оборудования.
Так как ПО носило тестовый характер, в нем было
решено оставить возможность обучения системы —
для возможности анализа различных наборов исход-
ных выборок по данным реального энергообъекта
и учета индивидуальных характеристик и условий
работы конкретных анализируемых на объекте ТТ.
Кроме того, было принято решение оставить в окне
вывода результаты анализа алгоритмов и XGBoost,
и Random Forest с целью анализа поведения обоих
алгоритмов и возможности повышения точности ра-
боты самой модели.
Табл. 3. Характеристики выборок для анализа состояния ТТ
Характеристика
Значение
Исходный объем выборки
1319
Объем обучающей выборки после устранения пропусков в данных
и удаления незначимых признаков
660
Изначальное количество признаков
33
Количество признаков после устранения незначимых для алгорит-
ма XGBoost
23
Количество признаков для алгоритма Random Forest
15
Количество выборок для кросс-валидации
10
Объем каждой элементарной выборки для кросс-валидации
66
Табл. 4. Параметры настройки и результаты работы алгоритмов
XGBoost
RandomForest
Параметр
Значение
Параметр
Значение
alpha
0,05
n_estimators
20
lambda
0,05
max_depth
3
gamma
1
min_samples_split
0,01
eta
0,01
min_samples_leaf
0,01
max_depth
4
max_features
1
base_score
0,7
n_estimators
20
learning_rate
1
max_delta_step
1
Точность
0,926
Точность
0,909
Точность средняя по классам
0,823
Точность средняя по классам
0,635
precision_macro
0,871
precision_macro
0,687
кecall_macro
0,837
кecall_macro
0,640
Рис
. 10.
Окно
результатов
ана
-
лиза
группы
ТТ
Рис
. 11.
Анализ
метрик
работы
алгоритмов
На рисунках 10–11 представлены интерфейсы
окон результатов анализа для группы трансформа-
торов ТТ.
ДИАГНОСТИКА
И МОНИТОРИНГ
145
В таблице 5 представлены данные формиро-
вания очередности ремонтов по группе ТТ в зави-
симости от анализа их состояния по результатам
работы разработанной модели на базе XGBoost.
ВЫВОДЫ
Основное отличие данной статьи от существую-
щих работ по данной тематике заключается не
только в объекте исследования — измеритель-
ных трансформаторах тока, а в создании нового
подхода к формированию и обработке исходных
данных (обучающей и тестовой выборок) на осно-
ве технологий извлечения признаков, преобразо-
вания признаков, заполнения пропусков в данных
и анализа коллинеарности признаков для повы-
шения точности классификации состояния обору-
дования (с математической точки зрения) и кор-
ректности интерпретации результатов машинного
обучения (с технической точки зрения).
В данной статье автором продемонстрирован
пример формирования выборки на основе реаль-
ных данных диагностики состояния ТТ, которая при
реальной эксплуатации характеризуется значитель-
ным количеством пропусков в данных, наличием вы-
бросов и высокой неравномерностью распределения
классов.
В рамках представленного исследования удалось
выработать пошаговый алгоритм предварительной
обработки данных для решения задачи классифика-
ции технического состояния оборудования и за счет
этого повысить точность результата работы самих
алгоритмов машинного обучения, а также проана-
лизировать и выявить неявные зависимости и за-
Табл. 5. Формирование очередности ремонтов по группе ТТ
№ прио-
ритета
ремонта ТТ
№ ТТ
в базе пред-
приятия
Непри-
годное
Неудов-
летвори-
тельное
Хорошее
1
12
90,9%
8,6%
0,5%
2
17
90,5%
8,7%
0,8%
3
21
90,3%
8,7%
1,0%
4
26
90,1%
8,8%
1,1%
5
11
88,7%
9,5%
1,8%
6
53
88,6%
9,5%
1,9%
7
66
86,4%
11,5%
2,1%
8
15
85,2%
12,6%
2,2%
9
13
84,1%
13,3%
2,6%
10
2
84,0%
13,4%
2,6%
11
8
83,7%
13,5%
2,8%
12
99
83,5%
13,7%
2,8%
кономерности в данных, что и продемонстрировано
в представленной работе. Несмотря на активное раз-
витие и применение методов машинного обучения
для решения задачи анализа технического состояния
оборудования, основной проблемой их корректно-
го и эффективного применения до сих пор остается
именно проблема качественной обработки исходных
данных, для решения которой универсального подхо-
да пока так и не разработано.
Работа, по результатам которой выполнена ста-
тья, реализована за счет гранта Российского научного
фонда (проект № 18-79-00201).
ЛИТЕРАТУРА/REFERENCES
1. Li W.W., Li J.Y., Yin G.L. et al. Fre-
quency dependence of breakdown
performance of XLPE with diff erent
artifi cial defects. IEEE Trans. Dielectr.
Electr. Insul, 2012, 19, (4), pp. 1351-
1359.
2. Fofana I., Hadjadj Y. Electrical-based
diagnostic techniques for assessing
insulation condition in aged transfor-
mers. Energies, 2016, 9, (9), pp. 679-
705.
3. Shen X.Q., Yang Y., Cong B. et al.
Temperature measurement of power
cable based on distributed optical fi -
ber sensor. J. Phys., Conf. Series.,
2016, 679. pp. 1-2.
4. Zhou C.K., Yang Y., Li M.Z. et al.
An integrated cable condition diag-
nosis and fault localization system
via sheath current monitoring. CMD,
2016, pp. 1-8.
5. Wu M., Cao H., Cao J. et al. An over-
view of state-of-the-art partial dis-
charge analysis techniques for con-
dition monitoring. IEEE Electr. Insul.
Mag., 2015, 31, (6), pp. 22-35.
6. Su Z., Li Q. Historical review and
summary on measures against pollu-
tion fl ashover occurred in power grids
in China. Power Syst. Technol., 2010,
34, (12), pp. 125-130. (in Chinese)
7. Zhao C., Zhou Z., Gao S. et al. Pol-
lution fl ashover pre-warning system
based on prediction of fl ashover volt-
age. High Volt. Eng., 2014, 40, (11),
pp. 3365-3373.
8. Huang X., Wei X., Li M. et al. On-line
transmission-line icing monitoring
technology based on three groups
of force sensors and angle sen-
sors. High Volt. Eng., 2014, 40, (2),
pp. 374-380.
9. Goncalves R.S., Carvalho J.C.M.
et al. A mobile robot to be applied
in high-voltage power lines. J. Braz.
Soc. Mech. Sic. Eng., 2015, 37, (1),
pp. 349-359.
10. Goncalves R.S., Mendes C. et al.
Review and latest trends in mobile
robots used on power transmission
lines. Int. J. Adv. Robot. Syst., 2013,
10, pp. 1-14.
11. Vidyasagar B., Ram S.S.T. Condition
monitoring analysis of synchronous
generator based on an adaptive tech-
nique. 2017 International Conference
on Inventive Systems and Control
(ICISC), Coimbatore, 2017, pp. 1-12.
12. Asiri Y.A., Vouk A.O., Renforth L.,
Clark D., Copper J. Neural network
based classifi cation of partial dis-
charge in HV motors. 2011 Electrical
Insulation Conference (EIC), 2011,
pp. 333-339.
13. Yuan R. Fault diagnosis for engine
by support vector machine and im-
proved particle swarm optimization
algorithm. J. Inf. Comput. Sci., 2014,
11, (13), pp. 4827-4835.
14. Rigatos G.G., Zervos N., Serpanos
D., Siadimas V., Siano P., Abbasza-
deh M. Condition monitoring of wind-
power units using the Derivative-free
nonlinear Kalman Filter. 2018 IEEE
16th International Conference on In-
dustrial Informatics (INDIN), 2018,
pp. 472-477.
15. Ali B.J., Chebel-Morello B., Saidi L.,
Malinowski S., Fnaiech F. Accurate
bearing remaining useful life predic-
tion based on Weibull distribution and
artifi cial neural network. Mechanical
Systems and Signal Processing, Ei-
sevier, 2015, 56-57, pp 150-172.
16. Bellini A., Filippetti F., Tassoni C. et al.
Advances in Diagnostic Techniques
for Induction Machines. IEEE Trans.
Ind. Electr., 2008, 55, (12), pp. 4109-
4126.
17. Naumov S.A. et al. Experience in Use
of Remote Access and Predictive An-
alytics for Power Equipment’s Condi-
tion. Thermal Engineering, 2018, 65,
pp. 189-199.
№
6 (63) 2020
Оригинал статьи: Применение методов машинного обучения для идентификации технического состояния маслонаполненных измерительных трансформаторов
Статья посвящена проблеме оценки фактического состояния маслонаполненных измерительных трансформаторов тока как одного из видов вспомогательного высоковольтного оборудования распределительных устройств станций и подстанций, для которых характерно отсутствие систем мониторинга и, как следствие, высокая неопределенность при идентификации технического состояния. Автором статьи реализована пошаговая процедура обработки исходных данных, включающая в себя подбор и преобразование отдельных признаков и классов состояний, восстановление пропусков в исходных данных, анализ коллинеарности признаков и направленная на повышение точности идентификации состояния оборудования. Задача распознавания классов состояний трансформаторов тока решена с использованием алгоритмов случайного леса и градиентного бустинга над деревьями решений. Апробация разработанной системы выполнена на основе базы данных парка оборудования региональной сетевой компании, что позволило получить решение эксплуатационной задачи — формирование ранжированных списков оборудования для включения в программу ремонтов и обслуживания.