

136
диагностика и мониторинг
Применение методов
машинного обучения для
идентификации технического
состояния маслонаполненных
измерительных трансформаторов
УДК 621.314.22.08:004.855
Хальясмаа
А
.
И
.,
к.т.н., доцент кафедры
«Электрические
станции» ФГБОУ ВО
«Новосибирский
государственный
технический
университет»
Ключевые
слова
:
трансформатор тока,
оценка технического
состояния, обработка
данных, машинное
обуче ние, распознава-
ние образов
Статья
посвящена
проблеме
оценки
фактического
состояния
маслонаполнен
-
ных
измерительных
трансформаторов
тока
как
одного
из
видов
вспомогатель
-
ного
высоковольтного
оборудования
распределительных
устройств
станций
и
подстанций
,
для
которых
характерно
отсутствие
систем
мониторинга
и
,
как
следствие
,
высокая
неопределенность
при
идентификации
технического
состо
-
яния
.
Автором
статьи
реализована
пошаговая
процедура
обработки
исходных
данных
,
включающая
в
себя
подбор
и
преобразование
отдельных
признаков
и
классов
состояний
,
восстановление
пропусков
в
исходных
данных
,
анализ
коллинеарности
признаков
и
направленная
на
повышение
точности
иденти
-
фикации
состояния
оборудования
.
Задача
распознавания
классов
состояний
трансформаторов
тока
решена
с
использованием
алгоритмов
случайного
леса
и
градиентного
бустинга
над
деревьями
решений
.
Апробация
разработанной
системы
выполнена
на
основе
базы
данных
парка
оборудования
региональной
сетевой
компании
,
что
позволило
получить
решение
эксплуатационной
за
-
дачи
—
формирование
ранжированных
списков
оборудования
для
включения
в
программу
ремонтов
и
обслуживания
.
СОВРЕМЕННЫЕ
ПОДХОДЫ
К
АНАЛИЗУ
ТЕХНИЧЕСКОГО
СОСТОЯНИЯ
ВЫСОКОВОЛЬТНОГО
ОБОРУДОВАНИЯ
Современные системы мониторинга и диагностики состояния высоко-
вольтного электроэнергетического оборудования позволяют анализиро-
вать состояние их различных видов и элементов при помощи различных
методов неразрушающего контроля, среди которых можно выделить ос-
новные следующие:
1) анализ состояния маслонаполненных силовых и измерительных транс-
форматоров чаще всего реализуется с помощью физико-химического
анализа трансформаторного масла и хроматографического анализа
газов, растворенных в масле, с помощью инфракрасной термографии
[1] или методов анализа частичных разрядов в изоляции [2];
2) анализ состояния кабельных линий реализуется с использованием
распределенных датчиков температуры (анализ износа изоляции
и загрузки кабелей) [3], контроля токов в экранах и оболочках кабелей
[4] и мониторинга частичных разрядов в изоляции с помощью специ-
альных сенсоров [5];
3) для анализа состояния воздушных линий электропередачи применя-
ется контроль загрязненности изоляции [6, 7] и контроль обледенения
проводов линий [8–10];
4) методы диагностики вращающихся электрических машин направле-
ны на выявление вибраций статора [11, 12], анализа напряженности
магнитного поля в воздушном зазоре и выявление частичных разря-
дов и замыканий в обмотках [12–14] и др.
Сегодня для реализации вышеописанных систем производители
электротехнического оборудования и энергокомпании разрабатыва-
ют специализированное программное обеспечение (ПО), различное по
структуре, принципам реализации, математическим подходам, назначе-
нию и т.д. [15–16].

137
Некоторое ПО, предлагаемое крупными коммер-
ческими компаниями [15–16], использует постоянный
контроль значений параметров режима работы вы-
соковольтного оборудования не только для анализа
его работы, но и для прогнозирования его жизненного
цикла. Например, ABB реализует этот подход с помо-
щью анализа рисков в соответствии с теорией надеж-
ности энергосистем, оперируя вероятностными рас-
пределениями отказов элементов систем.
Некоторые исследователи (как, например, в рабо-
те [17]) предлагают взамен устанавливаемого ПО для
анализа состояния оборудования использовать бра-
узерный продукт, доступ к которому может осущест-
вляться удаленно со всех доступных устройств, как
на обычный интернет-сайт: данные из системы мони-
торинга загружаются пользователем на сервер и на
основании ретроспективных данных об эксплуатации
элемента системы определяется индекс исправности
оборудования.
В любом случае, как бы ни была выполнена про-
граммная реализация (в виде привычных программ-
ных пакетов или браузерных продуктов), работа сис-
тем мониторинга и диагностики высоковольтного
электроэнергетического оборудования электриче-
ских станций и подстанций во многом зависит от ма-
тематических методов обработки и анализа данных.
Большинство современных систем по-прежнему
используют классические математические подходы
на основе продукционных правил, методов статисти-
ческого анализа и т.д., но не всегда такие подходы
являются эффективными. Онлайн-мониторинг состо-
яния высоковольтного оборудования сегодня по праву
можно отнести к так называемым системам с Big Data,
так как число анализируемых параметров и их объ-
емы уже сложно интерпретировать классическими
методами не только с точки зрения самих алгоритмов,
но и с точки зрения вычислительных мощностей, кото-
рые требуются при классических подходах.
Все вышесказанное заставило разработчиков со-
временных систем мониторинга и диагностики состо-
яния оборудования искать новые методы и подходы
к анализу состояния электроэнергетического обору-
дования, в результате чего и возникло целое направ-
ление применения методов машинного обучения для
решения задач анализа технического состояния обо-
рудования.
АНАЛИЗ
ТЕХНИЧЕСКОГО
СОСТОЯНИЯ
ТРАНСФОРМАТОРОВ
ТОКА
Необходимость
анализа
технического
состояния
оборудования
.
Одним из ключевых требований к со-
временным энергосистемам является наблюдае-
мость, которая отражает свойство объекта электро-
энергетики, показывающее насколько получаемый
от него объем телеметрической информации соот-
ветствует требованиям процессов управления энер-
госистемой. Для обеспечения наблюдаемости широ-
кое применение нашли системы оценки состояния,
то есть расчеты установившегося режима на основе
ограниченной телеметрической информации, посту-
пающей с объектов электроэнергетики.
Основным оборудованием, обеспечивающим на-
блюдаемость на объекте электроэнергетики, являют-
ся измерительные трансформаторы — трансформа-
торы тока (ТТ) и напряжения (ТН). Данные устройства
также используются для целей коммерческого учета
электроэнергии, релейной защиты и противоаварий-
ной автоматики.
Особая важность измерительных трансформато-
ров связана с применением информации от данных
устройств в системах противоаварийной и режимной
автоматики, в частности, для автоматики предотвра-
щения перегрузки оборудования (АОПО), где превы-
шение значения допустимого тока по защищаемому
элементу является пусковым органом для примене-
ния управляющих воздействий на отключение ге-
нерации или нагрузки. Поэтому техническая неис-
правность измерительных трансформаторов может
привести к потере противоаварийного управления
или перерегулированию.
Таким образом, техническое состояние изме-
рительных трансформаторов напрямую влияет на
устойчивость и надежность энергосистемы в целом.
Кроме того, их технические повреждения могут при-
водить к каскадным авариям, в результате которых
возможны многочасовые ограничения потребления,
а также сложные восстановительные работы.
Для энергокомпаний и собственников электри-
ческих станций и подстанций единство процесса
производства и передачи электрической энергии
(технологическая связь) вызывает необходимость
в обеспечении надежности и регулировании техно-
логических факторов в равной степени для каждой
единицы оборудования на энергообъекте, поэтому
состояние измерительных трансформаторов (как ча-
сти этой системы) также анализируется в рамках про-
грамм технического обслуживания и ремонтов (ТОиР)
оборудования. В свою очередь, именно программа
ТОиР является основной для корпоративной системы
управления производственными активами и форми-
рования инвестиционных программ энергокомпаний.
Все вышесказанное делает задачу анализа тех-
нического состояния трансформаторов тока и напря-
жения для сетевых компаний не менее важной, чем
любого другого высоковольтного оборудования на
энергообъекте.
Применение
методов
машинного
обучения
.
Ав-
тором статьи были проведены многочисленные ис-
следования, доказывающие эффективность приме-
нения методов машинного обучения для решения
представленных задач для крупных единиц обору-
дования, таких как, например, силовой трансфор-
матор и силовой выключатель. Особенности ана-
лиза состояния такого оборудования заключаются
в избыточности данных в связи с встроенными на
таких единицах оборудования большого числа сис-
тем мониторинга, ориентированных на сбор пара-
метров функционирования оборудования различной
физической природы. Наличие систем мониторинга
в сравнении с данными результатов технического
диагностирования (в рамках плановых ремонтов)
обеспечивает не только достаточный объем данных
для их анализа, но и значительно повышает их точ-
ность и полноту, а также минимизирует влияние че-
ловеческого фактора, а именно снижает количество
выбросов и пропусков в данных.
№
6 (63) 2020

138
Проблема анализа технического состояния изме-
рительных трансформаторов в отличие от анализа со-
стояния крупных единиц оборудования усложняется
отсутствием систем мониторинга на объектах данного
типа и в этих условиях является многокритериальной
задачей в условиях неопределенности, а значит и до-
биться требуемой точности в идентификации состоя-
ния такого оборудования кратно сложнее.
Основная цель данного исследования заклю-
чалась в поиске эффективного решения задачи
идентификации технического состояния маслона-
полненных измерительных трансформаторов (ТТ)
в условиях неопределенности и малого объема ис-
ходных данных.
РАСЧЕТНЫЙ
ПРИМЕР
Для подтверждения гипотезы об эффективности
применения методов машинного обучения для ана-
лиза технического состояния измерительных транс-
форматоров с целью решения многокритериальной
задачи в условиях неопределенности первоначаль-
но была разработана математическая модель адап-
тивной системы анализа технического состояния ТТ
и реализована на Pythone в командной оболочке
Jupiter Notebook, а также апробирована на реальных
данных крупного энергоузла Свердловской области.
Извлечение
признаков
.
Исходные данные для
анализа технического состояния масляных ТТ в дан-
ном случае — это результаты технического диа-
гностирования оборудования крупного энергоузла
Свердловской области на основе различных методов
неразрушающего контроля, реализованных в соот-
ветствии с установленной нормативной документа-
цией и выполненные как в соответствии с плановым
обслуживанием оборудования, так и в случаях вне-
плановых работ, необходимых по фактическому со-
стоянию оборудования.
Сбор данных для анализа ТТ осуществлялся
вручную на основе протоколов диагностики и осмот-
ров оборудования, а также анализа паспортных дан-
ных оборудования. По результатам сбора данных
была сформирована исходная база данных, включа-
ющая в себя перечень параметров, представленных
в таблице 1.
ДИАГНОСТИКА
И МОНИТОРИНГ
Табл. 1. Извлечение признаков для анализа состояния трансформатора тока
Параметр
Описание
target
Состояние оборудования (экспертная оценка) сгруппировано в два класса (0 — неудов-
летворительное, неисправное; 1 — удовлетворительное, хорошее)
year
Год выпуска. Пересчитывается возраст оборудования [
age
] = 2019 – [
year
]
I
conn
Номинальный ток присоединения, в котором установлен ТТ, А
H
2
,
CH
4
,
C
2
H
4
,
C
2
H
6
,
C
2
H
2
,
CO
2
,
CO
,
vH
2
,
vCH
4
,
vC
2
H
4
,
vC
2
H
6
Данные хроматографического анализа растворенных в масле газов: концентрации газов
и скорости их изменения
moist
Влагосодержание
U
breakdown
Напряжение пробоя
acidNr
Кислотное число
purity
Класс промышленной чистоты
T
flame
Температура вспышки в закрытом тигле
tg
Oil
90
Тангенс угла диэлектрических потерь трансформаторного масла при 90°С
R
main
20
Сопротивление основной изоляции, приведенное к 20°С
R
secondary
20
Сопротивление изоляции вторичных обмоток, приведенное к 20°С, минимальное
tg
Rmain
20
Тангенс угла диэлектрических потерь основной изоляции, приведенный к 20°С
rubber_age
Степень старения резиновых уплотнений (0 — норма, 1 — трещины, 2 — разрушены,
капельная течь масла)
porcelain
Наличие сколов фарфоровой покрышки (0 — нет сколов, 1 — незначительные сколы,
2 — недопустимые сколы)
no_leveling
Отсутствие уравнительного проводника между крышкой и оголовником (0 — наличие,
1 — отсутствие)
air_
fi
lter_malfunction
Неисправность воздухоосушительного фильтра (0 — норма, 1 — дефект)
low_oil
Низкий уровень масла по маслоуказателю (0 — норма, 1 — дефект)
outer_heating
Нагрев внешних КС, степень дефекта (0 — норма, 1 — начальная, 2 — развившийся,
3 — аварийный)
I
_thermal
Величина тока нагрузки при тепловизионном обследовании, А
T
max_outercont_thermal
Максимальная измеренная температура нагрева внешнего контактного соединения, °С
T
min_outercont_thermal
Минимальная измеренная температура внешнего контактного соединения других фаз, °С
T
air_thermal
Температура воздуха при тепловизионном обследовании, °С

139
Преобразование
признаков
.
Монотонное преоб-
разование признаков критично для одних алгоритмов
и не оказывает влияния на другие, поэтому в данном
случае было необходимо проанализировать распре-
деления значений признаков.
1.
Изменение
распределения
.
Первоначально
анализировались распределения значений призна-
ков с помощью box-and-whiskers diagram — графика,
использующегося в описательной статистике, ком-
пактно изображающего одномерное распределение
вероятностей. Данный формат позволяет отобра-
зить 25 (первый квартиль), 50 (медиана), 75 (третий
квартиль), 98 и 2 (границы статистически значимой
выборки) процентили на одном графике. Границами
ящика служат первый и третий квартили (25-й и 75-й
процентили соответственно), линия в середине ящи-
ка — медиана (50-й процентиль). Концы усов — края
статистически значимой выборки.
По полученным графикам можно оценить коэф-
фициент асимметрии распределения. Значительная
доля алгоритмов машинного обучения делает пред-
положение о нормальном распределении данных;
при наличии асимметрии распределения величины
рекомендуется изменить логарифмическим преоб-
разованием, поскольку на данных с искривленным
распределением возможно ухудшение предсказа-
тельных способностей алгоритма. На рисунке 1 при-
ведены примеры графиков распределения величин
признаков со сплошными величинами в исходных
данных.
Из рисунка 1 видно, например, что
CO
2
,
moist
,
tg
Rmain
20
имеют положительную асимметрию; сильно
положительно асимметричны распределения
tg
Oil
90
,
acidNr
,
R
secondary
20
,
C
2
H
4
,
CH
4
,
C
2
H
6
(также
H
2
,
CO
,
C
2
H
2
;
не указаны);
U
breakdown
слабо отрицательно симме-
трична. Признаки
moist
,
tg
Rmain
20
,
tg
Oil
90
,
I
conn
,
R
secondary
20
,
все признаки хроматографии имеют значительное
число выбросов за границами статистически значи-
мой выборки.
Для приведения к нулю асимметрии распределе-
ний и включения выбросов в границы статистически
значимой выборки было выполнено логарифмиче-
ское преобразование по формуле
log
10(
x
+ 0,0001)
для признаков хроматографии,
moist
,
acidNr
,
tg
Oil
90
,
R
main20
,
R
secondary
20
,
tg
Rmain20
. Результаты преобразования
представлены на рисунке 2. Для признаков хромато-
графии удалось только сократить число выбросов;
в то время как у признаков
moist
,
acidNr
,
tg
Oil
90
,
R
main20
,
R
secondary
20
,
tg
Rmain20
значительно сократилось число вы-
бросов и их распределения обрели менее асиммет-
ричный вид.
2.
Анализ
взаимодействия
признаков
.
Исходные
данные имеют значительное число пропусков и не
сбалансированы по классам. Распределение коли-
чества записей классов состояний оборудования,
взятых из диагностических заключений лаборато-
рий, приведено в таблице 2.
При малом объеме выборки, описывающей от-
дельный класс, обученный алгоритм не будет обла-
дать достаточной обобщающей способностью. Для
расширения выборки и упрощения задачи класси-
фикации было решено объединить классы попарно:
«непригодное» и «неудовлетворительное» в класс 0
(64 записи; 4,63% от всей выборки), «хорошее»
Табл. 2. Распределение по классам
Состояние
Соотношение
Число
записей
Непригодное
2,80%
37
Неудовлетворительное
2,05%
27
Удовлетворительное
67,80%
895
Хорошее
27,30%
360
Рис
. 1.
Графики
распределения
признаков
:
а
)
CO
2
;
б
)
moist
;
в
)
T
flame
;
г
)
I
conn
;
д
)
acidNr
;
е
)
R
secondary20
0
1000
2000
3000
0,00
0,05
0,10
0,15
0,20
0,0
0,1
0,2
0,3
0,4
0
20
40
60
15000
10000
5000
0
135
140
145
150
155
г)
а)
д)
б)
е)
в)
№
6 (63) 2020

140
Рис
. 2.
Графики
распределения
признаков
после
логарифмического
преобразования
:
а
)
H
2
;
б
)
CH
4
;
в
)
C
2
h
4
;
г
)
C
2
H
6
;
д
)
CO
;
е
)
CO
2
-4
-4
-4
-3
-3
-3
-2
-2
-2
-1
-1
-1
0
-4,0
-4,0
-3,5
-3,5
-3,0
-3,0
-2,5
-2,5
-1,5
-2,5
-2,0
-2,0
-1,0
-1,5
-2,0
г)
а)
д)
б)
е)
в)
ДИАГНОСТИКА
И МОНИТОРИНГ
и «удовлетворительное» в класс 1 (1255 записей;
95,37% от всей выборки).
С точки зрения диагностики состояния оборудо-
вания (физики процесса и природы данных) объеди-
нение этих классов достаточно обосновано, так как
в ходе анализа классовой принадлежности было вы-
явлено, что классы «непригодное» и «неудовлетво-
рительное», и «удовлетворительное» и «хорошее»
являются пересекающимися соответственно, а раз-
личия граничных значений параметров в первом слу-
чае наблюдается только у 8% параметров от общего
числа, а во втором — у 13% параметров.
Для дальнейшего сокращения неравномерности
распределения в ходе фильтрации данных под со-
кращение в приоритете будет попадать класс 1 как
наиболее представленный (полный) и удаление ча-
сти строк для класса 1 не ведет к потере большой
доли информации.
3.
Заполнение
пропусков
.
Для анализа пропусков
в данных и возможности восстановления данных
была проанализирована зависимость числа пропу-
сков от признака. Результаты представлена на ри-
сунке 3.
Из рисунка 3 видно, что наиболее заполненны-
ми являются признаки
rubber_age
,
porcelain
,
air_
fi
lter_
malfunction
,
low_oil
,
outer_heating
,
no_leveling
, причем
пропуски наблюдаются только у класса 1.
Пропуски были заполнены наиболее частыми
значениями, определенными с помощью функции
библиотеки pandas df.mode(). При этом для призна-
target
rubber_age
air_
fi
lter_malfunction
porcelain
low_oil
no_leveling
U
breakdown
R
main
20
I
conn
R
secondary
20
year
tg
Rmain
20
outer_heating
moist
T
air_thermal
acidNr
CO
2
CO
CH
4
C
2
H
4
T
flame
C
2
H
6
C
2
H
2
T
max_outercont_thermal
T
min_outercont_thermal
I
_thermal
tg
Oil
90
purity
vH
2
vC
2
H
2
vC
2
H
6
vCH
4
vC
2
H
4
1200
1000
800
600
400
200
0
Рис
. 3.
Распределение
пропусков
в
наборе
исходных
данных
target
air_
fi
lter_malfunction
no_leveling
porcelain
rubber_age
low_oil
U
breakdown
I
conn
R
main
20
R
secondary
20
tg
Rmain
20
acidNr
year
moist
T
flame
outer_heating
tg
Oil
90
CO
2
C
2
H
4
CH
4
H
2
CO
C
2
H
6
C
2
H
2
500
400
300
200
100
0
Рис
. 4.
Распределение
пропусков
в
наборе
исходных
дан
-
ных
после
преобразования

141
0
Возраст, лет
Вероятность, %
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
40
20
60
ка «Нагрев внешних КС» (
outer_heating
) было принято
решение не восстанавливать пропуски, так как от-
сутствие перегрева может быть характерно и для ис-
правного, и для неисправного ТТ.
Для признаков
U
breakdown
и
I
conn
пропуски за редкими
исключениями также принадлежат классу 1. Анализ
этих параметров показывает, что:
– значения для данных признаков заполнены более
чем на 50% и корреляции Спирмена с состоянием
ТТ для обоих признаков составляют 0,2 и –0,3,
это подтверждает то, что данные признаки некор-
ректно удалять целиком;
– пропуски в данных для этих параметров преиму-
щественно характерны для исправных ТТ;
– восстановить значения не представляется воз-
можным, так как для
U
breakdown
нет связанных пара-
метров для восстановления, а для
I
conn
характерна
значительная неопределенность; даже если
сопоставлять названия трансформатора с номи-
нальными токами, на которые он рассчитан, то
удалить строки можно только для класса 1, что
не повлияет на обобщающие свойства исполь-
зуемого алгоритма, так как класс достаточно
полный; для класса 0 аналогичные действия (как
для класса 1) приведут к сокращению, в том чис-
ле, примерно четверти строк, которые к тому же
содержат данные о хроматографии или диагно-
стическом контроле сопротивлений; поэтому для
класса 1 строки с пропусками в колонках
U
breakdown
,
I
conn
были удалены, для класса 0 — сохранены.
Признак
outer_heating
и признаки-результаты теп ло-
визионного контроля связаны: для строк, где данные
с тепловизора заполнены, было замечено, что
outer_
heating
= 2 и
outer_heating
= 1 обозначены при превыше-
нии максимальной температуры трансформатора над
температурой воздуха на 7°С и 4°С соответственно.
Наличие значительного числа пропусков в признаках
по тепловизионному контролю, возможно, связано
с тем, что данные по ТТ анализировались с 1996 года,
а обязательным тепловизионный контроль в РФ стал
гораздо позднее. Поскольку
outer_heating
включает
в себя данные тепловизионного контроля и имеет
меньше пропусков, то признаки тепловизионного об-
следования были сокращены целиком.
Признаки хроматографического анализа, опи-
сывающие скорость изменения содержаний газов
в масле не заполнены практически полностью, по-
этому были полностью сокращены.
Класс промышленной чистоты масла показывает
число примесей в масле, в том числе тех, которые
способны создавать проводимость. Была выдвину-
та гипотеза, что чистота масла является причиной
снижения напряжения пробоя масла, и это коррели-
рующие величины. Рассчитать корреляцию для них
не удалось, так как данных по классу чистоты недо-
статочно. Из-за малочисленности данных и потенци-
ального дублирования напряжения пробоя признак
класса чистоты был также полностью сокращен.
Признак
year
(год) был преобразован в признак
возраста оборудования
age
по формуле:
age
= 2019 –
year
.
После всех преобразований (рисунок 4) итоговое
распределение данных по классам составило 8,85%
(класс 0; 59 строк) к 91,15% (класс 1; 601 строка). На
рисунке 5 представлены примеры распределения
признака
age
в зависимости от состояния ТТ.
На основе полученных распределений можно ска-
зать, что для неисправных трансформаторов более
вероятен возраст, превышающий 40 лет, c напряже-
нием пробоя менее 40 В, приведенным к 20°С, c со-
противлением основных обмоток менее 1000 МОм,
приведенном к 20°С, с сопротивлением вторичных
обмоток менее 100 МОм и более высоким содержани-
ем
C
2
H
4
,
CO
,
CO
2
, а также более высоким значением
тангенса угла диэлектрических потерь трансформа-
торного масла.
4.
Анализ
коллинеарности
признаков
.
Анализ
коллинеарности (корреляции) признаков между со-
бой также позволяет исключить избыточные призна-
ки. В данной работе опытным путем было определе-
но, что анализ коллинеарности для решения данной
задачи эффективнее реализовывать на основе ана-
лиза коэффициента корреляция Спирмена, на осно-
ве которых составляется матрица корреляций. Коэф-
фициент корреляции Спирмена рассчитывается как
6
∫
d
2
p
= 1 – — ,
(1)
n
(
n
2
– 1)
где
d
— разница в рангах для пары (
X
,
Y
) двух рядов
чисел;
n
— длина рядов
X
и
Y
. На рисунке 6 приве-
дены значения корреляции Спирмена для признаков
air_
fi
lter_malfunction
outer_heating
I
conn
low_oil
C
2
H
2
age
tg
Rmain
20
rubber_age
porcelain
moist
C
2
H
4
CO
2
H
2
CH
4
C
2
H
6
CO
no_leveling
acidNr
T
flame
tg
Oil
90
U
breakdown
R
secondary
20
R
main
20
60 –
50 –
40 –
30 –
20 –
10 –
0 –
Рис
. 5.
Распределение
признаков
от
состояния
ТТ
(
си
-
ний
— 0,
оранжевый
— 1)
Рис
. 6.
Коэффициенты
корреляции
Спирмена
для
при
-
знаков
по
отношению
к
образу
состояния
–
–
–
–
№
6 (63) 2020

142
по отношению к оценке со-
стояния ТТ.
Значения корреляций
интерпретируются так, что
положительные значения
коэффициента
означа-
ют более высокое значе-
ние целевой переменной
(больше 1, чем 0) при ро-
сте значений признака,
и наоборот для отрица-
тельных значений. По ана-
лизу можно судить, что вы-
сокие значения признаков,
таких как сопротивлений
обмоток, напряжения про-
боя масла, тангенса угла
диэлектрических потерь
сопротивления масла, ско-
рее свойственны росту це-
левой переменной и более
характерны для класса 1.
Для признаков, таких
как данные хроматогра-
фии и признаков-катего-
рий, отражающих отсут-
ствие
неисправностей
значением 0, корреляция
отрицательна; иначе гово-
ря, при отрицательной корреляции малые значения
количественных признаков или большее число нулей
в признаках-категориях в большей степени указыва-
ют на исправность трансформатора (целевая пере-
менная чаще будет равна 1). Амплитуда корреляции
показывает, насколько ярко выражена тенденция.
Также были рассчитаны коэффициенты корреля-
ции Спирмена для признаков по отношению к образу
состояния.
На рисунке 7 представлена матрица взаимной
корреляции Спирмена для всех признаков. Отсут-
ствие значений корреляции вызвано отсутствием
или малым перекрестным заполнением признаков.
На рисунке можно увидеть взаимозависимости изме-
нений признаков по отношению друг к другу. К при-
меру, по высокому значению корреляции признаков
хроматографии и
outer_heating
можно предположить,
что повышение концентраций газов в масле совпа-
дает с наличием сколов на фарфоровой крышке.
АНАЛИЗ
АЛГОРИТМОВ
МАШИННОГО
ОБУЧЕНИЯ
В работе был выполнен сравнительный анализ
двух наиболее подходящих алгоритмов машинного
обуче ния для представленной задачи: градиентного
бустинга на основе решающих деревьев (XGBoost)
и случайного леса (Random Forest).
XGBoost. Бустинг является мощной техникой
комбинирования базовых классификаторов для
создания системы более точной, чем каждый из ба-
зовых классификаторов по отдельности [3]. В ходе
бустинга создается аддитивная композиция, в кото-
рой каждый последующий классификатор обучает-
ся минимизировать текущую ошибку модели. Клас-
сификаторы итеративно добавляются до тех пор,
пока возможно улучшение результата. В ходе бус-
тинга можно получить дающую хорошую предска-
зательную способность композицию несмотря на
то, что каждый из базовых «слабых» классификато-
ров может быть лишь немногим более точным, чем
случайный выбор [4]. При контролируемом обуче-
нии для набора данных
D
= { (
x
i
,
y
i
):
x
i
∈
Rn
,
y
i
∈
R
},
композиция на основе решающих деревьев ис-
пользует
K
аддитивных функций для предсказания
ответа:
y
̂
i
=
F
(
x
i
) =
K
j
=
i
f
i
(
x
i
),
(2)
где
f
(
x
) =
w
q
(
x
). В данном случае
q
:
R
m
→
T
описыва-
ет структуру каждого образуемого дерева, которое
определяет элемент данных в соответствующий
лист дерева c весовым коэффициентом
w
∈
T
.
Random Forest.
Случайный лес (англ. random
forest) — алгоритм машинного обучения, исполь-
зующий ансамбль решающих деревьев. Сочетает
метод случайных подпространств и бэггинга. Бэг-
гинг (bagging от bootstrap aggregation) базируется на
бутстрэпе (bootstrap). Бутстрэп — статистический
метод формирования
m
новых выборок размером
n
из
n
объектов исходной выборки. Производится
n
раз выбор предмета в одну из
m
выборок с воз-
вратом предмета в исходное множество, то есть
каждый предмет может быть получен из сходной
выборки с вероятностью 1/
n
и возможно его повто-
рение в разных сформированных выборках. При
бэггинге выборки формируются описанным под-
ходом, на каждой выборке обучается свой класси-
фикатор
a
i
(
x
), итоговый классификатор усред няет
ответы всех алгоритмов:
ДИАГНОСТИКА
И МОНИТОРИНГ
0,8
0,4
0
-0,4
-0,8
target
I
conn
H
2
CH
4
C
2
H
4
C
2
H
6
C
2
H
2
CO
2
CO
moist
U
breakdown
acidNr
T
flame
tg
Oil
90
R
main
20
R
secondary
20
tg
Rmain
20
rubber_age
porcelain
no_leveling
air_
fi
lter_malfunction
low_oil
outer_heating
age
target
I
conn
H
2
CH
4
C
2
H
4
C
2
H
6
C
2
H
2
CO
2
CO
moist
U
breakdown
acidNr
T
flame
tg
Oil
90
R
main
20
R
secondary
20
tg
Rmain
20
rubber_age
porcelain
no_leveling
air_
fi
lter_malfunction
low_oil
outer_heating
age
Рис
. 7.
Матрица
корреляции
Спирмена
для
всех
признаков
и
образа
состояния

143
1
a
(
x
) = —
m
i
= 1
a
i
(
x
).
(3)
m
Каждое дерево в алгоритме случайного леса
обучается на одной из выборок, полученных бут-
стрэпом.
Выборка для Random Forest была изменена за-
полнением пропусков данных. Признаки с менее чем
50% заполненных записей были исключены (данные
хроматографии, tgOil90); для признаков со сплошны-
ми величинами (
I
conn
,
moist
,
U
breakdown
,
acidNr
,
T
flame
,
R
main
20,
R
secondary
20,
tg
Rmain
20
) в пропуски были помещены сред-
ние значения по соответствующему признаку с по-
мощью преобразователя Imputer(strategy = "mean");
для признаков-категорий и дискретных численных
признаков (
rubber_age
,
porcelain
,
no_leveling
,
air_
fi
lter_
malfunction
,
low_oil
,
outer_heating
,
age
) в пропуски
были установлены наиболее часто встречающиеся
значения величины с помощью преобразователя
Imputer(strategy = "most_frequent").
Настройка
модели
.
С целью повышения точно-
сти алгоритма была выполнена настройка параме-
тров с помощью функции GridSearch, проводящей
перебор комбинаций значений параметров модели
в поиске, дающих наибольшие метрики качества
модели, такие как точность (
presicion
) и чувствитель-
ность (
recall
):
precision
=
TP
/(
TP
+
FP
),
recall
=
TP
/(
TP
+
FN
), (4)
где
TP
— истинно положительный;
FP
— ложно по-
ложительный;
FN
— ложно отрицательный.
Результирующие метрики точности и полно-
ты определены как среднее между данными ме-
триками для каждого из классов (precision_macro
и recall_macro); это сделано для учета несбаланси-
рованности классов.
Анализ
результатов
.
Важность признаков для
каждого из алгоритмов определяется как улучшение
в точности, полученное от использования признака
в ветвях дерева при делении. С помощью функ-
ции .feature_importance можно получить статистику
улучшения точности классификации от применения
признаков; сумма важности всех признаков приве-
дена к единице. Результаты для XGBoost и Random
Forest представлены на рисунках 8 и 9.
Из рисунков 8 и 9 видно, что алгоритмы, в целом,
выбирают практически похожий набор параметров
(отличие всего по нескольким параметрам), но при
этом распределение важности между параметрами
значительно отличается и, например, часть призна-
ков, которые для работы алгоритма XGBoost прак-
тически не важны, для алгоритма Random Forest
имеют существенный вес. То есть можно сделать
вывод, что данные алгоритмы формируют практи-
чески идентичный состав параметров, но именно от
веса (важности) каждого параметра и зависит точ-
ность распознавания состояния ТТ.
В таблице 3 представлены характеристики вы-
борок и признаков, используемых в данном иссле-
довании.
Из таблицы 4 видно, что оценки качества класси-
фикации алгоритмов (
precision
и
recall
) различаются на
18,4% и 19,7% для XGBoost и Random Forest соответ-
ственно. В этом случае очевидно, что XGBoost имеет
значительно большую точность при определении со-
стояния силового оборудования, чем классификатор
Random Forest. Для каждого из алгоритмов оценива-
ется средняя точность по классам и, как также видно
из таблицы 4, разница — значительная.
С точки зрения электроэнергетики метрику
Precision можно охарактеризовать как пропуск нера-
0,000
0,00
0,025
0,02
0,050
0,04
0,125
0,10
0,150
0,12
0,175 0,200
0,14
0,075
0,06
0,100
0,08
C
2
H
6
outer_heating
low_oil
air_
fi
lter_malfunction
no_leveling
porcelain
tg
Rmain
20
CO
2
C
2
H
2
CO
H
2
rubber_age
T
flame
acidNr
tg
Oil
90
R
secondary
20
C
2
H
4
U
breakdown
R
main
20
age
moist
CH
4
I
conn
porcelain
acidNr
low_oil
T
flame
moist
rubber_age
R
main
20
outer_heating
no_leveling
air_
fi
lter_malfunction
tg
Rmain
20
R
secondary
20
age
U
breakdown
I
conn
Рис
. 8.
Важность
признаков
для
модели
на
основе
XGBoost
Рис
. 9.
Важность
признаков
для
модели
на
основе
Random Forest
№
6 (63) 2020

144
ботоспособного состояния, что
может иметь гораздо более тя-
желые последствия (если такое
оборудование будет ошибочно
оставлено в работе без допол-
нительных действий со сторо-
ны персонала или недостаточ-
ности принятых воздействий
на оборудование), чем ложная
классификация неработоспо-
собного состояния.
Метрика Recall демонстри-
рует, какую долю объектов по-
ложительного класса из всех
объектов положительного клас-
са идентифицировал алгоритм,
то есть способность алгоритма
обнаруживать данный класс
вообще (по сути, это чувстви-
тельность алгоритма к данному
классу), что очень важно в за-
дачах с несбалансированными
классами, как в представленной
задаче.
В результате, чем выше
и
precision
, и
recall
, тем надеж-
нее работает представленный
алгоритм и тем точнее он для
каждого из классов идентифи-
цирует реальное состояние
и корректно исключает ложное,
поэтому для решения представ-
ленной задачи при выборе мет-
рик необходимо использовать
две основные метрики одновре-
менно — и
precision
, и
recall
.
ВНЕДРЕНИЕ
РАЗРАБОТАННОЙ
МОДЕЛИ
На основе представленной модели было разрабо-
тано программное обеспечение для анализа техни-
ческого состояния трансформаторов тока, которое
было внедрено для тестовой работы в энергокомпа-
нии Свердловской области.
ПО предполагает анализ технического состо-
яния как одиночного трансформатора тока, так
и группы трансформаторов тока — для ранжиро-
ванного анализа состояния ТТ. Групповой анализ
ТТ необходим для компаний, у которых на балансе
имеются одна и более подстанций для возможно-
сти формирования на основе такой оценки состоя-
ния графиков технического обслуживания и ремон-
тов оборудования.
Так как ПО носило тестовый характер, в нем было
решено оставить возможность обучения системы —
для возможности анализа различных наборов исход-
ных выборок по данным реального энергообъекта
и учета индивидуальных характеристик и условий
работы конкретных анализируемых на объекте ТТ.
Кроме того, было принято решение оставить в окне
вывода результаты анализа алгоритмов и XGBoost,
и Random Forest с целью анализа поведения обоих
алгоритмов и возможности повышения точности ра-
боты самой модели.
Табл. 3. Характеристики выборок для анализа состояния ТТ
Характеристика
Значение
Исходный объем выборки
1319
Объем обучающей выборки после устранения пропусков в данных
и удаления незначимых признаков
660
Изначальное количество признаков
33
Количество признаков после устранения незначимых для алгорит-
ма XGBoost
23
Количество признаков для алгоритма Random Forest
15
Количество выборок для кросс-валидации
10
Объем каждой элементарной выборки для кросс-валидации
66
Табл. 4. Параметры настройки и результаты работы алгоритмов
XGBoost
RandomForest
Параметр
Значение
Параметр
Значение
alpha
0,05
n_estimators
20
lambda
0,05
max_depth
3
gamma
1
min_samples_split
0,01
eta
0,01
min_samples_leaf
0,01
max_depth
4
max_features
1
base_score
0,7
n_estimators
20
learning_rate
1
max_delta_step
1
Точность
0,926
Точность
0,909
Точность средняя по классам
0,823
Точность средняя по классам
0,635
precision_macro
0,871
precision_macro
0,687
кecall_macro
0,837
кecall_macro
0,640
Рис
. 10.
Окно
результатов
ана
-
лиза
группы
ТТ
Рис
. 11.
Анализ
метрик
работы
алгоритмов
На рисунках 10–11 представлены интерфейсы
окон результатов анализа для группы трансформа-
торов ТТ.
ДИАГНОСТИКА
И МОНИТОРИНГ

145
В таблице 5 представлены данные формиро-
вания очередности ремонтов по группе ТТ в зави-
симости от анализа их состояния по результатам
работы разработанной модели на базе XGBoost.
ВЫВОДЫ
Основное отличие данной статьи от существую-
щих работ по данной тематике заключается не
только в объекте исследования — измеритель-
ных трансформаторах тока, а в создании нового
подхода к формированию и обработке исходных
данных (обучающей и тестовой выборок) на осно-
ве технологий извлечения признаков, преобразо-
вания признаков, заполнения пропусков в данных
и анализа коллинеарности признаков для повы-
шения точности классификации состояния обору-
дования (с математической точки зрения) и кор-
ректности интерпретации результатов машинного
обучения (с технической точки зрения).
В данной статье автором продемонстрирован
пример формирования выборки на основе реаль-
ных данных диагностики состояния ТТ, которая при
реальной эксплуатации характеризуется значитель-
ным количеством пропусков в данных, наличием вы-
бросов и высокой неравномерностью распределения
классов.
В рамках представленного исследования удалось
выработать пошаговый алгоритм предварительной
обработки данных для решения задачи классифика-
ции технического состояния оборудования и за счет
этого повысить точность результата работы самих
алгоритмов машинного обучения, а также проана-
лизировать и выявить неявные зависимости и за-
Табл. 5. Формирование очередности ремонтов по группе ТТ
№ прио-
ритета
ремонта ТТ
№ ТТ
в базе пред-
приятия
Непри-
годное
Неудов-
летвори-
тельное
Хорошее
1
12
90,9%
8,6%
0,5%
2
17
90,5%
8,7%
0,8%
3
21
90,3%
8,7%
1,0%
4
26
90,1%
8,8%
1,1%
5
11
88,7%
9,5%
1,8%
6
53
88,6%
9,5%
1,9%
7
66
86,4%
11,5%
2,1%
8
15
85,2%
12,6%
2,2%
9
13
84,1%
13,3%
2,6%
10
2
84,0%
13,4%
2,6%
11
8
83,7%
13,5%
2,8%
12
99
83,5%
13,7%
2,8%
кономерности в данных, что и продемонстрировано
в представленной работе. Несмотря на активное раз-
витие и применение методов машинного обучения
для решения задачи анализа технического состояния
оборудования, основной проблемой их корректно-
го и эффективного применения до сих пор остается
именно проблема качественной обработки исходных
данных, для решения которой универсального подхо-
да пока так и не разработано.
Работа, по результатам которой выполнена ста-
тья, реализована за счет гранта Российского научного
фонда (проект № 18-79-00201).
ЛИТЕРАТУРА/REFERENCES
1. Li W.W., Li J.Y., Yin G.L. et al. Fre-
quency dependence of breakdown
performance of XLPE with diff erent
artifi cial defects. IEEE Trans. Dielectr.
Electr. Insul, 2012, 19, (4), pp. 1351-
1359.
2. Fofana I., Hadjadj Y. Electrical-based
diagnostic techniques for assessing
insulation condition in aged transfor-
mers. Energies, 2016, 9, (9), pp. 679-
705.
3. Shen X.Q., Yang Y., Cong B. et al.
Temperature measurement of power
cable based on distributed optical fi -
ber sensor. J. Phys., Conf. Series.,
2016, 679. pp. 1-2.
4. Zhou C.K., Yang Y., Li M.Z. et al.
An integrated cable condition diag-
nosis and fault localization system
via sheath current monitoring. CMD,
2016, pp. 1-8.
5. Wu M., Cao H., Cao J. et al. An over-
view of state-of-the-art partial dis-
charge analysis techniques for con-
dition monitoring. IEEE Electr. Insul.
Mag., 2015, 31, (6), pp. 22-35.
6. Su Z., Li Q. Historical review and
summary on measures against pollu-
tion fl ashover occurred in power grids
in China. Power Syst. Technol., 2010,
34, (12), pp. 125-130. (in Chinese)
7. Zhao C., Zhou Z., Gao S. et al. Pol-
lution fl ashover pre-warning system
based on prediction of fl ashover volt-
age. High Volt. Eng., 2014, 40, (11),
pp. 3365-3373.
8. Huang X., Wei X., Li M. et al. On-line
transmission-line icing monitoring
technology based on three groups
of force sensors and angle sen-
sors. High Volt. Eng., 2014, 40, (2),
pp. 374-380.
9. Goncalves R.S., Carvalho J.C.M.
et al. A mobile robot to be applied
in high-voltage power lines. J. Braz.
Soc. Mech. Sic. Eng., 2015, 37, (1),
pp. 349-359.
10. Goncalves R.S., Mendes C. et al.
Review and latest trends in mobile
robots used on power transmission
lines. Int. J. Adv. Robot. Syst., 2013,
10, pp. 1-14.
11. Vidyasagar B., Ram S.S.T. Condition
monitoring analysis of synchronous
generator based on an adaptive tech-
nique. 2017 International Conference
on Inventive Systems and Control
(ICISC), Coimbatore, 2017, pp. 1-12.
12. Asiri Y.A., Vouk A.O., Renforth L.,
Clark D., Copper J. Neural network
based classifi cation of partial dis-
charge in HV motors. 2011 Electrical
Insulation Conference (EIC), 2011,
pp. 333-339.
13. Yuan R. Fault diagnosis for engine
by support vector machine and im-
proved particle swarm optimization
algorithm. J. Inf. Comput. Sci., 2014,
11, (13), pp. 4827-4835.
14. Rigatos G.G., Zervos N., Serpanos
D., Siadimas V., Siano P., Abbasza-
deh M. Condition monitoring of wind-
power units using the Derivative-free
nonlinear Kalman Filter. 2018 IEEE
16th International Conference on In-
dustrial Informatics (INDIN), 2018,
pp. 472-477.
15. Ali B.J., Chebel-Morello B., Saidi L.,
Malinowski S., Fnaiech F. Accurate
bearing remaining useful life predic-
tion based on Weibull distribution and
artifi cial neural network. Mechanical
Systems and Signal Processing, Ei-
sevier, 2015, 56-57, pp 150-172.
16. Bellini A., Filippetti F., Tassoni C. et al.
Advances in Diagnostic Techniques
for Induction Machines. IEEE Trans.
Ind. Electr., 2008, 55, (12), pp. 4109-
4126.
17. Naumov S.A. et al. Experience in Use
of Remote Access and Predictive An-
alytics for Power Equipment’s Condi-
tion. Thermal Engineering, 2018, 65,
pp. 189-199.
№
6 (63) 2020
Статья посвящена проблеме оценки фактического состояния маслонаполненных измерительных трансформаторов тока как одного из видов вспомогательного высоковольтного оборудования распределительных устройств станций и подстанций, для которых характерно отсутствие систем мониторинга и, как следствие, высокая неопределенность при идентификации технического состояния. Автором статьи реализована пошаговая процедура обработки исходных данных, включающая в себя подбор и преобразование отдельных признаков и классов состояний, восстановление пропусков в исходных данных, анализ коллинеарности признаков и направленная на повышение точности идентификации состояния оборудования. Задача распознавания классов состояний трансформаторов тока решена с использованием алгоритмов случайного леса и градиентного бустинга над деревьями решений. Апробация разработанной системы выполнена на основе базы данных парка оборудования региональной сетевой компании, что позволило получить решение эксплуатационной задачи — формирование ранжированных списков оборудования для включения в программу ремонтов и обслуживания.