Ako súčasný otvorený transformátor manipuluje s nerovnováhou dát v tréningu?

Dátová nerovnováha je bežnou a náročnou otázkou pri výcviku súčasných otvorených transformátorov. Ako dodávateľ súčasných otvorených transformátorov máme rozsiahle skúsenosti a hĺbkové pochopenie toho, ako riešiť tento problém. V tomto blogu preskúmame metódy a stratégie, ktoré naše súčasné otvorené transformátory používajú na riešenie dátovej nerovnováhy počas tréningu.

Pochopenie dátovej nerovnováhy v tréningu transformátora

Dátová nerovnováha sa vzťahuje na situáciu, keď distribúcia tried v súbore údajov nie je jednotná. V kontexte súčasných otvorených transformátorov sa to môže vyskytnúť v rôznych aplikáciách, ako je detekcia porúch v elektrických systémoch. Napríklad v súbore údajov na detekciu elektrických porúch môžu normálne prevádzkové podmienky ďaleko prevyšovať abnormálne alebo chybné podmienky. Táto nerovnováha môže viesť k niekoľkým problémom počas tréningu.

Ak je transformátor trénovaný na nevyváženom súbore údajov, má tendenciu byť zaujatý voči väčšinovej triede. Model môže dosiahnuť vysokú presnosť vo väčšinovej triede, ale v menšinovej triede má zle. V scenári detekcie elektrických porúch môže byť transformátor veľmi dobrý pri identifikácii normálnych prevádzkových podmienok, ale nedokáže zistiť zriedkavé poruchy, ktoré sú často najdôležitejšie identifikované.

Odber techník

Jedným z najbežnejších spôsobov, ako zvládnuť nerovnováhu údajov, sú techniky vzorkovania. Existujú dva hlavné typy odberu vzoriek: nadmerné vzorkovanie a spodné vzorkovanie.

Nadmerné vzorkovanie

Zameriavanie sa týka zvýšenia počtu vzoriek v triede menšín. To sa dá urobiť niekoľkými spôsobmi. Jednou populárnou metódou je syntetická menšina technika vzorkovania (SMOTE). Smote vytvára syntetické vzorky pre menšinovú triedu interpoláciou medzi existujúcimi vzorkami menšiny.

V našich súčasných otvorených transformátoroch sme implementovali upravenú verziu Smote. Analyzujeme charakteristiky dátových bodov menšinovej triedy a vytvárame syntetické vzorky, ktoré sú reprezentatívnejšie pre scenáre skutočného sveta. Napríklad v prípade údajov o elektrických poruchách uvažujeme o elektrických parametroch a povahe dát v časovej sérii pri generovaní syntetických vzoriek. To pomáha transformátorovi lepšie sa naučiť vzorce menšinovej triedy a zlepšiť jeho schopnosť odhaliť zriedkavé chyby.

CHK-F Rectangular Residual Current Transformer

[CTKD Current Open Transformer] (/Fire - Monitoring - Reseual - Current - Transformer/CTKD - Current - Open - Transformer.html) Výhody z tejto metódy nadmerného vzorkovania významne dávajú. Zvýšením počtu vzoriek menšinovej triedy počas tréningu môže transformátor lepšie zachytiť jedinečné vlastnosti triedy menšín, čo vedie k presnejšej detekcii porúch.

Podzubulovanie

Na druhej strane poddamzorovanie znižuje počet vzoriek vo väčšinovej triede. Môže to byť jednoduchý spôsob, ako vyvážiť súbor údajov, ale má tiež obmedzenia, pretože to môže viesť k strate cenných informácií.

V našich súčasných otvorených transformátoroch používame selektívny prístup do spodného vzorkovania. Namiesto náhodného odstraňovania vzoriek z väčšinovej triedy identifikujeme a odstraňujeme vzorky, ktoré sú menej informatívne alebo nadbytočné. Napríklad v súbore údajov s veľkým počtom vzoriek normálnych prevádzkových podmienok môžeme odstrániť vzorky, ktoré majú veľmi podobné hodnoty elektrických parametrov. Týmto spôsobom môžeme znížiť nerovnováhu bez toho, aby sme obetovali príliš veľa informácií. [CHK - CTKD Open and Close Current Transformer] (/Fire - Monitorovanie - Residual - Current - Transformer/CHK - CTKD - Open - And - Current - Transformer.html) využíva túto stratégiu poddielkov počas svojho školiaceho procesu, čo zabezpečuje, aby sa model mohol zamerať na najrelevantnejšie údaje a dosiahnuť lepší výkon.

Cena - citlivé učenie

Ďalším prístupom k riešeniu nerovnováhy údajov je náklady - citlivé učenie. V tradičnom strojovom učení sa všetky chyby nesprávnej klasifikácie zaobchádza rovnako. V prípade nerovnováhy údajov je však nesprávne klasifikácia vzorky menšinovej triedy často nákladnejšia ako nesprávna klasifikácia vzorky väčšinovej triedy.

V našich súčasných otvorených transformátoroch implementujeme náklady - citlivé učenie priradením rôznych nákladov rôznym typom nesprávnej klasifikácie. Napríklad v aplikácii elektrickej detekcie porúch môže mať nesprávne klasifikácia chybného stavu v normálnom stave vážne následky, ako sú elektrické požiare alebo poškodenie zariadení. Preto k tomuto typu nesprávnej klasifikácie prideľujeme vyššie náklady.

Počas tréningového procesu sa transformátor snaží minimalizovať celkové náklady na nesprávnu klasifikáciu. To povzbudzuje model, aby venoval väčšiu pozornosť menšinovej triede a zlepšil presnosť klasifikácie pre menšinovú triedu. Transformátor [CHK - F obdĺžnikový zvyškový prúd] (/Fire - Monitorovanie - zvyškový - Prúd - transformátor/CHK - F - obdĺžnikový - zvyškový - prúd.html) je navrhnutý s algoritmami citlivých učení nákladov - citlivé učebné algoritmy, ktoré jej umožňujú lepšie zvládnuť nerovnováhu údajov o detekcii porúch.

Metódy súboru

Metódy súboru môžu byť tiež účinné pri riešení nerovnováhy údajov. Model súboru kombinuje viacero základných modelov, aby sa dosiahla konečná predpoveď. Použitím rôznych základných modelov vyškolených na rôznych podskupinách údajov môže model súboru zachytiť širšiu škálu vzorov a zlepšiť celkový výkon.

V našich súčasných otvorených transformátoroch používame techniky bagingu a zvyšovania. Balging zahŕňa školenie viacerých základných modelov na rôznych podskupinách údajov, ktoré sú náhodne vzorkované s výmenou. Na druhej strane posilňovanie modelov základných základov trénuje postupne, kde sa každý nový model zameriava na vzorky, ktoré boli nesprávne klasifikované predchádzajúcimi modelmi.

V kontexte dátovej nerovnováhy môžu metódy súborov pomôcť transformátorovi lepšie sa naučiť vzorce menšinovej triedy. Napríklad v súbore založenom na vreckách môžu byť niektoré základné modely trénované na podmnožinách údajov, ktoré majú relatívne vyvážené rozdelenie tried, čo im umožňuje efektívnejšie naučiť sa vlastnosti menšinovej triedy.

Hodnotenie

Pri riešení nerovnováhy údajov nemusia byť vhodné tradičné hodnotiace metriky, ako je presnosť. Presnosť meria celkový podiel správne klasifikovaných vzoriek, ale v prítomnosti dátovej nerovnováhy to môže byť zavádzajúce. Napríklad, ak má súbor údajov 95% vzoriek väčšinovej triedy a 5% vzorky triedy menšín, model, ktorý vždy predpovedá, že väčšina triedy dosiahne presnosť 95%, aj keď vôbec nedokáže zistiť triedu menšín.

Používame vhodnejšie hodnotiace metriky, ako sú presnosť, stiahnutie a skóre F1. Presnosť meria podiel správne predpovedaných pozitívnych vzoriek zo všetkých predpovedaných pozitívnych vzoriek. Pripomienka meria podiel správne predpovedaných pozitívnych vzoriek zo všetkých skutočných pozitívnych vzoriek. Skóre F1 je harmonickým priemerom presnosti a stiahnutia, ktoré poskytuje vyváženú mieru výkonu modelu.

Použitím týchto hodnotiacich metrík počas tréningu a testovania našich súčasných otvorených transformátorov môžeme lepšie posúdiť schopnosť modelu zvládnuť nerovnováhu údajov a vykonať potrebné úpravy na zlepšenie jeho výkonnosti.

Záver

Nerovnováha údajov je významnou výzvou pri výcviku súčasných otvorených transformátorov. Avšak pomocou techník odberu vzoriek, nákladov - citlivé učenie, metódy súboru a vhodné hodnotiace metriky môžeme tento problém efektívne riešiť. Náš [CTKD Current Open Transformer] (/Fire - Monitoring - Residual - Current - Transformer/CTKD - Current - Open - Transformer.html), [CHK - CTKD Open a Close Current Transformer] (/Fire - Monitorovanie - Residual - Current - Transformer/CHK - CTKD. Monitorovanie - zvyškový - prúd - transformátor/chk - f - obdĺžnikový - zvyškový - prúd.html) sú navrhnuté s ohľadom na tieto stratégie na zabezpečenie vysokého výkonu v rôznych aplikáciách, najmä pri detekcii zriedkavých udalostí, ako sú elektrické poruchy.

Ak vás zaujíma naše súčasné otvorené transformátory a chcete diskutovať o obstarávaní, neváhajte nás kontaktovať. Sme pripravení vám poskytnúť podrobné informácie o produkte a riešenia prispôsobené vašim konkrétnym potrebám.

Odkazy

Chawla, NV, Bowyer, KW, Hall, Lo a Kegelmeyer, WP (2002). Smote: Syntetická menšina Over - Technika vzorkovania. Journal of Artificial Intelligence Research, 16, 321 - 357.
Elkan, C. (2001). Základy nákladov - citlivé učenie. V Ijcai (zväzok 1, str. 973 - 978).