Անոմալիաների հայտնաբերումը տվյալների շահագործման լուռ հերոսն է՝ ծխի ազդանշանը, որը շշնջում է, նախքան իրերը բռնկվեն։
Պարզ ասած՝ արհեստական բանականությունը սովորում է, թե ինչ տեսք ունի «նորմալը», նոր իրադարձություններին տալիս է անոմալիայի գնահատական , ապա որոշում է՝ մարդուն ուղարկել (թե ավտոմատ կերպով արգելափակել)՝ հիմնվելով որոշակի շեմի ։ Խնդիրը նրանում է, թե ինչպես եք սահմանում «նորմալը», երբ ձեր տվյալները սեզոնային են, խառնաշփոթ, փոփոխական և երբեմն ստում են ձեզ։ [1]
Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.
🔗 Ինչու՞ կարող է արհեստական բանականությունը վնասակար լինել հասարակության համար։
Ուսումնասիրվում են արհեստական բանականության լայն տարածման էթիկական, տնտեսական և սոցիալական ռիսկերը։
🔗 Որքան ջուր են իրականում օգտագործում արհեստական բանականության համակարգերը։
Բացատրում է տվյալների կենտրոնի սառեցումը, ուսուցման պահանջները և շրջակա միջավայրի վրա ջրի ազդեցությունը։
🔗 Ի՞նչ է արհեստական բանականության տվյալների բազմությունը և ինչու է այն կարևոր։
Սահմանում է տվյալների բազմությունները, պիտակավորումը, աղբյուրները և դրանց դերը մոդելի աշխատանքի մեջ։
🔗 Ինչպես է արհեստական բանականությունը կանխատեսում միտումները բարդ տվյալներից։
Ներառում է օրինաչափությունների ճանաչումը, մեքենայական ուսուցման մոդելները և իրական աշխարհում կանխատեսումների կիրառությունները։
«Ինչպե՞ս է արհեստական բանականությունը հայտնաբերում անոմալիաները»։
Լավ պատասխանը պետք է ավելին անի, քան պարզապես ալգորիթմների ցուցակագրումը։ Այն պետք է բացատրի մեխանիզմները և թե ինչ տեսք ունեն դրանք, երբ դրանք կիրառում եք իրական, անկատար տվյալների վրա։ Լավագույն բացատրությունները՝
-
Ցույց տվեք հիմնական բաղադրիչները՝ հատկանիշներ , բազային գծեր , միավորներ և շեմեր ։ [1]
-
Հակադրեք գործնական ընտանիքները՝ հեռավորություն, խտություն, մեկ դաս, մեկուսացում, հավանականային, վերակառուցում: [1]
-
Կառավարեք ժամանակային շարքերի առանձնահատկությունները. «նորմալը» կախված է օրվա ժամից, շաբաթվա օրվանից, թողարկումներից և տոներից։ [1]
-
Գնահատմանը վերաբերվեք որպես իրական սահմանափակման. կեղծ տագնապները ոչ միայն նյարդայնացնող են, այլև այրում են վստահությունը։ [4]
-
Ներառեք մեկնաբանելիությունը + մարդկային-ցիկլի մեջ լինելը, քանի որ «տարօրինակ է»-ը հիմնական պատճառ չէ։ [5]
Հիմնական մեխանիկա՝ բազային գծեր, միավորներ, շեմեր 🧠
Անոմալ համակարգերի մեծ մասը՝ երևակայական թե ոչ, կրճատվում է երեք շարժական մասի.
է տեսնում մոդելը )
Հում ազդանշանները հազվադեպ են բավարար։ Դուք կամ մշակում եք առանձնահատկություններ (շարժվող վիճակագրություն, հարաբերակցություններ, լագեր, սեզոնային դելտաներ), կամ սովորում եք ներկայացումներ (ներդրումներ, ենթատարածություններ, վերակառուցումներ): [1]
2) Գնահատում (այսինքն՝ որքա՞ն «տարօրինակ» է սա):
Գնահատման ընդհանուր գաղափարները ներառում են.
-
Հեռավորության վրա հիմնված . հարևաններից հեռու = կասկածելի։ [1]
-
Խտության վրա հիմնված . ցածր տեղական խտություն = կասկածելի (LOF-ը հիմնական երեխան է): [1]
-
Միադասային սահմաններ . սովորեք «նորմալ», նշեք, թե ինչն է դուրս մնում։ [1]
-
Հավանականային . ցածր հավանականություն համապատասխան մոդելի դեպքում = կասկածելի։ [1]
-
Վերակառուցման սխալ . եթե նորմալ ռեժիմով մարզված մոդելը չի կարողանում վերակառուցել այն, ապա այն, հավանաբար, սխալ է։ [1]
3) Շեմի սահմանում (այսինքն՝ երբ պետք է զանգել զանգը)
Շեմերը կարող են լինել ֆիքսված, քվանտիլային, յուրաքանչյուր հատվածի համար կամ ծախսերի նկատմամբ զգայուն, բայց դրանք պետք է ճշգրտվեն տագնապի բյուջեների և հետագա ծախսերի, այլ ոչ թե թրթռումների համեմատ։ [4]
Մեկ շատ գործնական մանրամասնություն. scikit-learn-ի արտառոց/նորույթի դետեկտորները բացահայտում են հում միավորներ , ապա կիրառում են շեմ (հաճախ վերահսկվող աղտոտման ոճի ենթադրության միջոցով)՝ միավորները ներքին/արտառոց որոշումների վերածելու համար: [2]
Արագ սահմանումներ, որոնք կանխում են ցավը հետագայում 🧯
Երկու տարբերություն, որոնք կփրկեն ձեզ նուրբ սխալներից.
-
Արտառոց արժեքների հայտնաբերում . ձեր մարզման տվյալները կարող են արդեն ներառել արտառոց արժեքներ. ալգորիթմը այնուամենայնիվ փորձում է մոդելավորել «խիտ նորմալ տիրույթը»։
-
Նորույթի հայտնաբերում . մարզման տվյալները ենթադրվում են մաքուր. դուք գնահատում եք, թե արդյոք նոր դիտարկումները համապատասխանում են սովորած նորմալ օրինաչափությանը: [2]
Նաև՝ նորույթի հայտնաբերումը հաճախ ձևակերպվում է որպես միադաս դասակարգում ՝ մոդելավորելով նորմալը, քանի որ աննորմալ օրինակները սակավաթիվ են կամ անորոշ։ [1]

Անհսկելի աշխատուժ, որը դուք իրականում կօգտագործեք 🧰
Երբ պիտակները սակավ են (ինչը, ըստ էության, միշտ է լինում), իրական խողովակաշարերում հայտնվում են հետևյալ գործիքները.
-
Մեկուսացված անտառ . ուժեղ լռելյայնություն բազմաթիվ աղյուսակային դեպքերում, լայնորեն կիրառվում է գործնականում և իրականացվում է scikit-learn-ում: [2]
-
Միակ դասի SVM . կարող է արդյունավետ լինել, բայց զգայուն է կարգավորման և ենթադրությունների նկատմամբ. scikit-learn-ը հստակորեն նշում է հիպերպարամետրերի զգույշ կարգավորման անհրաժեշտությունը։ [2]
-
Տեղական արտառոց գործոն (LOF) . դասական խտության վրա հիմնված գնահատական. հիանալի է, երբ «նորմալը» կոկիկ բծ չէ։ [1]
Գործնական խնդիր, որը թիմերը ամեն շաբաթ վերագտնում են. LOF-ը տարբեր կերպ է վարվում՝ կախված նրանից, թե դուք հայտնաբերում եք անորոշություն մարզման հավաքածուում, թե՞ նոր տվյալների վրա նորության հայտնաբերում. scikit-learn-ը նույնիսկ պահանջում է նորույթ=Ճշմարիտ ՝ անտեսանելի միավորներ անվտանգ կերպով վաստակելու համար: [2]
Հուսալի բազային գիծ, որը դեռևս գործում է, երբ տվյալները անորոշ են 🪓
Եթե դուք գտնվում եք «մեզ պարզապես ինչ-որ բան է պետք, որը մեզ չի տանի մոռացության» ռեժիմում, ապա հուսալի վիճակագրությունը թերագնահատված է։
Փոփոխված z-միավորը օգտագործում է միջնարժեքը և MAD-ը (միջին բացարձակ շեղում)՝ ծայրահեղ արժեքների նկատմամբ զգայունությունը նվազեցնելու համար: NIST-ի EDA ձեռնարկը փաստաթղթավորում է փոփոխված z-միավորի ձևը և նշում է 3.5- : [3]
Սա չի լուծի բոլոր անոմալիաների խնդիրը, բայց հաճախ այն հանդիսանում է պաշտպանության ուժեղ առաջին գիծ, հատկապես աղմկոտ չափանիշների և վաղ փուլի մոնիթորինգի համար։ [3]
Ժամանակային շարքերի իրականություն. «Նորմալը» կախված է նրանից, թե երբ ⏱️📈
Ժամանակային շարքերի անոմալիաները բարդ են, քանի որ ամբողջ իմաստը համատեքստն է. կեսօրին կարող է սպասվել կտրուկ աճ, նույն կտրուկ աճը ժամը 3-ին կարող է նշանակել, որ ինչ-որ բան այրվում է: Հետևաբար, շատ գործնական համակարգեր մոդելավորում են նորմալությունը՝ օգտագործելով ժամանակի վրա ազդող հատկանիշներ (լագեր, սեզոնային դելտաներ, պտտվող պատուհաններ) և գնահատում են շեղումները սպասվող օրինաչափության նկատմամբ: [1]
Եթե հիշում եք միայն մեկ կանոն՝ բաժանեք ձեր բազային գիծը (ժամ/օր/տարածաշրջան/ծառայության մակարդակ) նախքան ձեր երթևեկության կեսը «աննորմալ» հայտարարելը։ [1]
Գնահատում. Հազվագյուտ դեպքերի ծուղակը 🧪
Անոմալիայի հայտնաբերումը հաճախ «ասեղ է խոտի դեզի մեջ», ինչը գնահատումը տարօրինակ է դարձնում։
-
ROC կորերը կարող են խաբուսիկորեն գեղեցիկ թվալ, երբ դրականները հազվադեպ են լինում։
-
Ճշգրիտ հիշեցման տեսանկյունները հաճախ ավելի տեղեկատվական են անհավասարակշիռ կարգավորումների համար, քանի որ դրանք կենտրոնանում են դրական դասի կատարողականի վրա: [4]
-
Գործառնական առումով, ձեզ նույնպես անհրաժեշտ է ահազանգերի բյուջե . ժամում քանի՞ ահազանգ կարող են մարդիկ իրականում տեսակավորել առանց զայրույթը հանդարտեցնելու: [4]
Շարժական պատուհանների վրա հետադարձ թեստավորումը օգնում է ձեզ բռնել դասական ձախողման ռեժիմը. «այն հիանալի է աշխատում… անցյալ ամսվա բաշխման վրա»: [1]
Մեկնաբանելիություն և արմատական պատճառ. ցույց տվեք ձեր աշխատանքը 🪄
Առանց բացատրության ահազանգելը նման է խորհրդավոր բացիկ ստանալուն։ Մի փոքր օգտակար է, բայց հիասթափեցնող։
Մեկնաբանելիության գործիքները կարող են օգնել՝ նշելով, թե որ հատկանիշներն են ամենաշատը նպաստել անոմալիայի գնահատմանը, կամ տալով «ի՞նչ պետք է փոխվի, որպեսզի սա նորմալ տեսք ունենա» ոճային բացատրությունները: « Մեկնաբանելի մեքենայական ուսուցում » գիրքը ամուր, քննադատական ուղեցույց է տարածված մեթոդների (ներառյալ SHAP ոճի վերագրումները) և դրանց սահմանափակումների վերաբերյալ: [5]
Նպատակը միայն շահագրգիռ կողմերի հարմարավետությունը չէ. դա ավելի արագ տեսակավորումն է և կրկնվող միջադեպերի նվազումը։
Տեղակայում, տեղաշարժ և հետադարձ կապի ցիկլեր 🚀
Մոդելները չեն ապրում սլայդներում։ Նրանք ապրում են խողովակաշարերում։
«Արտադրության առաջին ամսվա» տարածված պատմություն. դետեկտորը հիմնականում նշումներ է անում տեղակայումների, խմբային աշխատանքների և բացակայող տվյալների մասին… ինչը դեռևս օգտակար , քանի որ ստիպում է ձեզ տարբերակել «տվյալների որակի միջադեպերը» «գործարար անոմալիաներից»։
Գործնականում.
-
Հետևեք շեղմանը և վերավարժեցրեք/վերակարգավորեք վարքի փոփոխությանը զուգընթաց։ [1]
-
Գրանցեք միավորների մուտքագրումները + մոդելի տարբերակը , որպեսզի կարողանաք վերարտադրել, թե ինչու է ինչ-որ բան էջավորված։ [5]
-
Գրանցեք մարդկային արձագանքը (օգտակար ընդդեմ աղմկոտ ահազանգերի)՝ ժամանակի ընթացքում շեմերը և հատվածները կարգավորելու համար։ [4]
Անվտանգության անկյուն. IDS և վարքային վերլուծություն 🛡️
Անվտանգության թիմերը հաճախ անոմալիաների գաղափարները խառնում են կանոնների վրա հիմնված հայտնաբերման հետ՝ «նորմալ հոսթի վարքագծի» համար նախատեսված բազային գծեր, գումարած՝ հայտնի վատ օրինաչափությունների համար նախատեսված ստորագրություններ և քաղաքականություններ: NIST-ի SP 800-94 (վերջնական)-ը շարունակում է մնալ լայնորեն մեջբերվող շրջանակ ներխուժումների հայտնաբերման և կանխարգելման համակարգերի նկատառումների համար. այն նաև նշում է, որ 2012 թվականի «Rev. 1» նախագիծը երբեք վերջնական չի դարձել և հետագայում հանվել է շրջանառությունից: [3]
Թարգմանություն՝ օգտագործեք մեքենայական ուսուցումը այնտեղ, որտեղ դա օգնում է, բայց մի՛ դեն նետեք ձանձրալի կանոնները. դրանք ձանձրալի են, որովհետև աշխատում են։
Համեմատական աղյուսակ. Հայտնի մեթոդների համառոտ ակնարկ 📊
| Գործիք / մեթոդ | Լավագույնը | Ինչու է այն աշխատում (գործնականում) |
|---|---|---|
| Հուսալի / փոփոխված z-միավորներ | Պարզ չափանիշներ, արագ բազային ցուցանիշներ | Հզոր առաջին անցում, երբ ձեզ անհրաժեշտ է «բավականաչափ լավ» և ավելի քիչ կեղծ տագնապներ։ [3] |
| Մեկուսացված անտառ | Աղյուսակային, խառը հատկանիշներ | Հաստատուն լռելյայն իրականացում և լայնորեն կիրառվող պրակտիկայում։ [2] |
| Մեկ դասի SVM | Կոմպակտ «նորմալ» շրջաններ | Սահմանային նորույթի հայտնաբերում. կարգավորումը մեծ նշանակություն ունի։ [2] |
| Տեղական արտառոց գործոն | Բազմաձև նորմալներ | Խտության հակադրությունը հարևանների հետ ցույց է տալիս տեղական տարօրինակությունը։ [1] |
| Վերակառուցման սխալ (օրինակ՝ ավտոմատ կոդավորիչի ոճով) | Բարձր չափի նախշեր | Գնացքը նորմալ ռեժիմով. մեծ վերակառուցման սխալները կարող են ցույց տալ շեղումները։ [1] |
Խաբեության կոդ. սկսեք ամուր բազային գծերից + ձանձրալի, անվերահսկելի մեթոդից, այնուհետև ավելացրեք բարդություն միայն այնտեղ, որտեղ դա արդյունավետ է։
Փոքր ձեռնարկ. զրոյից մինչև ահազանգեր 🧭
-
Սահմանեք «տարօրինակը» գործառնականորեն (լատենտություն, խարդախության ռիսկ, պրոցեսորի ջարդոն, գույքագրման ռիսկ):
-
Սկսեք բազային մակարդակից (հուսալի վիճակագրություն կամ հատվածավորված շեմեր): [3]
-
Որպես առաջին անցում ընտրեք մեկ չվերահսկվող մոդել
-
Սահմանեք շեմեր՝ օգտագործելով ահազանգման բյուջե , և գնահատեք հասարակայնության հետ կապերի ոճով մտածելակերպով, եթե դրական արդյունքները հազվադեպ են լինում։ [4]
-
Ավելացրեք բացատրություններ + գրանցում , որպեսզի յուրաքանչյուր ահազանգ վերարտադրելի և վրիպազերծելի լինի։ [5]
-
Հետփորձարկում, առաքում, ուսուցում, վերակարգավորում - շեղումը նորմալ է։ [1]
Դուք կարող եք դա անել մեկ շաբաթում… ենթադրելով, որ ձեր ժամանակային դրոշմանիշները չեն ամրացված սկոտչով և հույսով։ 😅
Վերջնական դիտողություններ - Շատ երկար է, չեմ կարդացել🧾
Արհեստական բանականությունը հայտնաբերում է անոմալիաները՝ սովորելով «նորմալի» գործնական պատկերը, գնահատելով շեղումները և նշելով, թե ինչն է անցնում շեմը։ Լավագույն համակարգերը հաղթում են ոչ թե աչքի ընկնող լինելով, այլ տրամաչափված ՝ հատվածավորված բազային գծեր, ահազանգերի բյուջեներ, մեկնաբանելի ելքեր և հետադարձ կապի օղակ, որը աղմկոտ ահազանգերը վերածում է վստահելի ազդանշանի։ [1]
Հղումներ
-
Պիմենտել և այլք (2014) - Նորույթի հայտնաբերման վերանայում (PDF, Օքսֆորդի համալսարան) կարդալ ավելին
-
scikit-learn Փաստաթղթավորում - Նորույթի և անսովորության հայտնաբերում Կարդալ ավելին
-
NIST/SEMATECH էլեկտրոնային ձեռնարկ - Բացասական ցուցանիշների հայտնաբերում, կարդալ ավելին և NIST CSRC - SP 800-94 (վերջնական). Ներխուժման հայտնաբերման և կանխարգելման համակարգերի (IDPS) ուղեցույց, կարդալ ավելին
-
Սաիտո և Ռեմսմայեր (2015) - Ճշգրիտ հետկանչի գրաֆիկն ավելի տեղեկատվական է, քան ROC գրաֆիկը՝ անհավասարակշռված տվյալների բազմությունների վրա երկուական դասակարգիչների գնահատման ժամանակ (PLOS ONE) կարդալ ավելին
-
Մոլնար - Մեկնաբանելի մեքենայական ուսուցում (վեբ գիրք) կարդալ ավելին