Ինչպե՞ս է արհեստական ​​բանականությունը հայտնաբերում անոմալիաները։

Ինչպե՞ս է արհեստական ​​բանականությունը հայտնաբերում անոմալիաները։

Անոմալիաների հայտնաբերումը տվյալների շահագործման լուռ հերոսն է՝ ծխի ազդանշանը, որը շշնջում է, նախքան իրերը բռնկվեն։

Պարզ ասած՝ արհեստական ​​բանականությունը սովորում է, թե ինչ տեսք ունի «նորմալը», նոր իրադարձություններին տալիս է անոմալիայի գնահատական , ապա որոշում է՝ մարդուն ուղարկել (թե ավտոմատ կերպով արգելափակել)՝ հիմնվելով որոշակի շեմի ։ Խնդիրը նրանում է, թե ինչպես եք սահմանում «նորմալը», երբ ձեր տվյալները սեզոնային են, խառնաշփոթ, փոփոխական և երբեմն ստում են ձեզ։ [1]

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.

🔗 Ինչու՞ կարող է արհեստական ​​բանականությունը վնասակար լինել հասարակության համար։
Ուսումնասիրվում են արհեստական ​​բանականության լայն տարածման էթիկական, տնտեսական և սոցիալական ռիսկերը։

🔗 Որքան ջուր են իրականում օգտագործում արհեստական ​​բանականության համակարգերը։
Բացատրում է տվյալների կենտրոնի սառեցումը, ուսուցման պահանջները և շրջակա միջավայրի վրա ջրի ազդեցությունը։

🔗 Ի՞նչ է արհեստական ​​բանականության տվյալների բազմությունը և ինչու է այն կարևոր։
Սահմանում է տվյալների բազմությունները, պիտակավորումը, աղբյուրները և դրանց դերը մոդելի աշխատանքի մեջ։

🔗 Ինչպես է արհեստական ​​բանականությունը կանխատեսում միտումները բարդ տվյալներից։
Ներառում է օրինաչափությունների ճանաչումը, մեքենայական ուսուցման մոդելները և իրական աշխարհում կանխատեսումների կիրառությունները։


«Ինչպե՞ս է արհեստական ​​բանականությունը հայտնաբերում անոմալիաները»։ 

Լավ պատասխանը պետք է ավելին անի, քան պարզապես ալգորիթմների ցուցակագրումը։ Այն պետք է բացատրի մեխանիզմները և թե ինչ տեսք ունեն դրանք, երբ դրանք կիրառում եք իրական, անկատար տվյալների վրա։ Լավագույն բացատրությունները՝

  • Ցույց տվեք հիմնական բաղադրիչները՝ հատկանիշներ , բազային գծեր , միավորներ և շեմեր ։ [1]

  • Հակադրեք գործնական ընտանիքները՝ հեռավորություն, խտություն, մեկ դաս, մեկուսացում, հավանականային, վերակառուցում: [1]

  • Կառավարեք ժամանակային շարքերի առանձնահատկությունները. «նորմալը» կախված է օրվա ժամից, շաբաթվա օրվանից, թողարկումներից և տոներից։ [1]

  • Գնահատմանը վերաբերվեք որպես իրական սահմանափակման. կեղծ տագնապները ոչ միայն նյարդայնացնող են, այլև այրում են վստահությունը։ [4]

  • Ներառեք մեկնաբանելիությունը + մարդկային-ցիկլի մեջ լինելը, քանի որ «տարօրինակ է»-ը հիմնական պատճառ չէ։ [5]


Հիմնական մեխանիկա՝ բազային գծեր, միավորներ, շեմեր 🧠

Անոմալ համակարգերի մեծ մասը՝ երևակայական թե ոչ, կրճատվում է երեք շարժական մասի.

է տեսնում մոդելը )

Հում ազդանշանները հազվադեպ են բավարար։ Դուք կամ մշակում եք առանձնահատկություններ (շարժվող վիճակագրություն, հարաբերակցություններ, լագեր, սեզոնային դելտաներ), կամ սովորում եք ներկայացումներ (ներդրումներ, ենթատարածություններ, վերակառուցումներ): [1]

2) Գնահատում (այսինքն՝ որքա՞ն «տարօրինակ» է սա):

Գնահատման ընդհանուր գաղափարները ներառում են.

  • Հեռավորության վրա հիմնված . հարևաններից հեռու = կասկածելի։ [1]

  • Խտության վրա հիմնված . ցածր տեղական խտություն = կասկածելի (LOF-ը հիմնական երեխան է): [1]

  • Միադասային սահմաններ . սովորեք «նորմալ», նշեք, թե ինչն է դուրս մնում։ [1]

  • Հավանականային . ցածր հավանականություն համապատասխան մոդելի դեպքում = կասկածելի։ [1]

  • Վերակառուցման սխալ . եթե նորմալ ռեժիմով մարզված մոդելը չի ​​կարողանում վերակառուցել այն, ապա այն, հավանաբար, սխալ է։ [1]

3) Շեմի սահմանում (այսինքն՝ երբ պետք է զանգել զանգը)

Շեմերը կարող են լինել ֆիքսված, քվանտիլային, յուրաքանչյուր հատվածի համար կամ ծախսերի նկատմամբ զգայուն, բայց դրանք պետք է ճշգրտվեն տագնապի բյուջեների և հետագա ծախսերի, այլ ոչ թե թրթռումների համեմատ։ [4]

Մեկ շատ գործնական մանրամասնություն. scikit-learn-ի արտառոց/նորույթի դետեկտորները բացահայտում են հում միավորներ , ապա կիրառում են շեմ (հաճախ վերահսկվող աղտոտման ոճի ենթադրության միջոցով)՝ միավորները ներքին/արտառոց որոշումների վերածելու համար: [2]


Արագ սահմանումներ, որոնք կանխում են ցավը հետագայում 🧯

Երկու տարբերություն, որոնք կփրկեն ձեզ նուրբ սխալներից.

  • Արտառոց արժեքների հայտնաբերում . ձեր մարզման տվյալները կարող են արդեն ներառել արտառոց արժեքներ. ալգորիթմը այնուամենայնիվ փորձում է մոդելավորել «խիտ նորմալ տիրույթը»։

  • Նորույթի հայտնաբերում . մարզման տվյալները ենթադրվում են մաքուր. դուք գնահատում եք, թե արդյոք նոր դիտարկումները համապատասխանում են սովորած նորմալ օրինաչափությանը: [2]

Նաև՝ նորույթի հայտնաբերումը հաճախ ձևակերպվում է որպես միադաս դասակարգում ՝ մոդելավորելով նորմալը, քանի որ աննորմալ օրինակները սակավաթիվ են կամ անորոշ։ [1]

 

Արհեստական ​​​​ինտելեկտի անոմալիաների խափանումներ

Անհսկելի աշխատուժ, որը դուք իրականում կօգտագործեք 🧰

Երբ պիտակները սակավ են (ինչը, ըստ էության, միշտ է լինում), իրական խողովակաշարերում հայտնվում են հետևյալ գործիքները.

  • Մեկուսացված անտառ . ուժեղ լռելյայնություն բազմաթիվ աղյուսակային դեպքերում, լայնորեն կիրառվում է գործնականում և իրականացվում է scikit-learn-ում: [2]

  • Միակ դասի SVM . կարող է արդյունավետ լինել, բայց զգայուն է կարգավորման և ենթադրությունների նկատմամբ. scikit-learn-ը հստակորեն նշում է հիպերպարամետրերի զգույշ կարգավորման անհրաժեշտությունը։ [2]

  • Տեղական արտառոց գործոն (LOF) . դասական խտության վրա հիմնված գնահատական. հիանալի է, երբ «նորմալը» կոկիկ բծ չէ։ [1]

Գործնական խնդիր, որը թիմերը ամեն շաբաթ վերագտնում են. LOF-ը տարբեր կերպ է վարվում՝ կախված նրանից, թե դուք հայտնաբերում եք անորոշություն մարզման հավաքածուում, թե՞ նոր տվյալների վրա նորության հայտնաբերում. scikit-learn-ը նույնիսկ պահանջում է նորույթ=Ճշմարիտ ՝ անտեսանելի միավորներ անվտանգ կերպով վաստակելու համար: [2]


Հուսալի բազային գիծ, ​​որը դեռևս գործում է, երբ տվյալները անորոշ են 🪓

Եթե ​​դուք գտնվում եք «մեզ պարզապես ինչ-որ բան է պետք, որը մեզ չի տանի մոռացության» ռեժիմում, ապա հուսալի վիճակագրությունը թերագնահատված է։

Փոփոխված z-միավորը օգտագործում է միջնարժեքը և MAD-ը (միջին բացարձակ շեղում)՝ ծայրահեղ արժեքների նկատմամբ զգայունությունը նվազեցնելու համար: NIST-ի EDA ձեռնարկը փաստաթղթավորում է փոփոխված z-միավորի ձևը և նշում է 3.5- : [3]

Սա չի լուծի բոլոր անոմալիաների խնդիրը, բայց հաճախ այն հանդիսանում է պաշտպանության ուժեղ առաջին գիծ, ​​հատկապես աղմկոտ չափանիշների և վաղ փուլի մոնիթորինգի համար։ [3]


Ժամանակային շարքերի իրականություն. «Նորմալը» կախված է նրանից, թե երբ ⏱️📈

Ժամանակային շարքերի անոմալիաները բարդ են, քանի որ ամբողջ իմաստը համատեքստն է. կեսօրին կարող է սպասվել կտրուկ աճ, նույն կտրուկ աճը ժամը 3-ին կարող է նշանակել, որ ինչ-որ բան այրվում է: Հետևաբար, շատ գործնական համակարգեր մոդելավորում են նորմալությունը՝ օգտագործելով ժամանակի վրա ազդող հատկանիշներ (լագեր, սեզոնային դելտաներ, պտտվող պատուհաններ) և գնահատում են շեղումները սպասվող օրինաչափության նկատմամբ: [1]

Եթե ​​հիշում եք միայն մեկ կանոն՝ բաժանեք ձեր բազային գիծը (ժամ/օր/տարածաշրջան/ծառայության մակարդակ) նախքան ձեր երթևեկության կեսը «աննորմալ» հայտարարելը։ [1]


Գնահատում. Հազվագյուտ դեպքերի ծուղակը 🧪

Անոմալիայի հայտնաբերումը հաճախ «ասեղ է խոտի դեզի մեջ», ինչը գնահատումը տարօրինակ է դարձնում։

  • ROC կորերը կարող են խաբուսիկորեն գեղեցիկ թվալ, երբ դրականները հազվադեպ են լինում։

  • Ճշգրիտ հիշեցման տեսանկյունները հաճախ ավելի տեղեկատվական են անհավասարակշիռ կարգավորումների համար, քանի որ դրանք կենտրոնանում են դրական դասի կատարողականի վրա: [4]

  • Գործառնական առումով, ձեզ նույնպես անհրաժեշտ է ահազանգերի բյուջե . ժամում քանի՞ ահազանգ կարող են մարդիկ իրականում տեսակավորել առանց զայրույթը հանդարտեցնելու: [4]

Շարժական պատուհանների վրա հետադարձ թեստավորումը օգնում է ձեզ բռնել դասական ձախողման ռեժիմը. «այն հիանալի է աշխատում… անցյալ ամսվա բաշխման վրա»: [1]


Մեկնաբանելիություն և արմատական ​​պատճառ. ցույց տվեք ձեր աշխատանքը 🪄

Առանց բացատրության ահազանգելը նման է խորհրդավոր բացիկ ստանալուն։ Մի փոքր օգտակար է, բայց հիասթափեցնող։

Մեկնաբանելիության գործիքները կարող են օգնել՝ նշելով, թե որ հատկանիշներն են ամենաշատը նպաստել անոմալիայի գնահատմանը, կամ տալով «ի՞նչ պետք է փոխվի, որպեսզի սա նորմալ տեսք ունենա» ոճային բացատրությունները: « Մեկնաբանելի մեքենայական ուսուցում » գիրքը ամուր, քննադատական ​​ուղեցույց է տարածված մեթոդների (ներառյալ SHAP ոճի վերագրումները) և դրանց սահմանափակումների վերաբերյալ: [5]

Նպատակը միայն շահագրգիռ կողմերի հարմարավետությունը չէ. դա ավելի արագ տեսակավորումն է և կրկնվող միջադեպերի նվազումը։


Տեղակայում, տեղաշարժ և հետադարձ կապի ցիկլեր 🚀

Մոդելները չեն ապրում սլայդներում։ Նրանք ապրում են խողովակաշարերում։

«Արտադրության առաջին ամսվա» տարածված պատմություն. դետեկտորը հիմնականում նշումներ է անում տեղակայումների, խմբային աշխատանքների և բացակայող տվյալների մասին… ինչը դեռևս օգտակար , քանի որ ստիպում է ձեզ տարբերակել «տվյալների որակի միջադեպերը» «գործարար անոմալիաներից»։

Գործնականում.

  • Հետևեք շեղմանը և վերավարժեցրեք/վերակարգավորեք վարքի փոփոխությանը զուգընթաց։ [1]

  • Գրանցեք միավորների մուտքագրումները + մոդելի տարբերակը , որպեսզի կարողանաք վերարտադրել, թե ինչու է ինչ-որ բան էջավորված։ [5]

  • Գրանցեք մարդկային արձագանքը (օգտակար ընդդեմ աղմկոտ ահազանգերի)՝ ժամանակի ընթացքում շեմերը և հատվածները կարգավորելու համար։ [4]


Անվտանգության անկյուն. IDS և վարքային վերլուծություն 🛡️

Անվտանգության թիմերը հաճախ անոմալիաների գաղափարները խառնում են կանոնների վրա հիմնված հայտնաբերման հետ՝ «նորմալ հոսթի վարքագծի» համար նախատեսված բազային գծեր, գումարած՝ հայտնի վատ օրինաչափությունների համար նախատեսված ստորագրություններ և քաղաքականություններ: NIST-ի SP 800-94 (վերջնական)-ը շարունակում է մնալ լայնորեն մեջբերվող շրջանակ ներխուժումների հայտնաբերման և կանխարգելման համակարգերի նկատառումների համար. այն նաև նշում է, որ 2012 թվականի «Rev. 1» նախագիծը երբեք վերջնական չի դարձել և հետագայում հանվել է շրջանառությունից: [3]

Թարգմանություն՝ օգտագործեք մեքենայական ուսուցումը այնտեղ, որտեղ դա օգնում է, բայց մի՛ դեն նետեք ձանձրալի կանոնները. դրանք ձանձրալի են, որովհետև աշխատում են։


Համեմատական ​​աղյուսակ. Հայտնի մեթոդների համառոտ ակնարկ 📊

Գործիք / մեթոդ Լավագույնը Ինչու է այն աշխատում (գործնականում)
Հուսալի / փոփոխված z-միավորներ Պարզ չափանիշներ, արագ բազային ցուցանիշներ Հզոր առաջին անցում, երբ ձեզ անհրաժեշտ է «բավականաչափ լավ» և ավելի քիչ կեղծ տագնապներ։ [3]
Մեկուսացված անտառ Աղյուսակային, խառը հատկանիշներ Հաստատուն լռելյայն իրականացում և լայնորեն կիրառվող պրակտիկայում։ [2]
Մեկ դասի SVM Կոմպակտ «նորմալ» շրջաններ Սահմանային նորույթի հայտնաբերում. կարգավորումը մեծ նշանակություն ունի։ [2]
Տեղական արտառոց գործոն Բազմաձև նորմալներ Խտության հակադրությունը հարևանների հետ ցույց է տալիս տեղական տարօրինակությունը։ [1]
Վերակառուցման սխալ (օրինակ՝ ավտոմատ կոդավորիչի ոճով) Բարձր չափի նախշեր Գնացքը նորմալ ռեժիմով. մեծ վերակառուցման սխալները կարող են ցույց տալ շեղումները։ [1]

Խաբեության կոդ. սկսեք ամուր բազային գծերից + ձանձրալի, անվերահսկելի մեթոդից, այնուհետև ավելացրեք բարդություն միայն այնտեղ, որտեղ դա արդյունավետ է։


Փոքր ձեռնարկ. զրոյից մինչև ահազանգեր 🧭

  1. Սահմանեք «տարօրինակը» գործառնականորեն (լատենտություն, խարդախության ռիսկ, պրոցեսորի ջարդոն, գույքագրման ռիսկ):

  2. Սկսեք բազային մակարդակից (հուսալի վիճակագրություն կամ հատվածավորված շեմեր): [3]

  3. Որպես առաջին անցում ընտրեք մեկ չվերահսկվող մոդել

  4. Սահմանեք շեմեր՝ օգտագործելով ահազանգման բյուջե , և գնահատեք հասարակայնության հետ կապերի ոճով մտածելակերպով, եթե դրական արդյունքները հազվադեպ են լինում։ [4]

  5. Ավելացրեք բացատրություններ + գրանցում , որպեսզի յուրաքանչյուր ահազանգ վերարտադրելի և վրիպազերծելի լինի։ [5]

  6. Հետփորձարկում, առաքում, ուսուցում, վերակարգավորում - շեղումը նորմալ է։ [1]

Դուք կարող եք դա անել մեկ շաբաթում… ենթադրելով, որ ձեր ժամանակային դրոշմանիշները չեն ամրացված սկոտչով և հույսով։ 😅


Վերջնական դիտողություններ - Շատ երկար է, չեմ կարդացել🧾

Արհեստական ​​բանականությունը հայտնաբերում է անոմալիաները՝ սովորելով «նորմալի» գործնական պատկերը, գնահատելով շեղումները և նշելով, թե ինչն է անցնում շեմը։ Լավագույն համակարգերը հաղթում են ոչ թե աչքի ընկնող լինելով, այլ տրամաչափված ՝ հատվածավորված բազային գծեր, ահազանգերի բյուջեներ, մեկնաբանելի ելքեր և հետադարձ կապի օղակ, որը աղմկոտ ահազանգերը վերածում է վստահելի ազդանշանի։ [1]


Հղումներ

  1. Պիմենտել և այլք (2014) - Նորույթի հայտնաբերման վերանայում (PDF, Օքսֆորդի համալսարան) կարդալ ավելին

  2. scikit-learn Փաստաթղթավորում - Նորույթի և անսովորության հայտնաբերում Կարդալ ավելին

  3. NIST/SEMATECH էլեկտրոնային ձեռնարկ - Բացասական ցուցանիշների հայտնաբերում, կարդալ ավելին և NIST CSRC - SP 800-94 (վերջնական). Ներխուժման հայտնաբերման և կանխարգելման համակարգերի (IDPS) ուղեցույց, կարդալ ավելին

  4. Սաիտո և Ռեմսմայեր (2015) - Ճշգրիտ հետկանչի գրաֆիկն ավելի տեղեկատվական է, քան ROC գրաֆիկը՝ անհավասարակշռված տվյալների բազմությունների վրա երկուական դասակարգիչների գնահատման ժամանակ (PLOS ONE) կարդալ ավելին

  5. Մոլնար - Մեկնաբանելի մեքենայական ուսուցում (վեբ գիրք) կարդալ ավելին

Գտեք արհեստական ​​բանականության վերջին նորույթները պաշտոնական արհեստական ​​բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ