Այս ուղեցույցը ցույց է տալիս , թե ինչպես փորձարկել արհեստական բանականության մոդելները գործնական, կրկնվող եղանակով՝ ընդգրկելով դասական մեքենայական ուսուցումը (դասակարգում/ռեգրեսիա), համակարգչային տեսողությունը և ժամանակակից գեներատիվ մոդելները (LLM): Ակնկալեք ստուգաթերթիկներ, մի քանի մեղմ դժգոհություններ և այն մասերը, որոնք մարդիկ բաց են թողնում մինչև հակադարձելը:
Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.
🔗 Ի՞նչ է արհեստական բանականության էթիկան
Ուսումնասիրեք պատասխանատու արհեստական բանականության նախագծման, օգտագործման և կառավարման սկզբունքները։.
🔗 Ի՞նչ է արհեստական բանականության կողմնակալությունը
Իմացեք, թե ինչպես են կողմնակալ տվյալները աղավաղում արհեստական բանականության որոշումներն ու արդյունքները։.
🔗 Ի՞նչ է արհեստական բանականության մասշտաբայնությունը
Հասկացեք արհեստական բանականության համակարգերի մասշտաբավորումը՝ արդյունավետության, արժեքի և հուսալիության համար։.
🔗 Ի՞նչ է արհեստական բանականությունը
Արհեստական բանականության, տեսակների և իրական աշխարհում կիրառությունների հստակ ակնարկ։.
1) Սկսեք «լավ»-ի ոչ այնքան հմայիչ սահմանումից
Չափանիշներից, վահանակներից, ցանկացած չափանիշի ճկունությունից առաջ՝ որոշեք, թե ինչպիսին է հաջողությունը։.
Պարզաբանել՝
-
Օգտատեր՝ ներքին վերլուծաբան, հաճախորդ, կլինիցիստ, վարորդ, հոգնած աջակցության գործակալ ժամը 16:00-ին…
-
Որոշումը՝ հաստատել վարկը, նշել խարդախությունը, առաջարկել բովանդակություն, ամփոփել նշումները
-
Առավել կարևոր ձախողումները
-
Կեղծ դրականներ (անհանգստացնող) vs կեղծ բացասականներ (վտանգավոր)
-
-
Սահմանափակումները՝ լատենտություն, մեկ հարցման արժեքը, գաղտնիության կանոնները, բացատրելիության պահանջները, մատչելիությունը
Սա այն հատվածն է, երբ թիմերը սկսում են օպտիմալացնել «գեղեցիկ չափանիշը»՝ «նշանակալի արդյունքի» փոխարեն։ Սա հաճախ է պատահում։ Օրինակ… հաճախ։.
Այս ռիսկի գիտակցումը (և ոչ թե թրթռումների վրա հիմնված) պահելու հուսալի միջոց է թեստավորումը կազմակերպել վստահելիության և կյանքի ցիկլի ռիսկերի կառավարման շուրջ, ինչպես դա անում է NIST-ը արհեստական բանականության ռիսկերի կառավարման շրջանակում (AI RMF 1.0) [1]:

2) Ի՞նչն է «ինչպես փորձարկել արհեստական բանականության մոդելները» տարբերակի լավ տարբերակը դարձնում ✅
Հստակ փորձարկման մոտեցումն ունի մի քանի անվիճելի կողմեր
-
Ներկայացուցչական տվյալներ (ոչ միայն մաքուր լաբորատոր տվյալներ)
-
Մաքուր ճեղքեր ՝ արտահոսքի կանխարգելմամբ (ավելի մանրամասն՝ մեկ վայրկյան անց)
-
Հիմնական գծեր (պարզ մոդելներ, որոնք պետք է գերազանցեք. կեղծ գնահատիչները գոյություն ունեն որոշակի պատճառով [4])
-
Բազմաթիվ չափանիշներ (քանի որ մեկ թիվը ձեզ ստում է, քաղաքավարի, ձեր դեմքին)
-
Սթրեսի թեստեր (եզրային դեպքեր, անսովոր մուտքային տվյալներ, հակառակորդական սցենարներ)
-
Մարդկային վերանայման ցիկլեր (հատկապես գեներատիվ մոդելների համար)
-
Մոնիթորինգ մեկնարկից հետո (քանի որ աշխարհը փոխվում է, խողովակաշարերը խափանվում են, և օգտատերերը… ստեղծագործ են [1])
Նաև՝ լավ մոտեցումը ներառում է այն փաստագրումը, թե ինչ եք փորձարկել, ինչ չեք փորձարկել և ինչից եք նյարդայնանում: Այդ «ինչի համար եմ նյարդայնանում» բաժինը անհարմար է թվում, և հենց այստեղ է, որ վստահությունը սկսում է կուտակվել:.
Երկու փաստաթղթավորման ձևանմուշ, որոնք մշտապես օգնում են թիմերին անկեղծ մնալ
-
Մոդելային քարտեր (ինչի համար է մոդելը, ինչպես է այն գնահատվել, որտեղ է այն ձախողվել) [2]
-
Տվյալների հավաքածուների տվյալների թերթիկներ (ինչ են տվյալները, ինչպես են դրանք հավաքագրվել, ինչի՞ համար պետք է/չպետք է օգտագործվեն) [3]
3) Գործիքների իրականությունը. ինչ են մարդիկ օգտագործում գործնականում 🧰
Գործիքները կամավոր են։ Լավ գնահատման սովորույթները՝ ոչ։.
Եթե ցանկանում եք պրագմատիկ դասավորություն, թիմերի մեծ մասը ի վերջո ունենում է երեք դույլ
-
Փորձերի հետևում (գործարկումներ, կարգավորումներ, արտեֆակտներ)
-
Գնահատման գործիքակազմ (կրկնելի անցանց թեստեր + ռեգրեսիոն հավաքածուներ)
-
Մոնիթորինգ (շեղման ազդանշաններ, կատարողականի պրոքսիներ, միջադեպերի մասին ահազանգեր)
Օրինակներ, որոնք շատ կտեսնեք (ոչ թե հավանություններ, և այո՝ առանձնահատկությունների/գնի փոփոխություն). MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith։.
այս բաժնից ընտրում եք միայն մեկ գաղափար կառուցեք կրկնվող գնահատման համակարգ ։ Դուք ուզում եք «սեղմել կոճակը → ստանալ համեմատելի արդյունքներ», այլ ոչ թե «վերագործարկել տետրը և աղոթել»։
4) Կառուցեք ճիշտ թեստային հավաքածուն (և դադարեցրեք տվյալների արտահոսքը) 🚧
«Հիանալի» մոդելների ցնցող թիվը պատահաբար խաբում է։.
Ստանդարտ ML-ի համար
Մի քանի ոչ սեքսուալ կանոններ, որոնք փրկում են կարիերան
-
Պահպանեք մարզման/վավերացման/փորձարկման բաժանումները կայուն (և գրեք բաժանման տրամաբանությունը)
-
Կանխել կրկնօրինակումները բաժանումների միջև (նույն օգտատերը, նույն փաստաթուղթը, նույն արտադրանքը, գրեթե կրկնօրինակները)
-
Հետևեք գործառույթների արտահոսքին (ապագա տեղեկատվությունը ներթափանցում է «ընթացիկ» գործառույթների մեջ)
-
Օգտագործեք բազային գծեր (կեղծ գնահատիչներ), որպեսզի չտոնեք հաղթանակը… ոչինչ [4]
Արտահոսքի սահմանում (արագ տարբերակ). վերապատրաստման/գնահատման ընթացքում ցանկացած բան, որը մոդելին հասանելիություն է տալիս այնպիսի տեղեկատվության, որը այն չէր ունենա որոշման պահին: Այն կարող է լինել ակնհայտ («ապագայի պիտակ») կամ աննկատելի («իրադարձությունից հետո ժամանակի նշման դույլ»):
Իրավագիտության բակալավրիատի և գեներատիվ մոդելների համար
Դուք կառուցում եք հուշումների և քաղաքականության համակարգ , այլ ոչ թե պարզապես «մոդել»։
-
Ստեղծեք ոսկե հավաքածու (փոքր, բարձրորակ, կայուն)
-
Ավելացրեք վերջին իրական նմուշներ (անանուն + գաղտնիության համար անվտանգ)
-
Պահպանեք կոպիտ տառատեսակի փաթեթ ՝ տպագրական սխալներ, ժարգոնային սխալներ, ոչ ստանդարտ ձևաչափում, դատարկ մուտքագրումներ, բազմալեզու անակնկալներ 🌍
Գործնականում ես տեսել եմ մի բան, որը տեղի է ունեցել մեկից ավելի անգամ. թիմը գալիս է «ուժեղ» անցանց միավորով, ապա հաճախորդների աջակցության ծառայությունն ասում է. «Հիանալի է։ Այն վստահորեն բաց է թողնում մեկ կարևոր նախադասությունը»։ Լուծումը «ավելի մեծ մոդելը» չէր։ Այն ավելի լավ թեստային հուշումներ , ավելի հստակ ռուբրիկաներ և ռեգրեսիոն հավաքածու էր, որը պատժում էր հենց այդ ձախողման ռեժիմը։ Պարզ։ Արդյունավետ։
5) Անցանց գնահատում. չափանիշներ, որոնք ինչ-որ բան են նշանակում 📏
Չափանիշները լավ են։ Մետրիկ մոնոմշակույթը՝ ոչ։.
Դասակարգում (սպամ, խարդախություն, մտադրություն, տեսակավորում)
Օգտագործեք ավելին, քան ճշգրտությունը։.
-
Ճշգրտություն, հետկանչ, F1
-
Շեմային կարգավորում (ձեր ծախսերի համար սահմանված շեմը հազվադեպ է «ճիշտ» լինում) [4]
-
Շփոթության մատրիցներ ըստ հատվածի (տարածաշրջան, սարքի տեսակ, օգտագործողի խումբ)
Ռեգրեսիա (կանխատեսում, գնագոյացում, գնահատում)
-
MAE / RMSE (ընտրեք՝ հիմնվելով սխալները պատժելու ձեր ցանկության վրա)
-
Կալիբրացման նման ստուգումներ, երբ ելքային տվյալները օգտագործվում են որպես «միավորներ» (արդյո՞ք միավորները համապատասխանում են իրականությանը):
Վարկանիշային/առաջարկողական համակարգեր
-
NDCG, MAP, MRR
-
Կտրվածք ըստ հարցման տեսակի (գլխավոր vs պոչ)
Համակարգչային տեսողություն
-
mAP, IoU
-
Դասընթացի արդյունքներ (հազվագյուտ դասընթացներում մոդելները ձեզ ամաչեցնում են)
Գեներատիվ մոդելներ (LLM)
Ահա թե որտեղ են մարդիկ սկսում… փիլիսոփայել 😵💫
Գործնական տարբերակներ, որոնք աշխատում են իրական թիմերում
-
Մարդկային գնահատում (լավագույն ազդանշան, ամենադանդաղ ցիկլ)
-
Զույգերի նախապատվություն / հաղթանակի մակարդակ (A-ն ընդդեմ B-ի ավելի հեշտ է, քան բացարձակ միավորների հաշվարկը)
-
Ավտոմատացված տեքստային չափանիշներ (հարմար է որոշ առաջադրանքների համար, մոլորեցնող՝ մյուսների համար)
-
Առաջադրանքների վրա հիմնված ստուգումներ. «Արդյո՞ք այն ճիշտ դաշտեր է հանել»։ «Արդյո՞ք այն հետևել է քաղաքականությանը»։ «Արդյո՞ք այն անհրաժեշտության դեպքում աղբյուրներ է մեջբերել»։
Եթե ցանկանում եք կառուցվածքային «բազմաչափ, բազմաթիվ սցենարներով» հենակետ, HELM-ը լավ խարիսխ է. այն ճշգրտությունից այն կողմ գնահատումը մղում է այնպիսի բաների, ինչպիսիք են կալիբրացիան, կայունությունը, կողմնակալությունը/թունավորությունը և արդյունավետության փոխզիջումները [5]:.
Փոքրիկ շեղում. գրելու որակի ավտոմատացված չափանիշները երբեմն նման են սենդվիչի կշռադատմանը։ Դա ոչինչ չէ, բայց… եկեք 🥪
6) Հաստության փորձարկում. մի փոքր քրտնաջան աշխատեք 🥵🧪
Եթե ձեր մոդելը աշխատում է միայն կոկիկ մուտքերի դեպքում, ապա այն, ըստ էության, ապակե ծաղկաման է։ Գեղեցիկ, փխրուն, թանկ։.
Փորձարկում
-
Աղմուկ՝ տպագրական սխալներ, բացակայող արժեքներ, ոչ ստանդարտ Յունիկոդ, ձևաչափման սխալներ
-
Բաշխման փոփոխություն. նոր ապրանքային կատեգորիաներ, նոր ժարգոն, նոր սենսորներ
-
Ծայրահեղ արժեքներ՝ տիրույթից դուրս թվեր, հսկայական բեռներ, դատարկ տողեր
-
«Հակառակորդական» մուտքային տվյալներ, որոնք նման չեն ձեր մարզումների հավաքածուին, բայց նման են օգտատերերի։
Իրավագիտության բակալավրի աստիճանի համար ներառեք՝
-
Արագ ներարկման փորձեր (հրահանգները թաքնված են օգտատիրոջ բովանդակության մեջ)
-
«Անտեսել նախորդ հրահանգները» օրինաչափությունները
-
Գործիքի օգտագործման եզրային դեպքեր (վատ URL-ներ, ժամանակի սպառում, մասնակի արդյունքներ)
Հուսալիության այն հատկություններից մեկն է, որը հնչում է վերացական, մինչև միջադեպեր չլինեն։ Այդ դեպքում այն դառնում է… շատ շոշափելի [1]:.
7) Կողմնակալություն, արդարություն և թե ում համար է այն աշխատում ⚖️
Մոդելը կարող է ընդհանուր առմամբ «ճշգրիտ» լինել, մինչդեռ որոշակի խմբերի համար մշտապես ավելի վատը լինել։ Սա փոքր թերություն չէ։ Սա ապրանքի և վստահության խնդիր է։.
Գործնական քայլեր՝
-
Գնահատեք կատարողականը նշանակալի հատվածներով (իրավաբանորեն/էթիկապես նպատակահարմար է չափելու համար)
-
Համեմատեք սխալների մակարդակները և կալիբրացիան խմբերի միջև
-
Ստուգեք պրոքսիի գործառույթները (փոստային ինդեքս, սարքի տեսակ, լեզու), որոնք կարող են կոդավորել զգայուն հատկանիշներ
Եթե դուք սա չեք փաստաթղթավորում որևէ տեղ, ապա դուք, ըստ էության, խնդրում եք ապագային՝ առանց քարտեզի, վրիպակել վստահության ճգնաժամը։ Մոդելային քարտերը հուսալի տեղ են դա տեղադրելու համար [2], իսկ NIST-ի վստահելիության շրջանակը ձեզ տալիս է հստակ ստուգաթերթիկ այն մասին, թե ինչ պետք է ներառի «լավը» [1]:.
8) Անվտանգության և պաշտպանվածության թեստավորում (հատկապես իրավագիտության բակալավրիատի համար) 🛡️
Եթե ձեր մոդելը կարող է բովանդակություն ստեղծել, ապա դուք ստուգում եք ոչ միայն ճշգրտությունը։ Դուք ստուգում եք վարքագիծը։.
Ներառեք հետևյալ թեստերը՝
-
Արգելված բովանդակության ստեղծում (քաղաքականության խախտումներ)
-
Գաղտնիության արտահոսք (արդյո՞ք դա գաղտնիքներ է պարունակում):
-
Հալյուցինացիաներ բարձր ռիսկային տիրույթներում
-
Չափից շատ մերժում (մոդելը մերժում է սովորական հարցումները)
-
Թունավորության և ոտնձգության հետևանքները
-
Տվյալների արտազատման փորձեր արագ ներարկման միջոցով
Հիմնավորված մոտեցումը հետևյալն է՝ սահմանել քաղաքականության կանոններ → կառուցել թեստային հուշումներ → գնահատել արդյունքները մարդկային + ավտոմատացված ստուգումներով → գործարկել այն ամեն անգամ, երբ ինչ-որ բան փոխվում է: Այդ «ամեն անգամ» մասը վարձավճարն է:.
Սա հիանալի կերպով տեղավորվում է կյանքի ցիկլի ռիսկի մտածելակերպի մեջ՝ կառավարել, քարտեզագրել համատեքստը, չափել, կառավարել, կրկնել [1]:.
9) Առցանց փորձարկում. փուլային թողարկումներ (որտեղ ճշմարտությունն է ապրում) 🚀
Անհրաժեշտ են անցանց թեստեր։ Առցանց շփումը այն վայրն է, որտեղ իրականությունը դրսևորվում է ցեխոտ կոշիկներով։.
Դուք պարտավոր չեք շքեղ լինել։ Պարզապես պետք է կարգապահ լինեք։
-
Գործարկել ստվերային ռեժիմով (մոդելը գործում է, չի ազդում օգտատերերի վրա)
-
Աստիճանական ներդրում (սկզբում՝ փոքր երթևեկություն, ապա ընդլայնում, եթե երթևեկությունը լավ վիճակում է)
-
Հետևեք արդյունքներին և միջադեպերին (բողոքներ, սրացումներ, քաղաքականության ձախողումներ)
Նույնիսկ եթե չեք կարողանում անմիջապես պիտակներ ստանալ, կարող եք վերահսկել պրոքսի ազդանշանները և գործառնական վիճակը (լատենտություն, ձախողումների մակարդակ, ծախս): Հիմնական կետը հետևյալն է. դուք ցանկանում եք վերահսկվող միջոց՝ ձախողումները հայտնաբերելու համար, նախքան ձեր ամբողջ օգտատերերի բազան դա կանի [1]:
10) Տեղակայումից հետո մոնիթորինգ՝ տեղաշարժ, քայքայում և լուռ ձախողում 📉👀
Դուք փորձարկած մոդելը այն մոդելը չէ, որի հետ դուք ապրում եք։ Տվյալները փոխվում են։ Օգտատերերը փոխվում են։ Աշխարհը փոխվում է։ Խողովակաշարը խափանվում է ժամը 2-ին։ Դուք գիտեք, թե ինչպես է դա…
Մոնիտոր՝
-
Մուտքային տվյալների շեղում (սխեմաների փոփոխություններ, բացակայություններ, բաշխման տեղաշարժեր)
-
Արդյունքի շեղում (դասի հաշվեկշռի տեղաշարժեր, միավորների տեղաշարժեր)
-
Արդյունավետության ցուցիչներ (քանի որ պիտակների ուշացումները իրական են)
-
Հետադարձ կապի ազդանշաններ (բութ մատը ներքև, վերախմբագրումներ, սրացումներ)
-
Սեգմենտային մակարդակի ռեգրեսիաներ (լուռ մարդասպաններ)
Եվ սահմանեք տագնապի շեմեր, որոնք չափազանց ցնցող չեն։ Մշտապես գոռացող մոնիտորը անտեսվում է՝ ինչպես քաղաքում մեքենայի տագնապը։.
Այս «մոնիթորինգ + ժամանակի ընթացքում բարելավում» ցիկլը պարտադիր չէ, եթե դուք կարևորում եք վստահելիությունը [1]:.
11) Գործնական աշխատանքային հոսք, որը կարող եք պատճենել 🧩
Ահա մի պարզ ցիկլ, որը մասշտաբավորվում է՝
-
Սահմանել հաջողության + ձախողման ռեժիմները (ներառյալ արժեքը/լատենտությունը/անվտանգությունը) [1]
-
Ստեղծեք տվյալների հավաքածուներ՝
-
ոսկեգույն հավաքածու
-
եզրային պատյանների փաթեթ
-
վերջին իրական նմուշներ (գաղտնիության համար անվտանգ)
-
-
Ընտրեք չափանիշներ՝
-
առաջադրանքի չափանիշներ (F1, MAE, հաղթանակի մակարդակ) [4][5]
-
անվտանգության չափանիշներ (քաղաքականության հաջողության մակարդակ) [1][5]
-
գործառնական չափանիշներ (լատենտություն, ծախս)
-
-
Կառուցեք գնահատման լար (աշխատում է յուրաքանչյուր մոդելի/հուշման փոփոխության վրա) [4][5]
-
Ավելացնել սթրեսային թեստեր + հակառակորդական թեստեր [1][5]
-
Նմուշի մարդկային վերանայում (հատկապես LLM արդյունքների համար) [5]
-
Առաքում ստվերային + փուլային տարածման միջոցով [1]
-
Հսկողություն + զգոնություն + վերապատրաստում՝ կարգապահությամբ [1]
-
Փաստաթղթի արդյունքները մոդելային քարտի ոճով գրառման տեսքով են [2][3]
Ուսուցումը շքեղ է։ Թեստավորումը վարձատրվող է։.
12) Եզրափակիչ նշումներ + կարճ ամփոփում 🧠✨
Եթե հիշում եք միայն մի քանի բան արհեստական բանականության մոդելների փորձարկման .
-
Օգտագործեք ներկայացուցչական փորձարկման տվյալներ և խուսափեք արտահոսքից [4]
-
Ընտրեք իրական արդյունքների հետ կապված մի քանի չափանիշներ
-
Իրավագիտության մագիստրոսների համար հենվեք մարդկային ակնարկների + հաղթանակի մակարդակի ոճերի համեմատությունների [5]
-
Թեստի կայունություն - անսովոր մուտքային տվյալները քողարկված նորմալ մուտքային տվյալներ են [1]
-
Անվտանգ գլորեք և վերահսկեք, քանի որ մոդելները շեղվում են, իսկ խողովակաշարերը կոտրվում են [1]
-
Փաստաթղթավորեք, թե ինչ եք փորձարկել և ինչ չեք փորձարկել (անհարմար է, բայց հզոր) [2][3]
Թեստավորումը պարզապես «ապացուցելն» է։ Այն «գտնելն է, թե ինչպես է այն ձախողվում, նախքան ձեր օգտատերերը դա կանեն»։ Այո, դա այնքան էլ գրավիչ չէ, բայց դա այն մասն է, որը ձեր համակարգը կանգուն է պահում, երբ իրերը անկայուն են դառնում… 🧱🙂
Հղումներ
[1] NIST - Արհեստական բանականության ռիսկերի կառավարման շրջանակ (AI RMF 1.0) (PDF)
[2] Միտչել և այլք - «Մոդելային քարտեր մոդելային հաշվետվությունների համար» (arXiv:1810.03993)
[3] Գեբրու և այլք - «Տվյալների հավաքածուների տվյալների թերթիկներ» (arXiv:1803.09010)
[4] scikit-learn - «Մոդելի ընտրության և գնահատման» փաստաթղթավորում
[5] Լիանգ և այլք - «Լեզվական մոդելների ամբողջական գնահատում» (arXiv:2211.09110)