Ինչպես փորձարկել արհեստական ​​բանականության մոդելները

Ինչպես փորձարկել արհեստական ​​բանականության մոդելները

Այս ուղեցույցը ցույց է տալիս , թե ինչպես փորձարկել արհեստական ​​բանականության մոդելները գործնական, կրկնվող եղանակով՝ ընդգրկելով դասական մեքենայական ուսուցումը (դասակարգում/ռեգրեսիա), համակարգչային տեսողությունը և ժամանակակից գեներատիվ մոդելները (LLM): Ակնկալեք ստուգաթերթիկներ, մի քանի մեղմ դժգոհություններ և այն մասերը, որոնք մարդիկ բաց են թողնում մինչև հակադարձելը:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.

🔗 Ի՞նչ է արհեստական ​​բանականության էթիկան
Ուսումնասիրեք պատասխանատու արհեստական ​​բանականության նախագծման, օգտագործման և կառավարման սկզբունքները։.

🔗 Ի՞նչ է արհեստական ​​բանականության կողմնակալությունը
Իմացեք, թե ինչպես են կողմնակալ տվյալները աղավաղում արհեստական ​​բանականության որոշումներն ու արդյունքները։.

🔗 Ի՞նչ է արհեստական ​​բանականության մասշտաբայնությունը
Հասկացեք արհեստական ​​բանականության համակարգերի մասշտաբավորումը՝ արդյունավետության, արժեքի և հուսալիության համար։.

🔗 Ի՞նչ է արհեստական ​​բանականությունը
Արհեստական ​​բանականության, տեսակների և իրական աշխարհում կիրառությունների հստակ ակնարկ։.


1) Սկսեք «լավ»-ի ոչ այնքան հմայիչ սահմանումից 

Չափանիշներից, վահանակներից, ցանկացած չափանիշի ճկունությունից առաջ՝ որոշեք, թե ինչպիսին է հաջողությունը։.

Պարզաբանել՝

  • Օգտատեր՝ ներքին վերլուծաբան, հաճախորդ, կլինիցիստ, վարորդ, հոգնած աջակցության գործակալ ժամը 16:00-ին…

  • Որոշումը՝ հաստատել վարկը, նշել խարդախությունը, առաջարկել բովանդակություն, ամփոփել նշումները

  • Առավել կարևոր ձախողումները

    • Կեղծ դրականներ (անհանգստացնող) vs կեղծ բացասականներ (վտանգավոր)

  • Սահմանափակումները՝ լատենտություն, մեկ հարցման արժեքը, գաղտնիության կանոնները, բացատրելիության պահանջները, մատչելիությունը

Սա այն հատվածն է, երբ թիմերը սկսում են օպտիմալացնել «գեղեցիկ չափանիշը»՝ «նշանակալի արդյունքի» փոխարեն։ Սա հաճախ է պատահում։ Օրինակ… հաճախ։.

Այս ռիսկի գիտակցումը (և ոչ թե թրթռումների վրա հիմնված) պահելու հուսալի միջոց է թեստավորումը կազմակերպել վստահելիության և կյանքի ցիկլի ռիսկերի կառավարման շուրջ, ինչպես դա անում է NIST-ը արհեստական ​​բանականության ռիսկերի կառավարման շրջանակում (AI RMF 1.0) [1]:

 

Արհեստական ​​բանականության մոդելների փորձարկում

2) Ի՞նչն է «ինչպես փորձարկել արհեստական ​​բանականության մոդելները» տարբերակի լավ տարբերակը դարձնում ✅

Հստակ փորձարկման մոտեցումն ունի մի քանի անվիճելի կողմեր

  • Ներկայացուցչական տվյալներ (ոչ միայն մաքուր լաբորատոր տվյալներ)

  • Մաքուր ճեղքեր ՝ արտահոսքի կանխարգելմամբ (ավելի մանրամասն՝ մեկ վայրկյան անց)

  • Հիմնական գծեր (պարզ մոդելներ, որոնք պետք է գերազանցեք. կեղծ գնահատիչները գոյություն ունեն որոշակի պատճառով [4])

  • Բազմաթիվ չափանիշներ (քանի որ մեկ թիվը ձեզ ստում է, քաղաքավարի, ձեր դեմքին)

  • Սթրեսի թեստեր (եզրային դեպքեր, անսովոր մուտքային տվյալներ, հակառակորդական սցենարներ)

  • Մարդկային վերանայման ցիկլեր (հատկապես գեներատիվ մոդելների համար)

  • Մոնիթորինգ մեկնարկից հետո (քանի որ աշխարհը փոխվում է, խողովակաշարերը խափանվում են, և օգտատերերը… ստեղծագործ են [1])

Նաև՝ լավ մոտեցումը ներառում է այն փաստագրումը, թե ինչ եք փորձարկել, ինչ չեք փորձարկել և ինչից եք նյարդայնանում: Այդ «ինչի համար եմ նյարդայնանում» բաժինը անհարմար է թվում, և հենց այստեղ է, որ վստահությունը սկսում է կուտակվել:.

Երկու փաստաթղթավորման ձևանմուշ, որոնք մշտապես օգնում են թիմերին անկեղծ մնալ

  • Մոդելային քարտեր (ինչի համար է մոդելը, ինչպես է այն գնահատվել, որտեղ է այն ձախողվել) [2]

  • Տվյալների հավաքածուների տվյալների թերթիկներ (ինչ են տվյալները, ինչպես են դրանք հավաքագրվել, ինչի՞ համար պետք է/չպետք է օգտագործվեն) [3]


3) Գործիքների իրականությունը. ինչ են մարդիկ օգտագործում գործնականում 🧰

Գործիքները կամավոր են։ Լավ գնահատման սովորույթները՝ ոչ։.

Եթե ​​​​ցանկանում եք պրագմատիկ դասավորություն, թիմերի մեծ մասը ի վերջո ունենում է երեք դույլ

  1. Փորձերի հետևում (գործարկումներ, կարգավորումներ, արտեֆակտներ)

  2. Գնահատման գործիքակազմ (կրկնելի անցանց թեստեր + ռեգրեսիոն հավաքածուներ)

  3. Մոնիթորինգ (շեղման ազդանշաններ, կատարողականի պրոքսիներ, միջադեպերի մասին ահազանգեր)

Օրինակներ, որոնք շատ կտեսնեք (ոչ թե հավանություններ, և այո՝ առանձնահատկությունների/գնի փոփոխություն). MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith։.

​​այս բաժնից ընտրում եք միայն մեկ գաղափար կառուցեք կրկնվող գնահատման համակարգ ։ Դուք ուզում եք «սեղմել կոճակը → ստանալ համեմատելի արդյունքներ», այլ ոչ թե «վերագործարկել տետրը և աղոթել»։


4) Կառուցեք ճիշտ թեստային հավաքածուն (և դադարեցրեք տվյալների արտահոսքը) 🚧

«Հիանալի» մոդելների ցնցող թիվը պատահաբար խաբում է։.

Ստանդարտ ML-ի համար

Մի քանի ոչ սեքսուալ կանոններ, որոնք փրկում են կարիերան

  • Պահպանեք մարզման/վավերացման/փորձարկման բաժանումները կայուն (և գրեք բաժանման տրամաբանությունը)

  • Կանխել կրկնօրինակումները բաժանումների միջև (նույն օգտատերը, նույն փաստաթուղթը, նույն արտադրանքը, գրեթե կրկնօրինակները)

  • Հետևեք գործառույթների արտահոսքին (ապագա տեղեկատվությունը ներթափանցում է «ընթացիկ» գործառույթների մեջ)

  • Օգտագործեք բազային գծեր (կեղծ գնահատիչներ), որպեսզի չտոնեք հաղթանակը… ոչինչ [4]

Արտահոսքի սահմանում (արագ տարբերակ). վերապատրաստման/գնահատման ընթացքում ցանկացած բան, որը մոդելին հասանելիություն է տալիս այնպիսի տեղեկատվության, որը այն չէր ունենա որոշման պահին: Այն կարող է լինել ակնհայտ («ապագայի պիտակ») կամ աննկատելի («իրադարձությունից հետո ժամանակի նշման դույլ»):

Իրավագիտության բակալավրիատի և գեներատիվ մոդելների համար

Դուք կառուցում եք հուշումների և քաղաքականության համակարգ , այլ ոչ թե պարզապես «մոդել»։

  • Ստեղծեք ոսկե հավաքածու (փոքր, բարձրորակ, կայուն)

  • Ավելացրեք վերջին իրական նմուշներ (անանուն + գաղտնիության համար անվտանգ)

  • Պահպանեք կոպիտ տառատեսակի փաթեթ ՝ տպագրական սխալներ, ժարգոնային սխալներ, ոչ ստանդարտ ձևաչափում, դատարկ մուտքագրումներ, բազմալեզու անակնկալներ 🌍

Գործնականում ես տեսել եմ մի բան, որը տեղի է ունեցել մեկից ավելի անգամ. թիմը գալիս է «ուժեղ» անցանց միավորով, ապա հաճախորդների աջակցության ծառայությունն ասում է. «Հիանալի է։ Այն վստահորեն բաց է թողնում մեկ կարևոր նախադասությունը»։ Լուծումը «ավելի մեծ մոդելը» չէր։ Այն ավելի լավ թեստային հուշումներ , ավելի հստակ ռուբրիկաներ և ռեգրեսիոն հավաքածու էր, որը պատժում էր հենց այդ ձախողման ռեժիմը։ Պարզ։ Արդյունավետ։


5) Անցանց գնահատում. չափանիշներ, որոնք ինչ-որ բան են նշանակում 📏

Չափանիշները լավ են։ Մետրիկ մոնոմշակույթը՝ ոչ։.

Դասակարգում (սպամ, խարդախություն, մտադրություն, տեսակավորում)

Օգտագործեք ավելին, քան ճշգրտությունը։.

  • Ճշգրտություն, հետկանչ, F1

  • Շեմային կարգավորում (ձեր ծախսերի համար սահմանված շեմը հազվադեպ է «ճիշտ» լինում) [4]

  • Շփոթության մատրիցներ ըստ հատվածի (տարածաշրջան, սարքի տեսակ, օգտագործողի խումբ)

Ռեգրեսիա (կանխատեսում, գնագոյացում, գնահատում)

  • MAE / RMSE (ընտրեք՝ հիմնվելով սխալները պատժելու ձեր ցանկության վրա)

  • Կալիբրացման նման ստուգումներ, երբ ելքային տվյալները օգտագործվում են որպես «միավորներ» (արդյո՞ք միավորները համապատասխանում են իրականությանը):

Վարկանիշային/առաջարկողական համակարգեր

  • NDCG, MAP, MRR

  • Կտրվածք ըստ հարցման տեսակի (գլխավոր vs պոչ)

Համակարգչային տեսողություն

  • mAP, IoU

  • Դասընթացի արդյունքներ (հազվագյուտ դասընթացներում մոդելները ձեզ ամաչեցնում են)

Գեներատիվ մոդելներ (LLM)

Ահա թե որտեղ են մարդիկ սկսում… փիլիսոփայել 😵💫

Գործնական տարբերակներ, որոնք աշխատում են իրական թիմերում

  • Մարդկային գնահատում (լավագույն ազդանշան, ամենադանդաղ ցիկլ)

  • Զույգերի նախապատվություն / հաղթանակի մակարդակ (A-ն ընդդեմ B-ի ավելի հեշտ է, քան բացարձակ միավորների հաշվարկը)

  • Ավտոմատացված տեքստային չափանիշներ (հարմար է որոշ առաջադրանքների համար, մոլորեցնող՝ մյուսների համար)

  • Առաջադրանքների վրա հիմնված ստուգումներ. «Արդյո՞ք այն ճիշտ դաշտեր է հանել»։ «Արդյո՞ք այն հետևել է քաղաքականությանը»։ «Արդյո՞ք այն անհրաժեշտության դեպքում աղբյուրներ է մեջբերել»։

Եթե ​​ցանկանում եք կառուցվածքային «բազմաչափ, բազմաթիվ սցենարներով» հենակետ, HELM-ը լավ խարիսխ է. այն ճշգրտությունից այն կողմ գնահատումը մղում է այնպիսի բաների, ինչպիսիք են կալիբրացիան, կայունությունը, կողմնակալությունը/թունավորությունը և արդյունավետության փոխզիջումները [5]:.

Փոքրիկ շեղում. գրելու որակի ավտոմատացված չափանիշները երբեմն նման են սենդվիչի կշռադատմանը։ Դա ոչինչ չէ, բայց… եկեք 🥪


6) Հաստության փորձարկում. մի փոքր քրտնաջան աշխատեք 🥵🧪

Եթե ​​ձեր մոդելը աշխատում է միայն կոկիկ մուտքերի դեպքում, ապա այն, ըստ էության, ապակե ծաղկաման է։ Գեղեցիկ, փխրուն, թանկ։.

Փորձարկում

  • Աղմուկ՝ տպագրական սխալներ, բացակայող արժեքներ, ոչ ստանդարտ Յունիկոդ, ձևաչափման սխալներ

  • Բաշխման փոփոխություն. նոր ապրանքային կատեգորիաներ, նոր ժարգոն, նոր սենսորներ

  • Ծայրահեղ արժեքներ՝ տիրույթից դուրս թվեր, հսկայական բեռներ, դատարկ տողեր

  • «Հակառակորդական» մուտքային տվյալներ, որոնք նման չեն ձեր մարզումների հավաքածուին, բայց նման են օգտատերերի։

Իրավագիտության բակալավրի աստիճանի համար ներառեք՝

  • Արագ ներարկման փորձեր (հրահանգները թաքնված են օգտատիրոջ բովանդակության մեջ)

  • «Անտեսել նախորդ հրահանգները» օրինաչափությունները

  • Գործիքի օգտագործման եզրային դեպքեր (վատ URL-ներ, ժամանակի սպառում, մասնակի արդյունքներ)

Հուսալիության այն հատկություններից մեկն է, որը հնչում է վերացական, մինչև միջադեպեր չլինեն։ Այդ դեպքում այն ​​դառնում է… շատ շոշափելի [1]:.


7) Կողմնակալություն, արդարություն և թե ում համար է այն աշխատում ⚖️

Մոդելը կարող է ընդհանուր առմամբ «ճշգրիտ» լինել, մինչդեռ որոշակի խմբերի համար մշտապես ավելի վատը լինել։ Սա փոքր թերություն չէ։ Սա ապրանքի և վստահության խնդիր է։.

Գործնական քայլեր՝

  • Գնահատեք կատարողականը նշանակալի հատվածներով (իրավաբանորեն/էթիկապես նպատակահարմար է չափելու համար)

  • Համեմատեք սխալների մակարդակները և կալիբրացիան խմբերի միջև

  • Ստուգեք պրոքսիի գործառույթները (փոստային ինդեքս, սարքի տեսակ, լեզու), որոնք կարող են կոդավորել զգայուն հատկանիշներ

Եթե ​​դուք սա չեք փաստաթղթավորում որևէ տեղ, ապա դուք, ըստ էության, խնդրում եք ապագային՝ առանց քարտեզի, վրիպակել վստահության ճգնաժամը։ Մոդելային քարտերը հուսալի տեղ են դա տեղադրելու համար [2], իսկ NIST-ի վստահելիության շրջանակը ձեզ տալիս է հստակ ստուգաթերթիկ այն մասին, թե ինչ պետք է ներառի «լավը» [1]:.


8) Անվտանգության և պաշտպանվածության թեստավորում (հատկապես իրավագիտության բակալավրիատի համար) 🛡️

Եթե ​​ձեր մոդելը կարող է բովանդակություն ստեղծել, ապա դուք ստուգում եք ոչ միայն ճշգրտությունը։ Դուք ստուգում եք վարքագիծը։.

Ներառեք հետևյալ թեստերը՝

  • Արգելված բովանդակության ստեղծում (քաղաքականության խախտումներ)

  • Գաղտնիության արտահոսք (արդյո՞ք դա գաղտնիքներ է պարունակում):

  • Հալյուցինացիաներ բարձր ռիսկային տիրույթներում

  • Չափից շատ մերժում (մոդելը մերժում է սովորական հարցումները)

  • Թունավորության և ոտնձգության հետևանքները

  • Տվյալների արտազատման փորձեր արագ ներարկման միջոցով

Հիմնավորված մոտեցումը հետևյալն է՝ սահմանել քաղաքականության կանոններ → կառուցել թեստային հուշումներ → գնահատել արդյունքները մարդկային + ավտոմատացված ստուգումներով → գործարկել այն ամեն անգամ, երբ ինչ-որ բան փոխվում է: Այդ «ամեն անգամ» մասը վարձավճարն է:.

Սա հիանալի կերպով տեղավորվում է կյանքի ցիկլի ռիսկի մտածելակերպի մեջ՝ կառավարել, քարտեզագրել համատեքստը, չափել, կառավարել, կրկնել [1]:.


9) Առցանց փորձարկում. փուլային թողարկումներ (որտեղ ճշմարտությունն է ապրում) 🚀

Անհրաժեշտ են անցանց թեստեր։ Առցանց շփումը այն վայրն է, որտեղ իրականությունը դրսևորվում է ցեխոտ կոշիկներով։.

Դուք պարտավոր չեք շքեղ լինել։ Պարզապես պետք է կարգապահ լինեք։

  • Գործարկել ստվերային ռեժիմով (մոդելը գործում է, չի ազդում օգտատերերի վրա)

  • Աստիճանական ներդրում (սկզբում՝ փոքր երթևեկություն, ապա ընդլայնում, եթե երթևեկությունը լավ վիճակում է)

  • Հետևեք արդյունքներին և միջադեպերին (բողոքներ, սրացումներ, քաղաքականության ձախողումներ)

Նույնիսկ եթե չեք կարողանում անմիջապես պիտակներ ստանալ, կարող եք վերահսկել պրոքսի ազդանշանները և գործառնական վիճակը (լատենտություն, ձախողումների մակարդակ, ծախս): Հիմնական կետը հետևյալն է. դուք ցանկանում եք վերահսկվող միջոց՝ ձախողումները հայտնաբերելու համար, նախքան ձեր ամբողջ օգտատերերի բազան դա կանի [1]:


10) Տեղակայումից հետո մոնիթորինգ՝ տեղաշարժ, քայքայում և լուռ ձախողում 📉👀

Դուք փորձարկած մոդելը այն մոդելը չէ, որի հետ դուք ապրում եք։ Տվյալները փոխվում են։ Օգտատերերը փոխվում են։ Աշխարհը փոխվում է։ Խողովակաշարը խափանվում է ժամը 2-ին։ Դուք գիտեք, թե ինչպես է դա…

Մոնիտոր՝

  • Մուտքային տվյալների շեղում (սխեմաների փոփոխություններ, բացակայություններ, բաշխման տեղաշարժեր)

  • Արդյունքի շեղում (դասի հաշվեկշռի տեղաշարժեր, միավորների տեղաշարժեր)

  • Արդյունավետության ցուցիչներ (քանի որ պիտակների ուշացումները իրական են)

  • Հետադարձ կապի ազդանշաններ (բութ մատը ներքև, վերախմբագրումներ, սրացումներ)

  • Սեգմենտային մակարդակի ռեգրեսիաներ (լուռ մարդասպաններ)

Եվ սահմանեք տագնապի շեմեր, որոնք չափազանց ցնցող չեն։ Մշտապես գոռացող մոնիտորը անտեսվում է՝ ինչպես քաղաքում մեքենայի տագնապը։.

Այս «մոնիթորինգ + ժամանակի ընթացքում բարելավում» ցիկլը պարտադիր չէ, եթե դուք կարևորում եք վստահելիությունը [1]:.


11) Գործնական աշխատանքային հոսք, որը կարող եք պատճենել 🧩

Ահա մի պարզ ցիկլ, որը մասշտաբավորվում է՝

  1. Սահմանել հաջողության + ձախողման ռեժիմները (ներառյալ արժեքը/լատենտությունը/անվտանգությունը) [1]

  2. Ստեղծեք տվյալների հավաքածուներ՝

    • ոսկեգույն հավաքածու

    • եզրային պատյանների փաթեթ

    • վերջին իրական նմուշներ (գաղտնիության համար անվտանգ)

  3. Ընտրեք չափանիշներ՝

    • առաջադրանքի չափանիշներ (F1, MAE, հաղթանակի մակարդակ) [4][5]

    • անվտանգության չափանիշներ (քաղաքականության հաջողության մակարդակ) [1][5]

    • գործառնական չափանիշներ (լատենտություն, ծախս)

  4. Կառուցեք գնահատման լար (աշխատում է յուրաքանչյուր մոդելի/հուշման փոփոխության վրա) [4][5]

  5. Ավելացնել սթրեսային թեստեր + հակառակորդական թեստեր [1][5]

  6. Նմուշի մարդկային վերանայում (հատկապես LLM արդյունքների համար) [5]

  7. Առաքում ստվերային + փուլային տարածման միջոցով [1]

  8. Հսկողություն + զգոնություն + վերապատրաստում՝ կարգապահությամբ [1]

  9. Փաստաթղթի արդյունքները մոդելային քարտի ոճով գրառման տեսքով են [2][3]

Ուսուցումը շքեղ է։ Թեստավորումը վարձատրվող է։.


12) Եզրափակիչ նշումներ + կարճ ամփոփում 🧠✨

Եթե ​​հիշում եք միայն մի քանի բան արհեստական ​​բանականության մոդելների փորձարկման .

  • Օգտագործեք ներկայացուցչական փորձարկման տվյալներ և խուսափեք արտահոսքից [4]

  • Ընտրեք իրական արդյունքների հետ կապված մի քանի չափանիշներ

  • Իրավագիտության մագիստրոսների համար հենվեք մարդկային ակնարկների + հաղթանակի մակարդակի ոճերի համեմատությունների [5]

  • Թեստի կայունություն - անսովոր մուտքային տվյալները քողարկված նորմալ մուտքային տվյալներ են [1]

  • Անվտանգ գլորեք և վերահսկեք, քանի որ մոդելները շեղվում են, իսկ խողովակաշարերը կոտրվում են [1]

  • Փաստաթղթավորեք, թե ինչ եք փորձարկել և ինչ չեք փորձարկել (անհարմար է, բայց հզոր) [2][3]

Թեստավորումը պարզապես «ապացուցելն» է։ Այն «գտնելն է, թե ինչպես է այն ձախողվում, նախքան ձեր օգտատերերը դա կանեն»։ Այո, դա այնքան էլ գրավիչ չէ, բայց դա այն մասն է, որը ձեր համակարգը կանգուն է պահում, երբ իրերը անկայուն են դառնում… 🧱🙂


Հղումներ

[1] NIST - Արհեստական ​​բանականության ռիսկերի կառավարման շրջանակ (AI RMF 1.0) (PDF)
[2] Միտչել և այլք - «Մոդելային քարտեր մոդելային հաշվետվությունների համար» (arXiv:1810.03993)
[3] Գեբրու և այլք - «Տվյալների հավաքածուների տվյալների թերթիկներ» (arXiv:1803.09010)
[4] scikit-learn - «Մոդելի ընտրության և գնահատման» փաստաթղթավորում
[5] Լիանգ և այլք - «Լեզվական մոդելների ամբողջական գնահատում» (arXiv:2211.09110)

Գտեք արհեստական ​​բանականության վերջին նորույթները պաշտոնական արհեստական ​​բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ