Ինչպե՞ս չափել արհեստական բանականության արդյունավետությունը։

Եթե երբևէ արտադրել եք նոութբուքի մոդել, որը աչքի է ընկել իր տեսքով, բայց սայթաքել է արտադրության մեջ, ապա արդեն գիտեք գաղտնիքը. արհեստական բանականության արդյունավետությունը չափելը մեկ կախարդական չափանիշ չէ։ Այն իրական աշխարհի նպատակներին կապված ստուգումների համակարգ է։ Ճշգրտությունը հիանալի է։ Հուսալիությունը, անվտանգությունը և բիզնեսի վրա ազդեցությունը ավելի լավն են։

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո

🔗 Ինչպես խոսել արհեստական բանականության հետ
Արհեստական բանականության հետ արդյունավետ հաղորդակցման ուղեցույց՝ ավելի լավ արդյունքների հասնելու համար։

🔗 Ի՞նչ է արհեստական բանականության հուշումը
Բացատրում է, թե ինչպես են հուշումները ձևավորում արհեստական բանականության պատասխանները և արդյունքի որակը։

🔗 Ի՞նչ է արհեստական բանականության տվյալների պիտակավորումը
Ուսուցման մոդելների համար տվյալներին ճշգրիտ պիտակներ նշանակելու ընդհանուր պատկերացում։

🔗 Ի՞նչ է արհեստական բանականության էթիկան
Ներածություն պատասխանատու արհեստական ինտելեկտի մշակման և տեղակայման ուղեցույցի էթիկական սկզբունքներին։

Ի՞նչն է ապահովում արհեստական բանականության լավ աշխատանքը։ ✅

Կարճ տարբերակ՝ արհեստական բանականության լավ աշխատանքը նշանակում է, որ ձեր համակարգը օգտակար է, վստահելի և կրկնվող ՝ անկանոն, փոփոխվող պայմաններում։ Մասնավորապես՝

Առաջադրանքի որակը ՝ այն ստանում է ճիշտ պատասխաններ ճիշտ պատճառներով։
Կալիբրացիա - վստահության միավորները համապատասխանում են իրականությանը, որպեսզի կարողանաք խելացի գործողություններ ձեռնարկել։
Հուսալիություն - այն դիմանում է շեղմանը, եզրերի պատյաններին և հակառակորդի մշուշին։
Անվտանգություն և արդարություն - այն խուսափում է վնասակար, կողմնակալ կամ անհամապատասխան վարքագծից։
Արդյունավետություն - այն բավականաչափ արագ է, բավականաչափ էժան և բավականաչափ կայուն՝ մասշտաբային աշխատանքի համար։
Բիզնեսի վրա ազդեցություն ՝ այն իրականում փոխում է ձեզ համար կարևոր KPI-ը։

Եթե ցանկանում եք չափանիշների և ռիսկերի համապատասխանեցման պաշտոնական հենակետ, NIST AI Risk Management Framework-ը հուսալի ուղեցույց է հուսալի համակարգի գնահատման համար: [1]

Արհեստական բանականության արդյունավետության չափում

Բարձր մակարդակի բաղադրատոմս՝ արհեստական բանականության արդյունավետությունը չափելու համար 🍳

Մտածեք երեք շերտով.

Առաջադրանքի չափանիշներ ՝ առաջադրանքի տեսակի ճշգրտություն՝ դասակարգում, ռեգրեսիա, վարկանիշ, գեներացիա, վերահսկողություն և այլն։
Համակարգի չափանիշներ ՝ լատենտություն, թողունակություն, մեկ զանգի արժեքը, ձախողման մակարդակները, շեղման ահազանգերը, աշխատանքային ժամանակի SLA-ները։
Արդյունքի չափանիշներ ՝ բիզնեսի և օգտատիրոջ այն արդյունքները, որոնք դուք իրականում ցանկանում եք՝ փոխակերպում, հաճախորդների պահպանում, անվտանգության միջադեպեր, ձեռքով վերանայման ծանրաբեռնվածություն, տոմսերի ծավալ։

Հիանալի չափման պլանը միտումնավոր համատեղում է այս երեքը։ Հակառակ դեպքում դուք կստանաք հրթիռ, որը երբեք չի լքի մեկնարկային հրապարակը։

Հիմնական չափանիշներ ըստ խնդրի տեսակի՝ և երբ որն օգտագործել 🎯

1) Դասակարգում

Ճշգրտություն, Հետկանչ, F1 - առաջին օրվա եռյակը։ F1-ը ճշգրտության և հետկանչման հարմոնիկ միջինն է. օգտակար է, երբ դասերը անհավասարակշռված են կամ ծախսերը ասիմետրիկ են։ [2]
ROC-AUC - դասակարգիչների շեմային-ագնոստիկ դասակարգում. երբ դրականները հազվադեպ են լինում, ստուգվում է նաև PR-AUC-ը։ [2]
Հավասարակշռված ճշգրտություն ՝ դասերի միջև հիշողության միջին ցուցանիշ. հարմար է թեքված պիտակների համար։ [2]

Թակարդի հսկողություն. ինքնին ճշգրտությունը կարող է խիստ մոլորեցնող լինել՝ անհավասարակշռության պատճառով: Եթե օգտատերերի 99%-ը օրինական են, հիմար, միշտ օրինական մոդելը հավաքում է 99% միավոր և հիասթափեցնում է ձեր խարդախության թիմին մինչև ճաշը:

2) Ռեգրեսիա

MAE ՝ մարդու կողմից ընթեռնելի սխալի համար, RMSE ՝ խոշոր վրիպումների դեպքում, R² ՝ շեղման բացատրություն։ Այնուհետև՝ խելամտության ստուգման բաշխումներ և մնացորդային գրաֆիկներ։ [2]
(Օգտագործեք տիրույթին հարմար միավորներ, որպեսզի շահագրգիռ կողմերը կարողանան իրականում զգալ սխալը):

3) Դասակարգում, որոնում, առաջարկություններ

nDCG - հոգ է տանում դիրքի և դասակարգված համապատասխանության մասին. որոնման որակի չափանիշ։
MRR - կենտրոնանում է առաջին համապատասխան տարրի հայտնվելու արագության վրա (հիանալի է «գտնել մեկ լավ պատասխան» առաջադրանքների համար):
(Իրականացման հղումները և մշակված օրինակները գտնվում են հիմնական մետրիկ գրադարաններում): [2]

4) Տեքստի ստեղծում և ամփոփում

Կապույտ և կարմիր - դասական համընկնման չափանիշներ; օգտակար են որպես բազային գծեր։
Ներդրման վրա հիմնված չափանիշները (օրինակ՝ BERTScore-ը) հաճախ ավելի լավ են համընկնում մարդկային դատողության հետ. միշտ զուգակցվում են ոճի, հավատարմության և անվտանգության մարդկային գնահատականների հետ։ [4]

5) Հարց ու պատասխան

ճշգրիտ համապատասխանությունը և տոկենների մակարդակի F1-ը ։ Եթե պատասխանները պետք է հղում կատարեն աղբյուրներին, չափեք նաև հիմնավորումը (պատասխանի աջակցության ստուգումներ)։

Կալիբրացիա, վստահություն և Brier օբյեկտիվ 🎚️

Վստահության միավորները շատ համակարգերի աննկատելի դիրքն են գրավում։ Ձեզ անհրաժեշտ են հավանականություններ, որոնք արտացոլում են իրականությունը, որպեսզի օպերատորները կարողանան սահմանել շեմեր, մարդկանց հասնելու ուղիներ կամ գնահատել ռիսկը։

Կալիբրացման կորեր - պատկերացրեք կանխատեսված հավանականությունը ընդդեմ էմպիրիկ հաճախականության։
Բրայերի միավորը հավանականության ճշգրտության համար պատշաճ գնահատման կանոն է. որքան ցածր, այնքան լավ: Այն հատկապես օգտակար է, երբ կարևոր է հավանականության որակը , այլ ոչ թե միայն դասակարգումը: [3]

Նշում. մի փոքր «ավելի վատ» F1-ը, բայց շատ ավելի լավ կալիբրացումը կարող է զգալիորեն բարելավել տեսակավորումը, քանի որ մարդիկ վերջապես կարող են վստահել գնահատականներին։

Անվտանգություն, կողմնակալություն և արդարություն՝ չափեք կարևորը 🛡️⚖️

Համակարգը կարող է ընդհանուր առմամբ ճշգրիտ լինել և միևնույն ժամանակ վնասել որոշակի խմբերի: Հետևեք խմբավորված չափանիշներին և արդարության չափանիշներին.

Ժողովրդագրական համարժեքություն ՝ խմբերի միջև հավասար դրական ցուցանիշներ։
Հավասարեցված հավանականություն / Հավասար հնարավորություն - հավասար սխալի մակարդակներ կամ իրական դրական մակարդակներ խմբերի միջև. օգտագործեք դրանք փոխզիջումները հայտնաբերելու և կառավարելու համար, այլ ոչ թե որպես միանվագ անցում-ձախողում դրոշմանիշներ: [5]

Գործնական խորհուրդ. սկսեք վահանակներից, որոնք բաժանում են հիմնական չափանիշները ըստ հիմնական հատկանիշների, այնուհետև ավելացրեք արդարության որոշակի չափանիշներ՝ ըստ ձեր քաղաքականության պահանջների: Հնչում է բարդ, բայց ավելի էժան է, քան միջադեպը:

Իրավագիտության մագիստրոսներ և RAG՝ չափման ձեռնարկ, որն իրականում աշխատում է 📚🔍

Գեներատիվ համակարգերի չափումը… դժվար է։ Անեք սա՝

Սահմանեք արդյունքները յուրաքանչյուր օգտագործման դեպքի համար՝ ճշգրտություն, օգտակարություն, անվնասություն, ոճին համապատասխանություն, ապրանքանիշին բնորոշ տոն, մեջբերման հիմնավորում, մերժման որակ։
Ավտոմատացրեք բազային գնահատումները հզոր շրջանակների միջոցով (օրինակ՝ գնահատման գործիքակազմ ձեր կուտակած) և պահպանեք դրանք տարբերակներով համապատասխանեցված ձեր տվյալների հավաքածուներին։
Ավելացրեք իմաստաբանական չափանիշներ (ներդրման վրա հիմնված) գումարած համընկնող չափանիշներ (Կապույտ/Կարմիր)՝ խելամտության համար։ [4]
RAG-ում գործիքի հիմնավորում . որոնման հարվածների հաճախականություն, համատեքստի ճշգրտություն/հետկանչ, պատասխան-աջակցություն համընկնում։
Մարդկային վերանայում՝ համաձայնությամբ . չափեք գնահատողի հետևողականությունը (օրինակ՝ Քոհենի κ կամ Ֆլեյսի κ), որպեսզի ձեր պիտակները չլինեն թրթռացող։

Բոնուս՝ գրանցեք լատենտիլների տոկոսները և տոկենները կամ հաշվարկեք յուրաքանչյուր առաջադրանքի արժեքը: Ոչ ոք չի սիրում բանաստեղծական պատասխան, որը կգա հաջորդ երեքշաբթի:

Համեմատական աղյուսակ՝ գործիքներ, որոնք կօգնեն ձեզ չափել արհեստական բանականության արդյունավետությունը 🛠️📊

(Այո, դիտավորյալ մի փոքր խառնաշփոթ է. իրական նոտաներն էլ խառնաշփոթ են։)

Գործիք	Լավագույն լսարանը	Գինը	Ինչու է այն աշխատում - արագ ակնարկ
scikit-learn չափանիշներ	ՄՄ մասնագետներ	Անվճար	Կանոնիկ իրականացումներ դասակարգման, ռեգրեսիայի, վարկանիշավորման համար. հեշտ է ներառել թեստերի մեջ։ [2]
MLflow-ի գնահատում / GenAI	Տվյալների գիտնականներ, MLOps	Անվճար + վճարովի	Կենտրոնացված վազքեր, ավտոմատացված չափանիշներ, LLM դատավորներ, հատուկ գնահատողներ. արտեֆակտների մաքուր գրանցում։
Ակնհայտորեն	Թիմերը ցանկանում են արագ վահանակներ	OSS + ամպ	100+ չափանիշներ, դրեյֆտի և որակի հաշվետվություններ, մոնիթորինգի հուկներ՝ հաճելի տեսողական նյութեր՝ սեղմ ժամկետում։
Կշիռներ և թեքություններ	Փորձարկումներով լի կազմակերպություններ	Ազատ մակարդակ	Կողք կողքի համեմատություններ, գնահատման տվյալների հավաքածուներ, դատավորներ. աղյուսակներն ու հետագծերը բավականին կոկիկ են։
ԼանգՍմիթ	LLM հավելվածների կառուցողներ	Վճարված	Հետևեք յուրաքանչյուր քայլին, համատեղեք մարդկային վերանայումը կանոնների կամ LLM գնահատողների հետ. հիանալի է RAG-ի համար։
TruLens	Բաց կոդով LLM գնահատման սիրահարներ	ԲԱՑ	Հետադարձ կապի ֆունկցիաներ՝ թունավորությունը, հիմնավորվածությունը, արդիականությունը գնահատելու համար, ինտեգրվեք ամենուր։
Մեծ սպասումներ	Տվյալների որակը առաջնահերթ համարող կազմակերպություններ	ԲԱՑ	Ձևակերպեք տվյալների վերաբերյալ սպասումները, քանի որ վատ տվյալները միևնույն է փչացնում են յուրաքանչյուր չափանիշ։
Խորը ստուգումներ	Թեստավորում և CI/CD՝ մեքենայական զանգվածի բազմացման համար	OSS + ամպ	Մարտկոցներ՝ ներառված, տվյալների շեղման, մոդելի խնդիրների և մոնիթորինգի ստուգում։ Լավ պաշտպանիչ ցանկապատեր։

Գները փոխվում են՝ ստուգեք փաստաթղթերը։ Եվ այո, դուք կարող եք խառնել դրանք առանց գործիքային ոստիկանության ներկայության։

Շեմեր, ծախսեր և որոշումների կորեր՝ գաղտնի բաղադրատոմսը 🧪

Տարօրինակ, բայց ճշմարիտ բան. նույն ROC-AUC-ով երկու մոդելներ կարող են շատ տարբեր բիզնես արժեք ունենալ՝ կախված ձեր շեմից և ծախսերի հարաբերակցությունից։

Արագ աղյուսակ կառուցելու համար.

Սահմանեք կեղծ դրականի և կեղծ բացասականի արժեքը գումարով կամ ժամանակով։
Հաշվարկել շեմային արժեքները և հաշվարկել 1000 որոշման համար սպասվող արժեքը։
Ընտրեք սպասվող նվազագույն արժեքի շեմը, այնուհետև ամրագրեք այն մոնիթորինգի միջոցով։

Օգտագործեք PR կորերը, երբ դրականները հազվադեպ են լինում, ROC կորերը՝ ընդհանուր ձևի համար, և կալիբրացման կորերը, երբ որոշումները հիմնված են հավանականությունների վրա: [2][3]

Փոքր դեպք. աջակցության տոմսերի տեսակավորման մոդել՝ համեստ F1-ով, բայց գերազանց կալիբրացիայով, որը կրճատում է ձեռքով վերաուղղորդումները, երբ գործողությունները անցնում են կոշտ շեմից աստիճանական երթուղավորման (օրինակ՝ «ավտոմատ լուծում», «մարդկային վերանայում», «էսկալացիա»)՝ կապված կալիբրացված գնահատման գոտիների հետ։

Առցանց մոնիթորինգ, տեղաշարժ և ահազանգում 🚨

Անցանց գնահատումները սկիզբն են, ոչ թե վերջը։ Արտադրության մեջ՝

Հետևեք մուտքային շեղմանը, ելքային շեղմանըև կատարողականի անկմանը ըստ հատվածի։
Սահմանեք պաշտպանիչ ցանկապատերի ստուգումներ՝ հալյուցինացիաների առավելագույն մակարդակը, թունավորության շեմերը, արդարության դելտաները։
Ավելացրեք Canary վահանակներ p95 լատենտության, ժամանակի ավարտի և մեկ հարցման արժեքի համար։
Օգտագործեք հատուկ կառուցված գրադարաններ՝ սա արագացնելու համար. դրանք առաջարկում են շեղում, որակ և մոնիթորինգի պրիմիտիվներ անմիջապես տուփից։

Փոքրիկ թերի փոխաբերություն. պատկերացրեք ձեր մոդելը որպես թթխմորով նախուտեստ. դուք ոչ թե մեկ անգամ թխում եք և հեռանում, այլ կերակրում, դիտում, հոտոտում և երբեմն վերսկսում եք։

Մարդկային գնահատական, որը չի փշրվում 🍪

Երբ մարդիկ գնահատում են արդյունքները, գործընթացն ավելի կարևոր է, քան դուք կարծում եք։

Գրեք հստակ ռուբրիկաներ՝ հաջողության, սահմանային և ձախողման օրինակներով։
Հնարավորության դեպքում պատահականացրեք և կույր կերպով ընտրեք նմուշները։
Չափեք գնահատողների միջև համաձայնությունը (օրինակ՝ Քոհենի κ՝ երկու գնահատողների համար, Ֆլայսի κ՝ շատերի համար) և թարմացրեք ռուբրիկները, եթե համաձայնությունը չի համընկնում։

Սա թույլ չի տա, որ ձեր մարդկային պիտակները փոխվեն տրամադրության կամ սուրճի պաշարի հետ կապված։

Խորը ուսումնասիրություն. ինչպես չափել RAG-ում իրավագիտության մագիստրոսների արհեստական բանականության կատարողականը 🧩

Վերականգնման որակ - recall@k, precision@k, nDCG; ոսկու փաստերի լուսաբանում: [2]
Պատասխանի հավատարմություն ՝ մեջբերել և ստուգել ստուգումները, հիմնավորվածության գնահատականները, հակառակորդական հետաքննությունները։
Օգտատիրոջ գոհունակություն - գնահատականներ, առաջադրանքի ավարտ, խմբագրման հեռավորություն առաջարկվող նախագծերից։
Անվտանգություն - թունավորություն, անձնական տվյալների արտահոսք, քաղաքականության համապատասխանություն։
Արժեք և լատենտություն - տոկեններ, քեշի հիթեր, p95 և p99 լատենտություններ։

Կապեք սրանք բիզնես գործողությունների հետ. եթե հիմնավորվածությունը իջնում է գծից ցածր, ավտոմատ կերպով անցեք խիստ ռեժիմի կամ մարդկային վերանայման։

Պարզ ձեռնարկ՝ այսօրվանից սկսելու համար 🪄

Սահմանեք աշխատանքը ՝ գրեք մեկ նախադասություն. ի՞նչ պետք է անի արհեստական բանականությունը և ում համար։
Ընտրեք 2-3 առաջադրանքի չափանիշներ ՝ գումարած կարգաբերում և առնվազն մեկ արդարության շերտ։ [2][3][5]
Որոշեք շեմերը՝ օգտագործելով արժեքը ՝ մի՛ կռահեք։
Ստեղծեք փոքր գնահատման հավաքածու ՝ 100–500 պիտակավորված օրինակներ, որոնք արտացոլում են արտադրության համադրությունը։
Ավտոմատացրեք ձեր գնահատումները ՝ փոխանցեք գնահատումը/մոնիթորինգը CI-ին, որպեսզի յուրաքանչյուր փոփոխություն իրականացնի նույն ստուգումները։
Մոնիտոր արտադրանքի մեջ ՝ դրեյֆ, լատենտություն, ծախս, միջադեպի դրոշներ։
Վերանայեք ամսական կտրվածքով ՝ կտրեք այն չափանիշները, որոնք ոչ ոք չի օգտագործում, ավելացրեք այնպիսիք, որոնք պատասխանում են իրական հարցերին։
Փաստաթղթավորեք որոշումները ՝ կենդանի գնահատման քարտ, որը ձեր թիմն իրականում կարդում է։

Այո, բառացիորեն դա է։ Եվ դա աշխատում է։

Հաճախ հանդիպող սխալներ և դրանցից խուսափելու եղանակներ 🕳️🐇

Մեկ չափանիշի գերհարմարեցում ՝ օգտագործեք չափանիշային զամբյուղ , որը համապատասխանում է որոշման համատեքստին։ [1][2]
Անտեսելով կարգաբերումը . առանց կարգաբերման վստահությունը պարզապես ինքնահավանություն է։ [3]
Առանց սեգմենտացիայի ՝ միշտ բաժանեք օգտատերերի խմբերի, աշխարհագրության, սարքի, լեզվի։ [5]
Անորոշ ծախսեր . եթե սխալներ չհաշվարկեք գների մեջ, սխալ շեմ կընտրեք։
Մարդկային գնահատման շեղում - չափման համաձայնություն, թարմացման ռուբրիկաներ, վերանայման վերանայողներ։
Անվտանգության գործիքներ չկան ՝ ավելացրեք արդարության, թունավորության և քաղաքականության ստուգումները հիմա, ոչ թե ավելի ուշ։ [1][5]

Արտահայտությունը, որի համար դուք եկել եք՝ ինչպես չափել արհեստական բանականության արդյունավետությունը - «Չափազանց երկար, ես այն չեմ կարդացել» 🧾

Սկսեք հստակ արդյունքներից, ապա դասավորեք առաջադրանքը, համակարգըև բիզնես չափանիշները։ [1]
Օգտագործեք աշխատանքի համար ճիշտ չափանիշները ՝ F1 և ROC-AUC դասակարգման համար, nDCG/MRR դասակարգման համար, համընկնում + իմաստաբանական չափանիշներ գեներացիայի համար (զուգակցված մարդկանց հետ): [2][4]
Հաշվարկեք ձեր հավանականությունները և գնահատեք ձեր սխալները ՝ շեմերը ընտրելու համար։ [2][3]
Ավելացրեք արդարության ստուգումներ խմբային հատվածներով և հստակ կառավարեք փոխզիջումները։ [5]
Ավտոմատացրեք գնահատումներն ու մոնիթորինգը , որպեսզի կարողանաք անվախորեն կրկնել։

Դուք գիտեք, թե ինչպես է լինում՝ չափեք այն, ինչը կարևոր է, թե չէ կբարելավեք այն, ինչը կարևոր չէ։

Հղումներ

[1] NIST. Արհեստական բանականության ռիսկերի կառավարման շրջանակ (AI RMF): կարդալ ավելին
[2] scikit-learn. Մոդելի գնահատում. կանխատեսումների որակի քանակականացում (Օգտագործողի ուղեցույց): կարդալ ավելին
[3] scikit-learn. Հավանականության տրամաչափում (տրամաչափման կորեր, Բրայերի միավոր): կարդալ ավելին
[4] Պապինենի և այլք (2002): BLEU. մեքենայական թարգմանության ավտոմատ գնահատման մեթոդ: ACL: կարդալ ավելին
[5] Հարդտ, Փրայս, Սրեբրո (2016): Հնարավորությունների հավասարություն վերահսկվող ուսուցման մեջ: NeurIPS: կարդալ ավելին

Գտեք արհեստական բանականության վերջին նորույթները պաշտոնական արհեստական բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ

Ի՞նչն է ապահովում արհեստական ​​բանականության լավ աշխատանքը։ ✅

Բարձր մակարդակի բաղադրատոմս՝ արհեստական ​​բանականության արդյունավետությունը չափելու համար 🍳