Եթե երբևէ արտադրել եք նոութբուքի մոդել, որը աչքի է ընկել իր տեսքով, բայց սայթաքել է արտադրության մեջ, ապա արդեն գիտեք գաղտնիքը. արհեստական բանականության արդյունավետությունը չափելը մեկ կախարդական չափանիշ չէ։ Այն իրական աշխարհի նպատակներին կապված ստուգումների համակարգ է։ Ճշգրտությունը հիանալի է։ Հուսալիությունը, անվտանգությունը և բիզնեսի վրա ազդեցությունը ավելի լավն են։
Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո
🔗 Ինչպես խոսել արհեստական բանականության հետ
Արհեստական բանականության հետ արդյունավետ հաղորդակցման ուղեցույց՝ ավելի լավ արդյունքների հասնելու համար։
🔗 Ի՞նչ է արհեստական բանականության հուշումը
Բացատրում է, թե ինչպես են հուշումները ձևավորում արհեստական բանականության պատասխանները և արդյունքի որակը։
🔗 Ի՞նչ է արհեստական բանականության տվյալների պիտակավորումը
Ուսուցման մոդելների համար տվյալներին ճշգրիտ պիտակներ նշանակելու ընդհանուր պատկերացում։
🔗 Ի՞նչ է արհեստական բանականության էթիկան
Ներածություն պատասխանատու արհեստական ինտելեկտի մշակման և տեղակայման ուղեցույցի էթիկական սկզբունքներին։
Ի՞նչն է ապահովում արհեստական բանականության լավ աշխատանքը։ ✅
Կարճ տարբերակ՝ արհեստական բանականության լավ աշխատանքը նշանակում է, որ ձեր համակարգը օգտակար է, վստահելի և կրկնվող ՝ անկանոն, փոփոխվող պայմաններում։ Մասնավորապես՝
-
Առաջադրանքի որակը ՝ այն ստանում է ճիշտ պատասխաններ ճիշտ պատճառներով։
-
Կալիբրացիա - վստահության միավորները համապատասխանում են իրականությանը, որպեսզի կարողանաք խելացի գործողություններ ձեռնարկել։
-
Հուսալիություն - այն դիմանում է շեղմանը, եզրերի պատյաններին և հակառակորդի մշուշին։
-
Անվտանգություն և արդարություն - այն խուսափում է վնասակար, կողմնակալ կամ անհամապատասխան վարքագծից։
-
Արդյունավետություն - այն բավականաչափ արագ է, բավականաչափ էժան և բավականաչափ կայուն՝ մասշտաբային աշխատանքի համար։
-
Բիզնեսի վրա ազդեցություն ՝ այն իրականում փոխում է ձեզ համար կարևոր KPI-ը։
Եթե ցանկանում եք չափանիշների և ռիսկերի համապատասխանեցման պաշտոնական հենակետ, NIST AI Risk Management Framework-ը հուսալի ուղեցույց է հուսալի համակարգի գնահատման համար: [1]

Բարձր մակարդակի բաղադրատոմս՝ արհեստական բանականության արդյունավետությունը չափելու համար 🍳
Մտածեք երեք շերտով .
-
Առաջադրանքի չափանիշներ ՝ առաջադրանքի տեսակի ճշգրտություն՝ դասակարգում, ռեգրեսիա, վարկանիշ, գեներացիա, վերահսկողություն և այլն։
-
Համակարգի չափանիշներ ՝ լատենտություն, թողունակություն, մեկ զանգի արժեքը, ձախողման մակարդակները, շեղման ահազանգերը, աշխատանքային ժամանակի SLA-ները։
-
Արդյունքի չափանիշներ ՝ բիզնեսի և օգտատիրոջ այն արդյունքները, որոնք դուք իրականում ցանկանում եք՝ փոխակերպում, հաճախորդների պահպանում, անվտանգության միջադեպեր, ձեռքով վերանայման ծանրաբեռնվածություն, տոմսերի ծավալ։
Հիանալի չափման պլանը միտումնավոր համատեղում է այս երեքը։ Հակառակ դեպքում դուք կստանաք հրթիռ, որը երբեք չի լքի մեկնարկային հրապարակը։
Հիմնական չափանիշներ ըստ խնդրի տեսակի՝ և երբ որն օգտագործել 🎯
1) Դասակարգում
-
Ճշգրտություն, Հետկանչ, F1 - առաջին օրվա եռյակը։ F1-ը ճշգրտության և հետկանչման հարմոնիկ միջինն է. օգտակար է, երբ դասերը անհավասարակշռված են կամ ծախսերը ասիմետրիկ են։ [2]
-
ROC-AUC - դասակարգիչների շեմային-ագնոստիկ դասակարգում. երբ դրականները հազվադեպ են լինում, ստուգվում է նաև PR-AUC-ը ։ [2]
-
Հավասարակշռված ճշգրտություն ՝ դասերի միջև հիշողության միջին ցուցանիշ. հարմար է թեքված պիտակների համար։ [2]
Թակարդի հսկողություն. ինքնին ճշգրտությունը կարող է խիստ մոլորեցնող լինել՝ անհավասարակշռության պատճառով: Եթե օգտատերերի 99%-ը օրինական են, հիմար, միշտ օրինական մոդելը հավաքում է 99% միավոր և հիասթափեցնում է ձեր խարդախության թիմին մինչև ճաշը:
2) Ռեգրեսիա
-
MAE ՝ մարդու կողմից ընթեռնելի սխալի համար, RMSE ՝ խոշոր վրիպումների դեպքում, R² ՝ շեղման բացատրություն։ Այնուհետև՝ խելամտության ստուգման բաշխումներ և մնացորդային գրաֆիկներ։ [2]
(Օգտագործեք տիրույթին հարմար միավորներ, որպեսզի շահագրգիռ կողմերը կարողանան իրականում զգալ սխալը):
3) Դասակարգում, որոնում, առաջարկություններ
-
nDCG - հոգ է տանում դիրքի և դասակարգված համապատասխանության մասին. որոնման որակի չափանիշ։
-
MRR - կենտրոնանում է առաջին համապատասխան տարրի հայտնվելու արագության վրա (հիանալի է «գտնել մեկ լավ պատասխան» առաջադրանքների համար):
(Իրականացման հղումները և մշակված օրինակները գտնվում են հիմնական մետրիկ գրադարաններում): [2]
4) Տեքստի ստեղծում և ամփոփում
-
Կապույտ և կարմիր - դասական համընկնման չափանիշներ; օգտակար են որպես բազային գծեր։
-
Ներդրման վրա հիմնված չափանիշները (օրինակ՝ BERTScore-ը ) հաճախ ավելի լավ են համընկնում մարդկային դատողության հետ. միշտ զուգակցվում են ոճի, հավատարմության և անվտանգության մարդկային գնահատականների հետ։ [4]
5) Հարց ու պատասխան
-
ճշգրիտ համապատասխանությունը և տոկենների մակարդակի F1-ը ։ Եթե պատասխանները պետք է հղում կատարեն աղբյուրներին, չափեք նաև հիմնավորումը (պատասխանի աջակցության ստուգումներ)։
Կալիբրացիա, վստահություն և Brier օբյեկտիվ 🎚️
Վստահության միավորները շատ համակարգերի աննկատելի դիրքն են գրավում։ Ձեզ անհրաժեշտ են հավանականություններ, որոնք արտացոլում են իրականությունը, որպեսզի օպերատորները կարողանան սահմանել շեմեր, մարդկանց հասնելու ուղիներ կամ գնահատել ռիսկը։
-
Կալիբրացման կորեր - պատկերացրեք կանխատեսված հավանականությունը ընդդեմ էմպիրիկ հաճախականության։
-
Բրայերի միավորը հավանականության ճշգրտության համար պատշաճ գնահատման կանոն է. որքան ցածր, այնքան լավ: Այն հատկապես օգտակար է, երբ կարևոր է հավանականության որակը
Նշում. մի փոքր «ավելի վատ» F1-ը, բայց շատ ավելի լավ կալիբրացումը կարող է զգալիորեն բարելավել տեսակավորումը, քանի որ մարդիկ վերջապես կարող են վստահել գնահատականներին։
Անվտանգություն, կողմնակալություն և արդարություն՝ չափեք կարևորը 🛡️⚖️
Համակարգը կարող է ընդհանուր առմամբ ճշգրիտ լինել և միևնույն ժամանակ վնասել որոշակի խմբերի: Հետևեք խմբավորված չափանիշներին և արդարության չափանիշներին.
-
Ժողովրդագրական համարժեքություն ՝ խմբերի միջև հավասար դրական ցուցանիշներ։
-
Հավասարեցված հավանականություն / Հավասար հնարավորություն - հավասար սխալի մակարդակներ կամ իրական դրական մակարդակներ խմբերի միջև. օգտագործեք դրանք փոխզիջումները հայտնաբերելու և կառավարելու համար, այլ ոչ թե որպես միանվագ անցում-ձախողում դրոշմանիշներ: [5]
Գործնական խորհուրդ. սկսեք վահանակներից, որոնք բաժանում են հիմնական չափանիշները ըստ հիմնական հատկանիշների, այնուհետև ավելացրեք արդարության որոշակի չափանիշներ՝ ըստ ձեր քաղաքականության պահանջների: Հնչում է բարդ, բայց ավելի էժան է, քան միջադեպը:
Իրավագիտության մագիստրոսներ և RAG՝ չափման ձեռնարկ, որն իրականում աշխատում է 📚🔍
Գեներատիվ համակարգերի չափումը… դժվար է։ Անեք սա՝
-
Սահմանեք արդյունքները յուրաքանչյուր օգտագործման դեպքի համար՝ ճշգրտություն, օգտակարություն, անվնասություն, ոճին համապատասխանություն, ապրանքանիշին բնորոշ տոն, մեջբերման հիմնավորում, մերժման որակ։
-
Ավտոմատացրեք բազային գնահատումները հզոր շրջանակների միջոցով (օրինակ՝ գնահատման գործիքակազմ ձեր կուտակած) և պահպանեք դրանք տարբերակներով համապատասխանեցված ձեր տվյալների հավաքածուներին։
-
Ավելացրեք իմաստաբանական չափանիշներ (ներդրման վրա հիմնված) գումարած համընկնող չափանիշներ (Կապույտ/Կարմիր)՝ խելամտության համար։ [4]
-
RAG-ում գործիքի հիմնավորում
-
Մարդկային վերանայում՝ համաձայնությամբ . չափեք գնահատողի հետևողականությունը (օրինակ՝ Քոհենի κ կամ Ֆլեյսի κ), որպեսզի ձեր պիտակները չլինեն թրթռացող։
Բոնուս՝ գրանցեք լատենտիլների տոկոսները և տոկենները կամ հաշվարկեք յուրաքանչյուր առաջադրանքի արժեքը: Ոչ ոք չի սիրում բանաստեղծական պատասխան, որը կգա հաջորդ երեքշաբթի:
Համեմատական աղյուսակ՝ գործիքներ, որոնք կօգնեն ձեզ չափել արհեստական բանականության արդյունավետությունը 🛠️📊
(Այո, դիտավորյալ մի փոքր խառնաշփոթ է. իրական նոտաներն էլ խառնաշփոթ են։)
| Գործիք | Լավագույն լսարանը | Գինը | Ինչու է այն աշխատում - արագ ակնարկ |
|---|---|---|---|
| scikit-learn չափանիշներ | ՄՄ մասնագետներ | Անվճար | Կանոնիկ իրականացումներ դասակարգման, ռեգրեսիայի, վարկանիշավորման համար. հեշտ է ներառել թեստերի մեջ։ [2] |
| MLflow-ի գնահատում / GenAI | Տվյալների գիտնականներ, MLOps | Անվճար + վճարովի | Կենտրոնացված վազքեր, ավտոմատացված չափանիշներ, LLM դատավորներ, հատուկ գնահատողներ. արտեֆակտների մաքուր գրանցում։ |
| Ակնհայտորեն | Թիմերը ցանկանում են արագ վահանակներ | OSS + ամպ | 100+ չափանիշներ, դրեյֆտի և որակի հաշվետվություններ, մոնիթորինգի հուկներ՝ հաճելի տեսողական նյութեր՝ սեղմ ժամկետում։ |
| Կշիռներ և թեքություններ | Փորձարկումներով լի կազմակերպություններ | Ազատ մակարդակ | Կողք կողքի համեմատություններ, գնահատման տվյալների հավաքածուներ, դատավորներ. աղյուսակներն ու հետագծերը բավականին կոկիկ են։ |
| ԼանգՍմիթ | LLM հավելվածների կառուցողներ | Վճարված | Հետևեք յուրաքանչյուր քայլին, համատեղեք մարդկային վերանայումը կանոնների կամ LLM գնահատողների հետ. հիանալի է RAG-ի համար։ |
| TruLens | Բաց կոդով LLM գնահատման սիրահարներ | ԲԱՑ | Հետադարձ կապի ֆունկցիաներ՝ թունավորությունը, հիմնավորվածությունը, արդիականությունը գնահատելու համար, ինտեգրվեք ամենուր։ |
| Մեծ սպասումներ | Տվյալների որակը առաջնահերթ համարող կազմակերպություններ | ԲԱՑ | Ձևակերպեք տվյալների վերաբերյալ սպասումները, քանի որ վատ տվյալները միևնույն է փչացնում են յուրաքանչյուր չափանիշ։ |
| Խորը ստուգումներ | Թեստավորում և CI/CD՝ մեքենայական զանգվածի բազմացման համար | OSS + ամպ | Մարտկոցներ՝ ներառված, տվյալների շեղման, մոդելի խնդիրների և մոնիթորինգի ստուգում։ Լավ պաշտպանիչ ցանկապատեր։ |
Գները փոխվում են՝ ստուգեք փաստաթղթերը։ Եվ այո, դուք կարող եք խառնել դրանք առանց գործիքային ոստիկանության ներկայության։
Շեմեր, ծախսեր և որոշումների կորեր՝ գաղտնի բաղադրատոմսը 🧪
Տարօրինակ, բայց ճշմարիտ բան. նույն ROC-AUC-ով երկու մոդելներ կարող են շատ տարբեր բիզնես արժեք ունենալ՝ կախված ձեր շեմից և ծախսերի հարաբերակցությունից ։
Արագ աղյուսակ կառուցելու համար.
-
Սահմանեք կեղծ դրականի և կեղծ բացասականի արժեքը գումարով կամ ժամանակով։
-
Հաշվարկել շեմային արժեքները և հաշվարկել 1000 որոշման համար սպասվող արժեքը։
-
Ընտրեք սպասվող նվազագույն արժեքի շեմը, այնուհետև ամրագրեք այն մոնիթորինգի միջոցով։
Օգտագործեք PR կորերը, երբ դրականները հազվադեպ են լինում, ROC կորերը՝ ընդհանուր ձևի համար, և կալիբրացման կորերը, երբ որոշումները հիմնված են հավանականությունների վրա: [2][3]
Փոքր դեպք. աջակցության տոմսերի տեսակավորման մոդել՝ համեստ F1-ով, բայց գերազանց կալիբրացիայով, որը կրճատում է ձեռքով վերաուղղորդումները, երբ գործողությունները անցնում են կոշտ շեմից աստիճանական երթուղավորման (օրինակ՝ «ավտոմատ լուծում», «մարդկային վերանայում», «էսկալացիա»)՝ կապված կալիբրացված գնահատման գոտիների հետ։
Առցանց մոնիթորինգ, տեղաշարժ և ահազանգում 🚨
Անցանց գնահատումները սկիզբն են, ոչ թե վերջը։ Արտադրության մեջ՝
-
Հետևեք մուտքային շեղմանը , ելքային շեղմանը և կատարողականի անկմանը ըստ հատվածի։
-
Սահմանեք պաշտպանիչ ցանկապատերի ստուգումներ՝ հալյուցինացիաների առավելագույն մակարդակը, թունավորության շեմերը, արդարության դելտաները։
-
Ավելացրեք Canary վահանակներ p95 լատենտության, ժամանակի ավարտի և մեկ հարցման արժեքի համար։
-
Օգտագործեք հատուկ կառուցված գրադարաններ՝ սա արագացնելու համար. դրանք առաջարկում են շեղում, որակ և մոնիթորինգի պրիմիտիվներ անմիջապես տուփից։
Փոքրիկ թերի փոխաբերություն. պատկերացրեք ձեր մոդելը որպես թթխմորով նախուտեստ. դուք ոչ թե մեկ անգամ թխում եք և հեռանում, այլ կերակրում, դիտում, հոտոտում և երբեմն վերսկսում եք։
Մարդկային գնահատական, որը չի փշրվում 🍪
Երբ մարդիկ գնահատում են արդյունքները, գործընթացն ավելի կարևոր է, քան դուք կարծում եք։
-
Գրեք հստակ ռուբրիկաներ՝ հաջողության, սահմանային և ձախողման օրինակներով։
-
Հնարավորության դեպքում պատահականացրեք և կույր կերպով ընտրեք նմուշները։
-
Չափեք գնահատողների միջև համաձայնությունը (օրինակ՝ Քոհենի κ՝ երկու գնահատողների համար, Ֆլայսի κ՝ շատերի համար) և թարմացրեք ռուբրիկները, եթե համաձայնությունը չի համընկնում։
Սա թույլ չի տա, որ ձեր մարդկային պիտակները փոխվեն տրամադրության կամ սուրճի պաշարի հետ կապված։
Խորը ուսումնասիրություն. ինչպես չափել RAG-ում իրավագիտության մագիստրոսների արհեստական բանականության կատարողականը 🧩
-
Վերականգնման որակ - recall@k, precision@k, nDCG; ոսկու փաստերի լուսաբանում: [2]
-
Պատասխանի հավատարմություն ՝ մեջբերել և ստուգել ստուգումները, հիմնավորվածության գնահատականները, հակառակորդական հետաքննությունները։
-
Օգտատիրոջ գոհունակություն - գնահատականներ, առաջադրանքի ավարտ, խմբագրման հեռավորություն առաջարկվող նախագծերից։
-
Անվտանգություն - թունավորություն, անձնական տվյալների արտահոսք, քաղաքականության համապատասխանություն։
-
Արժեք և լատենտություն - տոկեններ, քեշի հիթեր, p95 և p99 լատենտություններ։
Կապեք սրանք բիզնես գործողությունների հետ. եթե հիմնավորվածությունը իջնում է գծից ցածր, ավտոմատ կերպով անցեք խիստ ռեժիմի կամ մարդկային վերանայման։
Պարզ ձեռնարկ՝ այսօրվանից սկսելու համար 🪄
-
Սահմանեք աշխատանքը ՝ գրեք մեկ նախադասություն. ի՞նչ պետք է անի արհեստական բանականությունը և ում համար։
-
Ընտրեք 2-3 առաջադրանքի չափանիշներ ՝ գումարած կարգաբերում և առնվազն մեկ արդարության շերտ։ [2][3][5]
-
Որոշեք շեմերը՝ օգտագործելով արժեքը ՝ մի՛ կռահեք։
-
Ստեղծեք փոքր գնահատման հավաքածու ՝ 100–500 պիտակավորված օրինակներ, որոնք արտացոլում են արտադրության համադրությունը։
-
Ավտոմատացրեք ձեր գնահատումները ՝ փոխանցեք գնահատումը/մոնիթորինգը CI-ին, որպեսզի յուրաքանչյուր փոփոխություն իրականացնի նույն ստուգումները։
-
Մոնիտոր արտադրանքի մեջ ՝ դրեյֆ, լատենտություն, ծախս, միջադեպի դրոշներ։
-
Վերանայեք ամսական կտրվածքով ՝ կտրեք այն չափանիշները, որոնք ոչ ոք չի օգտագործում, ավելացրեք այնպիսիք, որոնք պատասխանում են իրական հարցերին։
-
Փաստաթղթավորեք որոշումները ՝ կենդանի գնահատման քարտ, որը ձեր թիմն իրականում կարդում է։
Այո, բառացիորեն դա է։ Եվ դա աշխատում է։
Հաճախ հանդիպող սխալներ և դրանցից խուսափելու եղանակներ 🕳️🐇
-
Մեկ չափանիշի գերհարմարեցում ՝ օգտագործեք չափանիշային զամբյուղ , որը համապատասխանում է որոշման համատեքստին։ [1][2]
-
Անտեսելով կարգաբերումը . առանց կարգաբերման վստահությունը պարզապես ինքնահավանություն է։ [3]
-
Առանց սեգմենտացիայի ՝ միշտ բաժանեք օգտատերերի խմբերի, աշխարհագրության, սարքի, լեզվի։ [5]
-
Անորոշ ծախսեր . եթե սխալներ չհաշվարկեք գների մեջ, սխալ շեմ կընտրեք։
-
Մարդկային գնահատման շեղում - չափման համաձայնություն, թարմացման ռուբրիկաներ, վերանայման վերանայողներ։
-
Անվտանգության գործիքներ չկան ՝ ավելացրեք արդարության, թունավորության և քաղաքականության ստուգումները հիմա, ոչ թե ավելի ուշ։ [1][5]
Արտահայտությունը, որի համար դուք եկել եք՝ ինչպես չափել արհեստական բանականության արդյունավետությունը - «Չափազանց երկար, ես այն չեմ կարդացել» 🧾
-
Սկսեք հստակ արդյունքներից , ապա դասավորեք առաջադրանքը , համակարգը և բիզնես չափանիշները։ [1]
-
Օգտագործեք աշխատանքի համար ճիշտ չափանիշները ՝ F1 և ROC-AUC դասակարգման համար, nDCG/MRR դասակարգման համար, համընկնում + իմաստաբանական չափանիշներ գեներացիայի համար (զուգակցված մարդկանց հետ): [2][4]
-
Հաշվարկեք ձեր հավանականությունները և գնահատեք ձեր սխալները ՝ շեմերը ընտրելու համար։ [2][3]
-
Ավելացրեք արդարության ստուգումներ խմբային հատվածներով և հստակ կառավարեք փոխզիջումները։ [5]
-
Ավտոմատացրեք գնահատումներն ու մոնիթորինգը , որպեսզի կարողանաք անվախորեն կրկնել։
Դուք գիտեք, թե ինչպես է լինում՝ չափեք այն, ինչը կարևոր է, թե չէ կբարելավեք այն, ինչը կարևոր չէ։
Հղումներ
[1] NIST. Արհեստական բանականության ռիսկերի կառավարման շրջանակ (AI RMF): կարդալ ավելին
[2] scikit-learn. Մոդելի գնահատում. կանխատեսումների որակի քանակականացում (Օգտագործողի ուղեցույց): կարդալ ավելին
[3] scikit-learn. Հավանականության տրամաչափում (տրամաչափման կորեր, Բրայերի միավոր): կարդալ ավելին
[4] Պապինենի և այլք (2002): BLEU. մեքենայական թարգմանության ավտոմատ գնահատման մեթոդ: ACL: կարդալ ավելին
[5] Հարդտ, Փրայս, Սրեբրո (2016): Հնարավորությունների հավասարություն վերահսկվող ուսուցման մեջ: NeurIPS: կարդալ ավելին