Կարճ պատասխան. Սահմանեք, թե ինչ տեսք ունի «լավը» ձեր օգտագործման դեպքի համար, այնուհետև փորձարկեք ներկայացուցչական, տարբերակված հուշումներով և եզրային դեպքերով: Համատեղեք ավտոմատացված չափանիշները մարդկային ռուբրիկայի գնահատման հետ՝ հակադրական անվտանգության և հուշումների ներարկման ստուգումների հետ մեկտեղ: Եթե ծախսերի կամ լատենտության սահմանափակումները դառնում են պարտադիր, համեմատեք մոդելները ըստ առաջադրանքի հաջողության՝ ծախսված մեկ ֆունտի համար և p95/p99 արձագանքման ժամանակի:
Հիմնական եզրակացություններ՝
Հաշվետվողականություն . Նշանակեք հստակ սեփականատերեր, պահեք տարբերակների գրանցամատյանները և վերստին կատարեք գնահատումները ցանկացած հուշումից կամ մոդելի փոփոխությունից հետո։
Թափանցիկություն . գրեք հաջողության չափանիշները, սահմանափակումները և ձախողման ծախսերը, նախքան միավորներ հավաքելը սկսելը։
Աուդիտալիություն . Պահպանել կրկնվող թեստերի հավաքածուներ, պիտակավորված տվյալների հավաքածուներ և հետևված p95/p99 լատենտության չափանիշներ։
Վիճարկելիություն . վիճարկվող արդյունքների համար օգտագործեք մարդկային վերանայման ռուբրիկաներ և սահմանված բողոքարկման ուղի։
Չարաշահման դիմադրություն . Red-team-ի արագ ներարկում, զգայուն թեմաներ և օգտատերերին պաշտպանելու չափազանց շատ հրաժարում։
Եթե դուք ընտրում եք մոդել ապրանքի, հետազոտական նախագծի կամ նույնիսկ ներքին գործիքի համար, չեք կարող պարզապես ասել, որ «խելացի է հնչում» և ուղարկել այն (տե՛ս OpenAI գնահատման ուղեցույցը և NIST AI RMF 1.0- ): Ահա թե ինչպես եք ստանում չաթբոտ, որը վստահորեն բացատրում է, թե ինչպես միկրոալիքային վառարանում տաքացնել պատառաքաղը: 😬

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո
🔗 Արհեստական բանականության ապագան. միտումներ, որոնք ձևավորում են հաջորդ տասնամյակը։
Հիմնական նորարարությունները, աշխատատեղերի վրա ազդեցությունը և էթիկան, որոնց պետք է հետևել ապագայում։
🔗 Գեներատիվ արհեստական բանականության հիմքային մոդելների բացատրություն սկսնակների համար։
Իմացեք, թե ինչ են դրանք, որքանով են պատրաստված և ինչու են կարևոր։
🔗 Ինչպես է արհեստական բանականությունը ազդում շրջակա միջավայրի և էներգիայի օգտագործման վրա։
Ուսումնասիրեք արտանետումները, էլեկտրաէներգիայի պահանջարկը և հետքը նվազեցնելու եղանակները։
🔗 Ինչպես է արհեստական բանականության միջոցով պատկերների մեծացումը գործում այսօր՝ ավելի սուր պատկերների համար։
Տեսեք, թե ինչպես են մոդելները մանրամասներ ավելացնում, աղմուկը հեռացնում և մաքուր մեծացնում։
1) «Լավ»-ի սահմանումը (կախված է, և դա նորմալ է) 🎯
Մինչ որևէ գնահատում անցկացնելը, որոշեք, թե ինչ տեսք ունի հաջողությունը։ Հակառակ դեպքում դուք ամեն ինչ կչափեք և ոչինչ չեք սովորի։ Դա նման է չափիչ ժապավեն բերելուն՝ տորթերի մրցույթը գնահատելու համար։ Անշուշտ, դուք թվեր կստանաք, բայց դրանք ձեզ շատ բան չեն ասի 😅
Պարզաբանել՝
-
Օգտատիրոջ նպատակը ՝ ամփոփում, որոնում, գրել, դատողություն, փաստերի արդյունահանում
-
Ձախողման արժեքը . ֆիլմի սխալ խորհուրդը զվարճալի է, սխալ բժշկական հրահանգը… զվարճալի չէ (ռիսկի շրջանակ՝ NIST AI RMF 1.0 ):
-
Գործարկման միջավայր ՝ սարքի վրա, ամպում, firewall-ի հետևում, կարգավորվող միջավայրում
-
Հիմնական սահմանափակումներ ՝ լատենտություն, մեկ հարցման արժեքը, գաղտնիությունը, բացատրելիությունը, բազմալեզու աջակցությունը, տոնի կառավարումը
Մի աշխատանքում «լավագույնը» մոդելը կարող է աղետ լինել մեկ այլ աշխատանքում։ Սա հակասություն չէ, սա իրականություն է։ 🙂
2) Ինչպիսի՞ն է արհեստական բանականության մոդելի գնահատման ամուր շրջանակը 🧰
Այո, սա այն մասն է, որը մարդիկ բաց են թողնում։ Նրանք վերցնում են չափանիշ, մեկ անգամ փորձարկում են այն և ավարտում աշխատանքը։ Հզոր գնահատման շրջանակն ունի մի քանի հետևողական առանձնահատկություններ (գործնական գործիքակազմի օրինակներ՝ OpenAI գնահատումներ / OpenAI գնահատումների ուղեցույց ):
-
Կրկնելի - դուք կարող եք այն կրկին գործարկել հաջորդ շաբաթ և վստահել համեմատություններին
-
Ներկայացուցչական - այն արտացոլում է ձեր իրական օգտատերերին և առաջադրանքները (ոչ միայն մանրուքներ)
-
Բազմաշերտ - համատեղում է ավտոմատացված չափանիշներ + մարդկային վերանայում + մրցակցային թեստեր
-
Գործնականում կիրառելի - արդյունքները ցույց են տալիս, թե ինչ շտկել, այլ ոչ թե պարզապես «միավորը նվազել է»։
-
Անխափան աշխատանք - կանխում է «փորձարկմանը սովորեցնելը» կամ պատահական արտահոսքը
-
Արժեքի գիտակցում . գնահատումն ինքնին չպետք է ձեզ սնանկացնի (եթե դուք չեք սիրում ցավը)
Եթե ձեր գնահատումը չի կարողանում դիմանալ կասկածամիտ թիմակցի ասածին՝ «Լավ, բայց կապեք սա արտադրության հետ», ապա այն դեռ ավարտված չէ։ Ահա թե ինչ է նշանակում տրամադրության ստուգումը։.
3) Ինչպես գնահատել արհեստական բանականության մոդելները՝ սկսելով օգտագործման դեպքերի հատվածներից 🍰
Ահա մի հնարք, որը շատ ժամանակ կխնայի. օգտագործման դեպքը բաժանեք կտորների ։
«Գնահատեք մոդելը» բառի փոխարեն արեք հետևյալը
-
Նպատակի հասկացողություն (արդյո՞ք այն ստանում է այն, ինչ օգտատերն ուզում է):
-
Վերականգնում կամ համատեքստի օգտագործում (ճի՞շտ է օգտագործում տրամադրված տեղեկատվությունը):
-
Հիմնավորում / բազմաքայլ առաջադրանքներ (արդյո՞ք այն մնում է հետևողական քայլերի միջև):
-
Ձևաչափում և կառուցվածք (հետևո՞ւմ է հրահանգներին)
-
Անվտանգության և քաղաքականության համապատասխանեցում (արդյո՞ք այն խուսափում է անվտանգ բովանդակությունից, տե՛ս NIST AI RMF 1.0 ):
-
Տոն և ապրանքանիշի ոճ (հնչո՞ւմ է այնպես, ինչպես դուք եք ուզում, որ հնչի):
Սա «Ինչպես գնահատել արհեստական բանականության մոդելները» թեստը դարձնում է ոչ թե մեկ մեծ քննության նման, այլ ավելի շատ՝ թիրախային թեստերի հավաքածուի։ Թեստերը նյարդայնացնող են, բայց կառավարելի։ 😄
4) Անցանց գնահատման հիմունքներ՝ թեստերի հավաքածուներ, պիտակներ և կարևոր ոչ այնքան հմայիչ մանրամասներ 📦
Անցանց գնահատումը այն է, երբ դուք կատարում եք վերահսկվող թեստեր, նախքան օգտատերերը որևէ բանի դիպչեն (աշխատանքային հոսքի ձևեր՝ OpenAI գնահատումներ ):
Ստեղծեք կամ հավաքեք թեստային հավաքածու, որն իսկապես ձերն է
Լավ թեստային հավաքածուն սովորաբար ներառում է
-
Ոսկե օրինակներ ՝ իդեալական արդյունքներ, որոնք դուք հպարտությամբ կառաքեիք
-
Եզրային տառատեսակներ ՝ երկիմաստ հուշումներ, անկանոն մուտքագրումներ, անսպասելի ձևաչափում
-
Ձախողման ռեժիմի զոնդեր . հուշումներ, որոնք գայթակղում են հալյուցինացիաներ կամ անվտանգ պատասխաններ (ռիսկի ստուգման շրջանակ՝ NIST AI RMF 1.0 )
-
Բազմազանության ծածկույթ ՝ տարբեր օգտատիրոջ հմտությունների մակարդակներ, բարբառներ, լեզուներ, տիրույթներ
Եթե փորձարկեք միայն «մաքուր» հուշումների վրա, մոդելը հիանալի տեսք կունենա։ Այդ դեպքում ձեր օգտատերերը կհայտնվեն տպագրական սխալներով, կիսատ նախադասություններով և զայրույթի պես սեղմումների էներգիայով։ Բարի գալուստ իրականություն։.
Պիտակավորման ընտրություններ (այսինքն՝ խստության մակարդակներ)
Դուք կարող եք ելքերը պիտակավորել որպես՝
-
Երկուական ՝ անցնել/ձախողել (արագ, կոշտ)
-
Դասական ՝ 1-5 որակի գնահատական (նյուանսավորված, սուբյեկտիվ)
-
Բազմաատրիբուտ ՝ ճշգրտություն, ամբողջականություն, տոն, մեջբերումների օգտագործում և այլն (լավագույն, դանդաղ)
Բազմաատրիբուտը շատ թիմերի համար լավագույն տարբերակն է։ Դա նման է ուտելիքը համտեսելուն և աղիությունը հյուսվածքից առանձին գնահատելուն։ Հակառակ դեպքում դուք պարզապես ասում եք «լավ» և ուսերը թոթվում։.
5) Չի ստում չափորոշիչներ, և չափորոշիչներ, որոնք մի տեսակ ստում են 📊😅
Չափանիշները արժեքավոր են… բայց դրանք կարող են նաև լինել փայլուն ռումբ։ Փայլուն, ամենուրեք, և դժվար է մաքրել։.
Ընդհանուր մետրիկ ընտանիքներ
-
Ճշգրտություն / ճշգրիտ համապատասխանություն . հիանալի է արդյունահանման, դասակարգման, կառուցվածքային առաջադրանքների համար
-
F1 / ճշգրտություն / հիշեցում . հարմար է, երբ ինչ-որ բան բաց թողնելն ավելի վատ է, քան լրացուցիչ աղմուկը (սահմանումներ՝ scikit-learn ճշգրտություն/հիշողություն/F-միավոր )
-
Կապույտ / Կարմիր ոճերի համընկնում . հարմար է ամփոփման նման առաջադրանքների համար, հաճախ մոլորեցնող է (բնօրինակ չափանիշներ՝ Կապույտ և Կարմիր )
-
Ներդրման նմանություն . օգտակար է իմաստաբանական համապատասխանության համար, կարող է խրախուսել սխալ, բայց նման պատասխանները
-
Առաջադրանքի հաջողության մակարդակ . «օգտատերը ստացե՞լ է այն, ինչ իրեն անհրաժեշտ էր» ոսկե ստանդարտը, երբ այն լավ է սահմանված։
-
Սահմանափակումների համապատասխանություն ՝ հետևում է ձևաչափին, երկարությանը, JSON վավերականությանը, սխեմայի պահպանմանը
Հիմնական կետը
Եթե ձեր առաջադրանքը բաց է (գրավոր աշխատանք, դատողություն, աջակցության զրույց), միաթիվ չափանիշները կարող են լինել… անկայուն։ Ոչ թե անիմաստ, այլ պարզապես անկայուն։ Ստեղծագործությունը քանոնով չափելը հնարավոր է, բայց դուք ձեզ հիմար կզգաք դա անելիս։ (Հավանաբար նաև աչքդ կհանեք)։
Այսպիսով՝ օգտագործեք չափանիշներ, բայց կապեք դրանք մարդկային վերանայման և իրական առաջադրանքի արդյունքների հետ (իրավաբանական գիտությունների մագիստրոսի վրա հիմնված գնահատման քննարկման + նախազգուշացումների մեկ օրինակ՝ G-Eval ):
6) Համեմատական աղյուսակ - լավագույն գնահատման տարբերակներ (տարբերակներով, որովհետև կյանքն ունի տարաբնույթ առանձնահատկություններ) 🧾✨
Ահա գնահատման մոտեցումների գործնական ցանկը։ Խառնեք և համապատասխանեցրեք։ Թիմերի մեծ մասն այդպես է անում։.
| Գործիք / մեթոդ | Լսարան | Գինը | Ինչու է այն աշխատում |
|---|---|---|---|
| Ձեռքով կառուցված արագ թեստավորման հավաքածու | Արտադրանք + ինժեներական | $ | Շատ թիրախային է, արագ որսում է ռեգրեսիաները, բայց դուք պետք է այն պահպանեք հավերժ 🙃 (սկզբնական գործիքակազմ՝ OpenAI Evals ) |
| Մարդկային ռուբուրայի գնահատման վահանակ | Թիմեր, որոնք կարող են ազատել գրախոսողներին | $$ | Լավագույնը՝ տոնի, նրբերանգի, «արդյո՞ք մարդը կհամաձայնվի սրա հետ», թեթևակի քաոսի համար՝ կախված գրախոսներից։ |
| Իրավագիտության մագիստրոս (որպես դատավոր) (ռուբրիկներով) | Արագ իտերացիոն ցիկլեր | $-$$ | Արագ և մասշտաբային, բայց կարող է ժառանգել կողմնակալություն և երբեմն գնահատել տրամադրությունները, այլ ոչ թե փաստերը (հետազոտություն + հայտնի կողմնակալության խնդիրներ՝ G-Eval ): |
| Հակառակորդ կարմիր թիմային սպրինտ | Անվտանգություն + համապատասխանություն | $$ | Գտնում է սուր ձախողման ռեժիմներ, մասնավորապես՝ արագ ներարկում. զգացվում է որպես մարզասրահում սթրես-թեստ (սպառնալիքների ակնարկ. OWASP LLM01 արագ ներարկում / OWASP լավագույն 10-ը LLM հավելվածների համար ) |
| Սինթետիկ թեստերի ստեղծում | Տվյալների լույսի թիմեր | $ | Հիանալի լուսաբանում, բայց արհեստական հուշումները կարող են չափազանց կոկիկ, չափազանց քաղաքավարի լինել… օգտատերերը քաղաքավարի չեն։ |
| A/B թեստավորում իրական օգտատերերի հետ | Հասուն ապրանքներ | $$$ | Ամենահստակ ազդանշանը, որը նաև ամենաէմոցիոնալ սթրեսն է, երբ չափանիշները տատանվում են (դասական գործնական ուղեցույց. Կոհավի և այլք, «Վերահսկվող փորձեր համացանցում» ): |
| Վերականգնման վրա հիմնված գնահատում (RAG ստուգումներ) | Որոնում + QA հավելվածներ | $$ | Չափումները «ճիշտ են օգտագործում համատեքստը», նվազեցնում են հալյուցինացիաների գնահատման գնաճը (RAG գնահատման ակնարկ. RAG-ի գնահատում. Հարցում ) |
| Մոնիթորինգ + շեղման հայտնաբերում | Արտադրական համակարգեր | $$-$$$ | Ժամանակի ընթացքում նկատում է վատթարացումը՝ աննկատելի մինչև այն օրը, երբ փրկում է ձեզ 😬 (դրիֆտի ակնարկ. Հայեցակարգի դրիֆտի հարցում (PMC) ) |
Ուշադրություն դարձրեք, որ գները միտումնավոր են մեղմ։ Դրանք կախված են մասշտաբից, գործիքավորումից և այն բանից, թե քանի հանդիպում եք պատահաբար կազմակերպում։.
7) Մարդկային գնահատում՝ գաղտնի զենքը, որի պատճառով մարդիկ թերֆինանսավորում են 👀🧑⚖️
Եթե դուք միայն ավտոմատացված գնահատում կատարեք, դուք կբաց թողնեք
-
Տոնի անհամապատասխանություն («ինչու՞ է այդքան հեգնական»)
-
Նուրբ փաստական սխալներ, որոնք սահուն են թվում
-
Վնասակար հետևանքներ, կարծրատիպեր կամ անհարմար ձևակերպումներ (ռիսկ + կողմնակալ շրջանակում. NIST AI RMF 1.0 )
-
Հրահանգներին հետևելու ձախողումներ, որոնք դեռևս «խելացի» են հնչում
Կոնկրետացրեք ռուբրիկաները (կամ գրախոսները կգրեն ազատ ոճով)
Վատ ռուբրիկա՝ «Օգտակարություն»։
Ավելի լավ ռուբրիկա՝
-
Ճշգրտություն ՝ փաստացիորեն ճշգրիտ՝ հաշվի առնելով հուշումը + համատեքստը
-
Լրիվություն ՝ ընդգրկում է պահանջվող կետերը՝ առանց ավելորդ խոսքերի
-
Պարզություն ՝ ընթեռնելի, կառուցվածքային, նվազագույն շփոթություն
-
Քաղաքականություն / անվտանգություն . խուսափում է սահմանափակված բովանդակությունից, լավ է կարգավորում մերժումը (անվտանգության շրջանակ՝ NIST AI RMF 1.0 )
-
Ոճ ՝ համապատասխանում է ձայնին, տոնին, ընթերցանության մակարդակին
-
Հավատարմություն . չի հորինում աղբյուրներ կամ չի հիմնավորում չհաստատված պնդումներ
Նաև, երբեմն կատարեք գնահատողների միջև ստուգումներ: Եթե երկու գնահատողներ անընդհատ համաձայն չեն, դա «մարդկանց խնդիր» չէ, այլ ռուբրիկայի խնդիր: Սովորաբար (գնահատողների միջև հուսալիության հիմունքներ. Մաքհյու Քոհենի կապպայի մասին ):
8) Ինչպես գնահատել արհեստական բանականության մոդելները անվտանգության, կայունության և «ուֆ, օգտատերերի» տեսանկյունից 🧯🧪
Սա այն մասն է, որը դուք անում եք մեկնարկից առաջ, և այնուհետև շարունակում եք անել, քանի որ ինտերնետը երբեք չի քնում։.
Հաստատակամության թեստեր, որոնք պետք է ներառեն
-
Տեքստում սխալներ, ժարգոն, քերականության խախտում
-
Շատ երկար և շատ կարճ հուշումներ
-
Հակասական հրահանգներ («եղեք կարճ, բայց ներառեք բոլոր մանրամասները»)
-
Բազմակողմանի զրույցներ, որտեղ օգտատերերը փոխում են նպատակները
-
Արագ ներարկման փորձեր («անտեսել նախորդ կանոնները…») (սպառնալիքի մանրամասներ՝ OWASP LLM01 Արագ ներարկում )
-
Զգայուն թեմաներ, որոնք պահանջում են զգույշ մերժում (ռիսկի/անվտանգության շրջանակ՝ NIST AI RMF 1.0 )
Անվտանգության գնահատումը միայն «հրաժարվո՞ւմ է» չէ
Լավ մոդելը պետք է
-
Մերժեք անվտանգ չհանդիսացող հարցումները հստակ և հանգիստ (ուղեցույցի ձևակերպում՝ NIST AI RMF 1.0 )
-
Անհրաժեշտության դեպքում առաջարկեք ավելի անվտանգ այլընտրանքներ
-
Խուսափեք անվնաս հարցումները չափազանց մերժելուց (կեղծ դրական արդյունքներ):
-
Երկիմաստ հարցումները լուծեք պարզաբանող հարցերով (երբ թույլատրվում է):
Չափից շատ մերժումը իրական ապրանքի խնդիր է։ Օգտատերերին դուր չի գալիս, երբ իրենց վերաբերվում են որպես կասկածելի գոբլինների։ 🧌 (Նույնիսկ եթե նրանք կասկածելի գոբլիններ են):
9) Արժեք, լատենտություն և գործառնական իրականություն՝ գնահատական, որը բոլորը մոռանում են 💸⏱️
Մոդելը կարող է լինել «հիանալի» և միևնույն ժամանակ սխալ ձեզ համար, եթե այն դանդաղ է, թանկ կամ գործառնական առումով փխրուն։.
Գնահատեք՝
-
Լատենտության բաշխում (ոչ միայն միջին՝ p95-ը և p99-ը կարևոր են) (ինչու են կարևոր տոկոսային ցուցանիշները. Google SRE Workbook մոնիթորինգի վերաբերյալ )
-
Մեկ հաջողված առաջադրանքի արժեքը (ոչ թե մեկ թոքենի արժեքը առանձին վերցրած)
-
Կայունություն ծանրաբեռնվածության տակ (ժամանակի ավարտ, արագության սահմանափակումներ, աննորմալ թռիչքներ)
-
Գործիքների կանչման հուսալիությունը (եթե այն օգտագործում է ֆունկցիաներ, արդյոք այն իրեն լավ է պահում):
-
Արդյունքի երկարության միտումները (որոշ մոդելներ անկանոն են, և անկանոնությունը գումար է արժենում)
Մարզումների ժամանակ կարող է հաղթել մի փոքր ավելի վատ մոդել, որը կրկնակի արագ է։ Դա ակնհայտ է հնչում, բայց մարդիկ անտեսում են դա։ Ինչպես օրինակ՝ սպորտային մեքենա գնել մթերային խանութ գնալու համար, ապա բողոքել բեռնախցիկի տարածքի համար։.
10) Պարզ, ամբողջական աշխատանքային հոսք, որը կարող եք պատճենել (և փոփոխել) 🔁✅
Ահա գործնական ուղեցույց՝ ինչպես գնահատել արհեստական բանականության մոդելները ՝ առանց անվերջ փորձարկումների մեջ ընկնելու։
-
Հաջողության սահմանում ՝ խնդիր, սահմանափակումներ, ձախողման ծախսեր
-
Ստեղծեք փոքր «հիմնական» թեստային հավաքածու ՝ 50-200 օրինակ, որոնք արտացոլում են իրական օգտագործումը
-
Ավելացնել եզրային և հակառակորդական հավաքածուներ ՝ ներարկման փորձեր, երկիմաստ հուշումներ, անվտանգության զոնդեր (արագ ներարկման դաս՝ OWASP LLM01 ):
-
Կատարել ավտոմատացված ստուգումներ ՝ ձևաչափում, JSON վավերականություն, հնարավորության դեպքում տարրական ճշգրտություն
-
Կատարեք մարդկային վերանայում . նմուշային արդյունքներ տարբեր կատեգորիաներում, գնահատեք ռուբրիկայի միջոցով
-
Համեմատեք փոխզիջումները ՝ որակն ընդդեմ արժեքի, լատենտությունը ընդդեմ անվտանգության
-
Սահմանափակ թողարկման փորձնական ծրագիր . A/B թեստեր կամ փուլային ներդրում (A/B թեստավորման ուղեցույց՝ Կոհավի և այլք ):
-
Մոնիտոր արտադրության մեջ . դրեյֆ, ռեգրեսիաներ, օգտագործողի հետադարձ կապի ցիկլեր (դրեյֆի ակնարկ. հայեցակարգի դրեյֆի հարցում (PMC) )
-
Իտերացիա ՝ թարմացման հուշումներ, վերականգնում, նուրբ կարգավորում, պաշտպանիչ ցանկապատեր, ապա վերագործարկել գնահատումը (գնահատման իտերացիայի ձևեր՝ OpenAI գնահատումների ուղեցույց )
Պահպանեք տարբերակների գրանցամատյաններ։ Ոչ թե որովհետև դա զվարճալի է, այլ որովհետև ապագայում դուք շնորհակալ կլինեք՝ սուրճը ձեռքին և մրմնջալով «ինչ փոխվեց…» ☕🙂
11) Հաճախ հանդիպող թակարդներ (այսինքն՝ մարդիկ պատահաբար իրենց խաբելու ձևեր) 🪤
-
Թեստին նախապատրաստվելը . դուք օպտիմալացնում եք հուշումները մինչև չափանիշը լավ տեսք ունենա, բայց օգտատերերը տուժում են։
-
Գնահատման արտահոսող տվյալներ . թեստի հուշումները հայտնվում են մարզման կամ ճշգրտման տվյալներում (ուրա)
-
Միակ մետրիկայի երկրպագություն . մեկ միավորի հետապնդում, որը չի արտացոլում օգտատիրոջ արժեքը
-
Բաշխման տեղաշարժի անտեսում . օգտատիրոջ վարքագիծը փոխվում է, և ձեր մոդելը աննկատելիորեն վատանում է (արտադրության ռիսկի շրջանակ. հայեցակարգի շեղման հարցում (PMC) ):
-
«Խելացիության» վրա չափազանց ինդեքսավորում . խելացի դատողությունը կարևոր չէ՝ խախտում է ձևաչափումը, թե հորինում է փաստեր։
-
Մերժման որակը չի ստուգվում . «Ոչ»-ը կարող է ճիշտ լինել, բայց միևնույն է, սարսափելի UX է։
Նաև զգույշ եղեք դեմոներից։ Դեմոները նման են ֆիլմերի թրեյլերների։ Դրանք ցույց են տալիս հիմնական պահերը, թաքցնում են դանդաղ հատվածները և երբեմն ստում են դրամատիկ երաժշտության հետ միասին։ 🎬
12) Արհեստական մոդելների գնահատման վերաբերյալ ամփոփում 🧠✨
Արհեստական բանականության մոդելների գնահատումը մեկ միավոր չէ, այլ հավասարակշռված սնունդ։ Ձեզ անհրաժեշտ են սպիտակուցներ (ճշգրտություն), բանջարեղեններ (անվտանգություն), ածխաջրեր (արագություն և արժեք) և այո, երբեմն նաև աղանդեր (համ և հաճույք) 🍲🍰 (ռիսկի շրջանակ՝ NIST AI RMF 1.0 )
Եթե ուրիշ ոչինչ չեք հիշում.
-
Սահմանեք, թե ինչ է նշանակում «լավ» ձեր օգտագործման դեպքում
-
Օգտագործեք ներկայացուցչական թեստային հավաքածուներ, այլ ոչ թե պարզապես հայտնի չափորոշիչներ
-
Միավորել ավտոմատացված չափանիշները մարդկային ռուբրիկայի վերանայման հետ
-
Փորձարկման կայունությունն ու անվտանգությունը, ինչպես օգտատերերը, հակառակորդներ են (որովհետև երբեմն… նրանք հակառակորդներ են) (արագ ներարկման դաս՝ OWASP LLM01 ):
-
Գնահատման մեջ ներառեք արժեքը և լատենտությունը, այլ ոչ թե որպես երկրորդական միտք (ինչու են կարևոր տոկոսային ցուցանիշները. Google SRE Workbook ):
-
Մոնիտորինգ մեկնարկից հետո՝ մոդելների տեղաշարժ, հավելվածների զարգացում, մարդկանց ստեղծագործականություն (շեղման ակնարկ. հայեցակարգի շեղման հարցում (PMC) )
Ահա թե ինչպես գնահատել արհեստական բանականության մոդելները այնպես, որ դրանք արդյունավետ լինեն, երբ ձեր արտադրանքը գործարկված է, և մարդիկ սկսում են անկանխատեսելի բաներ անել։ Որը միշտ այդպես է լինում։ 🙂
Հաճախակի տրվող հարցեր
Ո՞րն է իրական ապրանքի համար արհեստական բանականության մոդելները գնահատելու առաջին քայլը։
Սկսեք՝ սահմանելով, թե ինչ է նշանակում «լավը» ձեր կոնկրետ օգտագործման դեպքում: Նշեք օգտատիրոջ նպատակը, թե ինչ կնստեն ձեզ ձախողումները (ցածր ռիսկերի և բարձր ռիսկերի) և որտեղ կաշխատի մոդելը (ամպային, սարքի վրա, կարգավորվող միջավայր): Այնուհետև թվարկեք խիստ սահմանափակումներ, ինչպիսիք են լատենտությունը, արժեքը, գաղտնիությունը և տոնայնության կառավարումը: Առանց այս հիմքի դուք շատ կչափեք և միևնույն է վատ որոշում կկայացնեք:.
Ինչպե՞ս կարող եմ ստեղծել թեստային հավաքածու, որը իսկապես արտացոլում է իմ օգտատերերին։
Կառուցեք թեստային հավաքածու, որը իսկապես ձերն է, այլ ոչ թե պարզապես հանրային չափանիշ: Ներառեք ոսկե օրինակներ, որոնք հպարտությամբ կներկայացնեիք, գումարած աղմկոտ, անսովոր հուշումներ՝ տպագրական սխալներով, կիսատ նախադասություններով և երկիմաստ հարցումներով: Ավելացրեք ծայրահեղ դեպքեր և ձախողման ռեժիմի զոնդեր, որոնք գայթակղում են հալյուցինացիաներ կամ անվտանգ պատասխաններ: Ընդգրկեք հմտությունների մակարդակի, բարբառների, լեզուների և տիրույթների բազմազանությունը, որպեսզի արդյունքները չփլուզվեն արտադրության ընթացքում:.
Ո՞ր չափանիշները պետք է օգտագործեմ, և որոնք կարող են մոլորեցնող լինել։
Համապատասխանեցրեք չափանիշները առաջադրանքի տեսակին: Ճշգրիտ համապատասխանությունը և ճշգրտությունը լավ են աշխատում արդյունահանման և կառուցվածքային արդյունքների համար, մինչդեռ ճշգրտությունը/հիշողությունը և F1-ը օգնում են, երբ ինչ-որ բան բաց թողնելն ավելի վատ է, քան լրացուցիչ աղմուկը: Կապույտ/կարմիր նման համընկնող չափանիշները կարող են մոլորեցնել բաց առաջադրանքների համար, իսկ ներդրված նմանությունը կարող է խրախուսել «սխալ, բայց նման» պատասխանները: Գրելու, աջակցության կամ դատողության համար համատեղեք չափանիշները մարդկային վերանայման և առաջադրանքի հաջողության մակարդակի հետ:.
Ինչպե՞ս պետք է կառուցեմ գնահատումները, որպեսզի դրանք կրկնելի լինեն և արդյունավետ լինեն։
Հզոր գնահատման շրջանակը կրկնվող է, ներկայացուցչական, բազմաշերտ և գործնականում կիրառելի։ Միավորեք ավտոմատացված ստուգումները (ձևաչափ, JSON վավերականություն, հիմնական ճշգրտություն) մարդկային գնահատման և հակադրական թեստերի հետ։ Դարձրեք այն կեղծումից պաշտպանված՝ խուսափելով արտահոսքից և «ուսուցանելով թեստը»։ Պահպանեք գնահատման արժեքը հաշվի առնելով, որպեսզի կարողանաք այն հաճախակի վերագործարկել, այլ ոչ թե միայն մեկ անգամ՝ մեկնարկից առաջ։.
Ո՞րն է մարդկային գնահատում կատարելու լավագույն միջոցը՝ առանց այն քաոսի վերածելու։
Օգտագործեք կոնկրետ չափանիշ, որպեսզի գրախոսողները չշեղվեն իրենց ոճից։ Գնահատեք այնպիսի հատկանիշներ, ինչպիսիք են ճշգրտությունը, ամբողջականությունը, պարզությունը, անվտանգության/քաղաքականության պահպանումը, ոճի/ձայնի համապատասխանությունը և հավատարմությունը (չհորինելով պնդումներ կամ աղբյուրներ)։ Պարբերաբար ստուգեք գնահատողների միջև համաձայնությունը. եթե գրախոսողները անընդհատ համաձայն չեն, չափանիշը, հավանաբար, կարիք ունի ճշգրտման։ Մարդկային գրախոսությունը հատկապես արժեքավոր է տոնայնության անհամապատասխանության, աննշան փաստական սխալների և հրահանգներին հետևելու ձախողումների դեպքում։.
Ինչպե՞ս գնահատեմ անվտանգությունը, կայունությունը և արագ ներարկման ռիսկերը։
Փորձարկեք «ուֆ, օգտատերեր» մուտքագրումներով՝ վրիպակներ, ժարգոն, հակասական հրահանգներ, շատ երկար կամ շատ կարճ հուշումներ և բազմակի շրջադարձով նպատակի փոփոխություններ: Ներառեք հուշումների ներարկման փորձեր, ինչպիսիք են՝ «անտեսել նախորդ կանոնները» և զգայուն թեմաներ, որոնք պահանջում են զգույշ մերժումներ: Անվտանգության լավ կատարողականը միայն մերժումը չէ. դա հստակ մերժում է, անհրաժեշտության դեպքում ավելի անվտանգ այլընտրանքներ առաջարկելը և անվնաս հարցումներից չափազանց մերժումներից խուսափելը, որոնք վնասում են UX-ին:.
Ինչպե՞ս գնահատեմ արժեքը և լատենտությունը իրականությանը համապատասխան ձևով։
Մի՛ չափեք միայն միջինները՝ հետևեք լատենտության բաշխմանը, հատկապես p95-ին և p99-ին: Գնահատեք յուրաքանչյուր հաջողված առաջադրանքի արժեքը, այլ ոչ թե առանձին վերցրած յուրաքանչյուր թոքենի արժեքը, քանի որ կրկնակի փորձերը և անկանոն արդյունքները կարող են խնայողությունները վերացնել: Ստուգեք կայունությունը ծանրաբեռնվածության տակ (ժամանակի ավարտ, արագության սահմանափակումներ, թռիչքներ) և գործիքի/ֆունկցիայի կանչման հուսալիությունը: Մի փոքր ավելի վատ մոդելը, որը երկու անգամ ավելի արագ կամ ավելի կայուն է, կարող է լինել ավելի լավ ապրանքի ընտրություն:.
Ի՞նչ պարզ, ամբողջական աշխատանքային հոսք է անհրաժեշտ արհեստական բանականության մոդելները գնահատելու համար։
Սահմանեք հաջողության չափանիշներ և սահմանափակումներ, այնուհետև ստեղծեք փոքր միջուկային թեստերի հավաքածու (մոտավորապես 50-200 օրինակ), որը արտացոլում է իրական օգտագործումը: Ավելացրեք առավելությունների և հակառակորդների հավաքածուներ անվտանգության և ներարկման փորձերի համար: Կատարեք ավտոմատացված ստուգումներ, այնուհետև նմուշառեք արդյունքները մարդկային ռուբրիկայի գնահատման համար: Համեմատեք որակը ծախսերի և լատենտության և անվտանգության համեմատ, փորձարկեք սահմանափակ տարածմամբ կամ A/B թեստով և վերահսկեք արտադրության մեջ շեղումների և ռեգրեսիաների առկայությունը:.
Որո՞նք են թիմերի կողմից մոդելի գնահատման ժամանակ պատահաբար իրենց խաբելու ամենատարածված եղանակները։
Հաճախ հանդիպող թակարդներից են՝ օպտիմալացնել հարցումները՝ չափանիշը հաջողությամբ հաղթահարելու համար, մինչդեռ օգտատերերը տառապում են, գնահատման հարցումների արտահոսքը վերապատրաստման կամ ճշգրտման տվյալների մեջ և երկրպագել մեկ չափանիշի, որը չի արտացոլում օգտատիրոջ արժեքը: Թիմերը նաև անտեսում են բաշխման փոփոխությունը, գերագնահատում են «խելացիությունը»՝ ձևաչափի համապատասխանության և հավատարմության փոխարեն, և բաց են թողնում մերժման որակի ստուգումը: Ցուցադրական տարբերակները կարող են թաքցնել այս խնդիրները, ուստի հույսը դրեք կառուցվածքային գնահատականների վրա, այլ ոչ թե ընդգծված ալիքների վրա:.
Հղումներ
-
OpenAI - OpenAI գնահատման ուղեցույց - platform.openai.com
-
Ստանդարտների և տեխնոլոգիաների ազգային ինստիտուտ (NIST) - Արհեստական բանականության ռիսկերի կառավարման շրջանակ (AI RMF 1.0) - nist.gov
-
OpenAI - openai/evals (GitHub պահոց) - github.com
-
scikit-learn - precision_recall_fscore_support - scikit-learn.org
-
Հաշվողական լեզվաբանության ասոցիացիա (ACL անթոլոգիա) - BLEU - aclanthology.org
-
Հաշվողական լեզվաբանության ասոցիացիա (ACL անթոլոգիա) - ՌՈՒԺ - aclanthology.org
-
arXiv - G-Eval - arxiv.org
-
OWASP - LLM01: Արագ ներարկում - owasp.org
-
OWASP - OWASP-ի լավագույն 10-ը մեծ լեզվական մոդելի կիրառությունների համար - owasp.org
-
Սթենֆորդի համալսարան - Կոհավի և այլք, «Վերահսկվող փորձեր համացանցում» - stanford.edu
-
arXiv - RAG-ի գնահատում. Հարցում - arxiv.org
-
PubMed Central (PMC) - Հայեցակարգի շեղման հարցում (PMC) - nih.gov
-
PubMed Central (PMC) - ՄաքՀյուն Քոհենի կապպայի մասին - nih.gov
-
Google - SRE աշխատանքային տետր մոնիթորինգի վերաբերյալ - google.workbook