Ի՞նչ է արհեստական ​​բանականության տվյալների հավաքածուն։

Ի՞նչ է արհեստական ​​բանականության տվյալների հավաքածուն։

Եթե ​​դուք կառուցում, գնում կամ նույնիսկ պարզապես գնահատում եք արհեստական ​​բանականության համակարգեր, դուք կհանդիպեք մեկ խաբուսիկորեն պարզ հարցի՝ ի՞նչ է արհեստական ​​բանականության տվյալների հավաքածուն և ինչո՞ւ է այն այդքան կարևոր։ Կարճ ասած՝ այն ձեր մոդելի վառելիքն է, խոհարարական գիրքը և երբեմն՝ կողմնացույցը։ 

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.

🔗 Ինչպե՞ս է արհեստական ​​բանականությունը կանխատեսում միտումները
Ուսումնասիրում է, թե ինչպես է արհեստական ​​բանականությունը վերլուծում օրինաչափությունները՝ ապագա իրադարձություններն ու վարքագծերը կանխատեսելու համար։

🔗 Ինչպես չափել արհեստական ​​բանականության արդյունավետությունը
Մոդելի ճշգրտությունը, արդյունավետությունը և հուսալիությունը գնահատելու չափանիշներ և մեթոդներ։

🔗 Ինչպես խոսել արհեստական ​​բանականության հետ
Արհեստական ​​բանականության կողմից ստեղծված պատասխանները բարելավելու համար ավելի լավ փոխազդեցություններ ստեղծելու ուղեցույց։

🔗 Ի՞նչ է արհեստական ​​բանականության հուշումը
Հուշումների ձևավորման և ընդհանուր հաղորդակցության որակի ընդհանուր պատկերացում։


Ի՞նչ է արհեստական ​​բանականության տվյալների հավաքածուն։ Հակիրճ սահմանում 🧩

Ի՞նչ է արհեստական ​​բանականության տվյալների հավաքածուն։ Այն օրինակների հավաքածու , որոնցից ձեր մոդելը սովորում է կամ որոնց հիման վրա գնահատվում է։ Յուրաքանչյուր օրինակ ունի՝

  • Մուտքային տվյալներ ՝ մոդելի կողմից տեսնող հատկանիշներ, ինչպիսիք են տեքստային հատվածները, պատկերները, աուդիոն, աղյուսակային տողերը, սենսորների ցուցմունքները, գրաֆիկները։

  • Նպատակակետեր ՝ պիտակներ կամ արդյունքներ, որոնք մոդելը պետք է կանխատեսի, ինչպիսիք են կատեգորիաները, թվերը, տեքստի տարածությունները, գործողություններ կամ երբեմն՝ ոչինչ։

  • Մետատվյալներ ՝ համատեքստ, ինչպիսիք են աղբյուրը, հավաքագրման մեթոդը, ժամանակային նշագրերը, լիցենզիաները, համաձայնության տեղեկատվությունը և որակի վերաբերյալ նշումները:

Պատկերացրեք այն որպես ձեր մոդելի համար նախատեսված ուշադիր փաթեթավորված ճաշի տուփ՝ բաղադրիչներ, պիտակներ, սննդային արժեքի մասին տեղեկություններ և այո, կպչուն թղթիկ, որի վրա գրված է. «Մի՛ կերեք այս մասը» 🍱

Վերահսկվող առաջադրանքների դեպքում դուք կտեսնեք մուտքային տվյալներ, որոնք զուգակցված են հստակ պիտակներով: Անվերահսկելի առաջադրանքների դեպքում դուք կտեսնեք մուտքային տվյալներ առանց պիտակների: Ուժեղացված ուսուցման դեպքում տվյալները հաճախ նման են դրվագների կամ հետագծերի՝ վիճակներով, գործողություններով, պարգևներով: Բազմամոդալ աշխատանքի դեպքում օրինակները կարող են համատեղել տեքստ + պատկեր + աուդիո մեկ գրառման մեջ: Հնչում է շքեղ, հիմնականում՝ սանտեխնիկական է:

Օգտակար ներածություններ և գործելակերպեր. « Տվյալների համար տվյալների թերթիկներ» գաղափարը օգնում է թիմերին բացատրել, թե ինչ է պարունակվում և ինչպես այն պետք է օգտագործվի [1], իսկ մոդելային քարտերը լրացնում են մոդելային կողմի տվյալների փաստաթղթավորումը [2]:

 

Արհեստական ​​բանականության տվյալների հավաքածու

Ինչն է դարձնում արհեստական ​​բանականության տվյալների հավաքածուն լավը ✅

Անկեղծ ասած, շատ մոդելներ հաջողության են հասնում, քանի որ տվյալների բազմությունը վատը չէր։ «Լավ» տվյալների բազմությունը հետևյալն է՝

  • Ներկայացնում է ոչ միայն լաբորատոր պայմանները, այլև իրական օգտագործման դեպքերը։

  • Ճշգրիտ պիտակավորված ՝ հստակ ուղեցույցներով և պարբերական դատողություններով։ Համաձայնության չափանիշները (օրինակ՝ կապպա ոճի չափանիշները) օգնում են ստուգել հետևողականությունը։

  • ամբողջական և հավասարակշռված ՝ երկար պոչերի վրա լուռ ձախողումից խուսափելու համար: Անհավասարակշռությունը նորմալ է, անփութությունը՝ ոչ:

  • Մաքուր ծագում , փաստաթղթավորված համաձայնությամբ, լիցենզիայով և թույլտվություններով։ Ձանձրալի թղթաբանությունը կանխում է հետաքրքիր դատական ​​​​գործընթացները։

  • Լավ փաստաթղթավորված ՝ օգտագործելով տվյալների քարտեր կամ տվյալների թերթիկներ, որոնք նշում են նախատեսված օգտագործումը, սահմանափակումները և հայտնի ձախողման ռեժիմները [1]

  • Կառավարվում է տարբերակների, փոփոխությունների գրանցամատյանների և հաստատումների միջոցով: Եթե չեք կարող վերարտադրել տվյալների բազմությունը, չեք կարող վերարտադրել նաև մոդելը: NIST-ի արհեստական ​​բանականության ռիսկերի կառավարման շրջանակի տվյալների որակը և փաստաթղթավորումը համարում է առաջնային խնդիր [3]:


Արհեստական ​​բանականության տվյալների հավաքածուների տեսակները՝ ըստ ձեր գործունեության 🧰

Ըստ առաջադրանքի

  • Դասակարգում , օրինակ՝ սպամ ընդդեմ ոչ սպամի, պատկերի կատեգորիաներ։

  • Ռեգրեսիա - կանխատեսել անընդհատ արժեք, ինչպիսիք են գինը կամ ջերմաստիճանը։

  • Հաջորդականության պիտակավորում - անվանված միավորներ, խոսքի մասեր։

  • Սերունդացում - ամփոփում, թարգմանություն, պատկերի մակագրություն։

  • Առաջարկություն - օգտատեր, ապրանք, փոխազդեցություններ, համատեքստ։

  • Անոմալիայի հայտնաբերում - ժամանակային շարքերում կամ գրանցամատյաններում հազվագյուտ իրադարձություններ։

  • Ուժեղացված ուսուցում - վիճակ, գործողություն, պարգև, հաջորդ վիճակի հաջորդականություններ։

  • Վերականգնում ՝ փաստաթղթեր, հարցումներ, համապատասխանության վերաբերյալ դատողություններ:

Ըստ մոդալի

  • Աղյուսակային ՝ սյուներ, ինչպիսիք են տարիքը, եկամուտը, աշխատակիցների արտահոսքը։ Թերագնահատված, բայց դաժանորեն արդյունավետ։

  • Տեքստ ՝ փաստաթղթեր, զրույցներ, կոդ, ֆորումի գրառումներ, ապրանքի նկարագրություններ:

  • Պատկերներ ՝ լուսանկարներ, բժշկական սկանավորումներ, արբանյակային սալիկներ՝ դիմակներով կամ առանց դրանց, տուփեր, հիմնական կետեր։

  • Աուդիո - ալիքաձևեր, տառադարձումներ, խոսնակի պիտակներ:

  • Տեսանյութ - կադրեր, ժամանակային նշումներ, գործողությունների պիտակներ։

  • Գրաֆներ - հանգույցներ, եզրեր, ատրիբուտներ։

  • Ժամանակային շարքեր ՝ սենսորներ, ֆինանսներ, հեռաչափություն։

Հսկողությամբ

  • Պիտակավորված (ոսկի, արծաթ, ավտոմատ պիտակավորված), թույլ պիտակավորված , չպիտակավորված , սինթետիկ : Խանութից գնված տորթի խառնուրդը կարող է լավ որակի լինել, եթե կարդաք տուփի վրա գրվածը:


Տուփի ներսում՝ կառուցվածք, բաժանումներ և մետատվյալներ 📦

Հուսալի տվյալների հավաքածուն սովորաբար ներառում է.

  • Սխեմա - տիպավորված դաշտեր, միավորներ, թույլատրելի արժեքներ, null-ի մշակում։

  • Բաժանումներ ՝ մարզում, վավերացում, թեստավորում։ Պահեք թեստի տվյալները գաղտնի՝ վերաբերվեք դրանց ինչպես շոկոլադի վերջին կտորի։

  • Նմուշառման պլան ՝ ինչպես եք օրինակներ վերցրել բնակչությունից։ Խուսափեք մեկ տարածաշրջանից կամ սարքից հարմարության նմուշներ վերցնելուց։

  • Ավելացումներ ՝ շրջումներ, կտրվածքներ, աղմուկ, վերաձևակերպումներ, դիմակներ: Լավ է, երբ անկեղծ է, վնասակար է, երբ հորինում է այնպիսի օրինաչափություններ, որոնք երբեք տեղի չեն ունենում բնության մեջ:

  • Տարբերակում - տվյալների հավաքածու v0.1, v0.2… դելտաները նկարագրող փոփոխությունների գրանցամատյաններով։

  • Լիցենզիաներ և համաձայնություն ՝ օգտագործման իրավունքներ, վերաբաշխում և ջնջման հոսքեր: Տվյալների պաշտպանության ազգային կարգավորող մարմինները (օրինակ՝ Մեծ Բրիտանիայի ICO) տրամադրում են գործնական, օրինական մշակման ստուգաթերթիկներ [4]:


Տվյալների հավաքածուի կյանքի ցիկլը՝ քայլ առ քայլ 🔁

  1. Սահմանեք որոշումը ՝ ի՞նչ կորոշի մոդելը, և ի՞նչ կլինի, եթե այն սխալ լինի։

  2. Շրջանակի առանձնահատկություններ և պիտակներ ՝ չափելի, դիտարկելի, հավաքագրման համար էթիկական։

  3. Աղբյուրի տվյալներ ՝ գործիքներ, գրանցամատյաններ, հարցումներ, հանրային կորպուսներ, գործընկերներ։

  4. Համաձայնություն և իրավական ՝ գաղտնիության ծանուցումներ, հրաժարումներ, տվյալների նվազագույնի հասցնելը: Տես կարգավորող մարմնի ուղեցույցը՝ «ինչու»-ի և «ինչպես»-ի վերաբերյալ [4]:

  5. Հավաքել և պահել ՝ անվտանգ պահեստավորում, դերային մուտք, անձնական տվյալների մշակում:

  6. Պիտակ ՝ ներքին մեկնաբանողներ, քրաուդսորսինգ, փորձագետներ; կառավարեք որակը ոսկե առաջադրանքների, աուդիտների և համաձայնեցված չափանիշների միջոցով։

  7. Մաքրում և նորմալացում ՝ կրկնօրինակներից ազատում, բացթողումների կարգավորում, միավորների ստանդարտացում, կոդավորման շտկում: Ձանձրալի, հերոսական աշխատանք:

  8. Բաժանեք և վավերացրեք ՝ կանխեք արտահոսքը, շերտավորեք անհրաժեշտության դեպքում, ժամանակային տվյալների համար նախընտրեք ժամանակի վրա հիմնված բաժանումները, և մտածված կերպով օգտագործեք խաչաձև վավերացումը հուսալի գնահատականների համար [5]:

  9. Փաստաթուղթ - տվյալների թերթիկ կամ տվյալների քարտ; նախատեսված օգտագործումը, նախազգուշացումները, սահմանափակումները [1]:

  10. Մոնիթորինգ և թարմացում ՝ շեղման հայտնաբերում, թարմացման ռիթմ, ավարտի պլաններ: NIST-ի արհեստական ​​բանականության RMF-ը շրջանակում է այս շարունակական կառավարման ցիկլը [3]:

Արագ, իրական աշխարհին համապատասխանող խորհուրդ. թիմերը հաճախ «հաղթում են ցուցադրական փուլում», բայց թուլանում են արտադրության մեջ, քանի որ իրենց տվյալների բազան աննկատելիորեն անհետանում է՝ նոր ապրանքային գծեր, անվանափոխված դաշտ կամ փոփոխված քաղաքականություն: Պարզ փոփոխությունների գրանցամատյանը + պարբերական վերանոտագրությունների անցումը կանխում են այդ ցավի մեծ մասը:


Տվյալների որակը և գնահատումը՝ այնքան էլ ձանձրալի չէ, որքան թվում է 🧪

Որակը բազմաչափ է.

  • Ճշգրտություն . պիտակները ճի՞շտ են։ Օգտագործեք համաձայնության չափանիշներ և պարբերական դատողություններ։

  • Լրիվություն ՝ ներառեք ձեզ իսկապես անհրաժեշտ ոլորտներն ու դասերը։

  • Համապատասխանություն ՝ խուսափեք նմանատիպ մուտքային տվյալների համար հակասական պիտակներից։

  • Ժամանակին լինելը . հնացած տվյալները կարծրացնում են ենթադրությունները։

  • Արդարություն և կողմնակալություն ՝ լուսաբանում ժողովրդագրական, լեզվական, սարքերի, միջավայրերի միջև։ Սկսեք նկարագրական աուդիտներից, ապա սթրես-թեստերից։ Փաստաթղթավորման առաջնահերթության սկզբունքները (տվյալների թերթիկներ, մոդելային քարտեր) այս ստուգումները դարձնում են տեսանելի [1], իսկ կառավարման շրջանակները շեշտը դնում են դրանց վրա որպես ռիսկերի կառավարման միջոցներ [3]։

Մոդելի գնահատման համար օգտագործեք համապատասխան բաժանումներ և հետևեք ինչպես միջին չափանիշներին, այնպես էլ ամենավատ խմբի չափանիշներին: Փայլուն միջինը կարող է թաքցնել խառնարան: Խաչաձև վավերացման հիմունքները լավ ներկայացված են ստանդարտ մեքենայական ուսուցման գործիքակազմի փաստաթղթերում [5]:


Էթիկա, գաղտնիություն և լիցենզավորում՝ պաշտպանիչ ցանկապատեր 🛡️

Էթիկական տվյալները տրամադրություն չեն, այլ գործընթաց։

  • Համաձայնություն և նպատակի սահմանափակում - հստակ նշեք օգտագործման և իրավական հիմքերի մասին [4]:

  • Անհատական ​​տվյալների մշակում ՝ անհրաժեշտության դեպքում նվազագույնի հասցնել, կեղծանունացնել կամ անանունացնել։ Բարձր ռիսկերի դեպքում դիտարկել գաղտնիությունը բարձրացնող տեխնոլոգիաների կիրառումը։

  • Հղում և լիցենզիաներ ՝ հարգեք համարժեք տարածման և առևտրային օգտագործման սահմանափակումները:

  • Կողմնակալություն և վնաս ՝ ստուգեք կեղծ փոխկապակցվածությունները («ցերեկային լույս = անվտանգ»՝ գիշերը շատ շփոթված կլինի):

  • Ուղղում - իմացեք, թե ինչպես հեռացնել տվյալները հարցման դեպքում և ինչպես չեղարկել դրանց վրա մարզված մոդելները (գրանցեք սա ձեր տվյալների թերթիկում) [1]:


Որքա՞ն մեծ է բավականաչափ մեծը։ Չափսեր և ազդանշան-աղմուկ հարաբերակցություն 📏

Հիմնական կանոն. ավելի շատ օրինակները սովորաբար օգնում են, եթե դրանք համապատասխան են և գրեթե կրկնօրինակներ չեն։ Սակայն երբեմն ավելի լավ է ունենալ ավելի քիչ, ավելի մաքուր, ավելի լավ պիտակավորված նմուշներ, քան անկանոն օրինակների կույտեր։

Հետևեք՝

  • Ուսուցման կորեր ՝ գծապատկերի կատարողականությունն ընդդեմ նմուշի չափի՝ տեսնելու համար, թե արդյոք դուք սահմանափակված եք տվյալներով, թե մոդելով։

  • Երկարաժամկետ ծածկույթ - հազվագյուտ, բայց կարևորագույն դասերը հաճախ կարիք ունեն նպատակային հավաքագրման, այլ ոչ թե պարզապես ավելի մեծածավալ հավաքագրման։

  • Պիտակավորեք աղմուկը ՝ չափեք, ապա նվազեցրեք. փոքր աղմուկը տանելի է, մակընթացային ալիքը՝ ոչ։

  • Բաշխման տեղաշարժ - մեկ տարածաշրջանից կամ ալիքից ստացված մարզման տվյալները կարող են չընդհանրացվել մյուսի վրա. վավերացրեք թիրախային թեստային տվյալների վրա [5]:

Երբ կասկածում եք, գործարկեք փոքր փորձնական ծրագրեր և ընդլայնեք դրանք։ Դա համեմունքների նման է՝ ավելացրեք, համտեսեք, ճշգրտեք, կրկնեք։


Որտեղ գտնել և կառավարել տվյալների հավաքածուները 🗂️

Հայտնի ռեսուրսներ և գործիքակազմ (անհրաժեշտ չէ URL-ները անգիր անել հիմա).

  • Գրկախառնվող դեմքի տվյալների հավաքածուներ - ծրագրային բեռնում, մշակում, համօգտագործում։

  • Google տվյալների հավաքածուի որոնում - մետա-որոնում ամբողջ համացանցում։

  • UCI ML պահոց - ընտրված դասականներ՝ բազային գծերի և դասավանդման համար։

  • OpenML - առաջադրանքներ + տվյալների հավաքածուներ + սկզբնաղբյուրով գործարկումներ։

  • AWS Open Data / Google Cloud Public Datasets - հյուրընկալված, մեծածավալ կորպուսներ։

Մասնագիտական ​​խորհուրդ. պարզապես մի՛ ներբեռնեք։ Կարդացեք լիցենզիան և տվյալների թերթիկը , այնուհետև փաստաթղթավորեք ձեր սեփական օրինակը՝ նշելով տարբերակի համարները և ծագումը [1]:


Պիտակավորում և ծանոթագրություններ՝ որտեղ ճշմարտությունը բանակցվում է ✍️

Ծանոթագրությունը այն վայրն է, որտեղ ձեր տեսական պիտակների ուղեցույցը բախվում է իրականության հետ.

  • Առաջադրանքի ձևավորում - գրեք հստակ հրահանգներ՝ օրինակներով և հակաօրինակներով:

  • Մեկնաբանների վարժեցում - ոսկե պատասխաններով սերմնացում, տրամաչափման փուլերի անցկացում։

  • Որակի վերահսկողություն - օգտագործեք համաձայնության չափանիշներ, կոնսենսուսի մեխանիզմներ և պարբերական աուդիտներ:

  • Գործիքավորում - ընտրեք գործիքներ, որոնք կիրառում են սխեմայի վավերացում և վերանայման հերթեր. նույնիսկ աղյուսակները կարող են աշխատել կանոնների և ստուգումների հետ։

  • Հետադարձ կապի ցիկլեր - գրանցեք մեկնաբանական նշումները և մոդելավորեք սխալները՝ ուղեցույցը կատարելագործելու համար:

Եթե ​​դա ձեզ նման է բառարան խմբագրելուն երեք ընկերների հետ, ովքեր համաձայն չեն ստորակետերի վերաբերյալ… դա նորմալ է։ 🙃


Տվյալների փաստաթղթավորում՝ անուղղակի գիտելիքները դարձնելով բացահայտ 📒

Թեթև տվյալների թերթիկը կամ տվյալների քարտը պետք է ներառի.

  • Ո՞վ է այն հավաքել, ինչպե՞ս և ինչո՞ւ։

  • Նախատեսված և շրջանակից դուրս օգտագործումներ։

  • Հայտնի բացթողումներ, կողմնակալություններ և ձախողման ռեժիմներ։

  • Պիտակավորման արձանագրություն, որակի ապահովման քայլեր և համաձայնեցման վիճակագրություն։

  • Լիցենզիա, համաձայնություն, կապի միջոցներ խնդիրների դեպքում, հեռացման գործընթաց։

Շաբլոններ և օրինակներ. Տվյալների հավաքածուների և մոդելային քարտերի լայնորեն օգտագործվում են որպես մեկնարկային կետեր [1]:

Գրեք այն կառուցման ընթացքում, այլ ոչ թե հետո։ Հիշողությունը փխրուն պահեստավորման միջոց է։


Համեմատական ​​աղյուսակ - վայրեր, որտեղ կարելի է գտնել կամ տեղակայել արհեստական ​​բանականության տվյալների հավաքածուներ 📊

Այո, սա մի փոքր կարծիքային է։ Եվ ձևակերպումը միտումնավոր մի փոքր անհավասար է։ Ամեն ինչ նորմալ է։

Գործիք / Պահոց Լսարան Գինը Ինչու է այն գործում գործնականում
Գրկախառնվող դեմքի տվյալների հավաքածուներ Հետազոտողներ, ինժեներներ Ազատ մակարդակ Արագ բեռնում, հոսքային հեռարձակում, համայնքային սկրիպտներ; գերազանց փաստաթղթեր; տարբերակված տվյալների հավաքածուներ
Google տվյալների հավաքածուի որոնում Բոլորը Անվճար Լայն մակերես; հիանալի է հայտնաբերման համար; երբեմն անհամապատասխան մետատվյալներ, չնայած
UCI ML պահոց Ուսանողներ, մանկավարժներ Անվճար Ընտրված դասականներ, փոքր, բայց կոկիկ, հարմար է ինչպես բազային, այնպես էլ դասավանդման համար
OpenML Վերարտադրության հետազոտողներ Անվճար Առաջադրանքներ + տվյալների հավաքածուներ + համատեղ գործարկումներ; գեղեցիկ ծագման արահետներ
AWS բաց տվյալների գրանցամատյան Տվյալների ինժեներներ Հիմնականում անվճար Պետաբայթային մասշտաբի հոսթինգ; ամպային մուտք; ժամացույցի ելքի ծախսեր
Kaggle տվյալների հավաքածուներ Գործնական մասնագետներ Անվճար Հեշտ կիսվելը, սցենարները, մրցույթները. համայնքի ազդանշանները օգնում են զտել աղմուկը
Google Cloud հանրային տվյալների հավաքածուներ Վերլուծաբաններ, թիմեր Անվճար + ամպային Հոսթինգը կատարվում է մոտակա հաշվարկային համակարգում; BigQuery ինտեգրացիա; զգույշ եղեք հաշիվ-ապրանքագրերի հետ
Ակադեմիական պորտալներ, լաբորատորիաներ Նիշային փորձագետներ Տարբեր է Բարձր մասնագիտացված, երբեմն թերփաստաթղթավորված, այնուամենայնիվ, արժե որոնել

(Եթե բջիջը խոսակցական տեսք ունի, դա միտումնավոր է։)


Կառուցեք ձեր առաջինը՝ գործնական մեկնարկային հավաքածու 🛠️

Դուք ուզում եք անցնել «ի՞նչ է արհեստական ​​բանականության տվյալների հավաքածուն» հարցից դեպի «ես մեկը ստեղծեցի, այն աշխատում է»։ Փորձեք այս նվազագույն ուղին՝

  1. Գրեք որոշումը և չափանիշը , օրինակ՝ նվազեցրեք աջակցության սխալ երթուղիները՝ կանխատեսելով ճիշտ թիմը: Չափանիշ՝ մակրո-F1:

  2. Թվարկեք 5 դրական և 5 բացասական օրինակ ՝ վերցրեք իրական տոմսերի նմուշներ, մի՛ կեղծեք։

  3. Կազմեք պիտակի ուղեցույցի նախագիծ ՝ մեկ էջ. ներառման/բացառման հստակ կանոններ։

  4. Հավաքեք փոքր, իրական նմուշ ՝ մի քանի հարյուր տոմս տարբեր կատեգորիաներում, հեռացրեք ձեզ անհրաժեշտ անձնական տեղեկությունները։

  5. Բաժանեք արտահոսքի ստուգումներով ՝ պահեք նույն հաճախորդից ստացված բոլոր հաղորդագրությունները մեկ բաժանման մեջ. օգտագործեք խաչաձև վավերացում՝ շեղումը գնահատելու համար [5]:

  6. Ծանոթագրություններ՝ QA-ով - երկու ծանոթագրող մեկ ենթաբազմության վրա, անհամաձայնությունների լուծում, ուղեցույցի թարմացում։

  7. Սովորեցրեք պարզ բազային գիծ ՝ նախևառաջ լոգիստիկան (օրինակ՝ գծային մոդելներ կամ կոմպակտ տրանսֆորմատորներ): Նպատակը տվյալները ստուգելն է, այլ ոչ թե մեդալներ նվաճելը:

  8. Վերանայեք սխալները ՝ որտեղ է այն ձախողվում և ինչու, թարմացրեք տվյալների հավաքածուն, ոչ միայն մոդելը։

  9. Փաստաթուղթ - փոքրիկ տվյալների թերթիկ. աղբյուր, պիտակի ուղեցույցի հղում, բաժանումներ, հայտնի սահմանափակումներ, լիցենզիա [1]:

  10. Պլանավորեք թարմացում ՝ նոր կատեգորիաներ, նոր ժարգոն, նոր դոմեյններ են հայտնվում. պլանավորեք փոքր, հաճախակի թարմացումներ [3]:

Այս ցիկլից դուք ավելին կսովորեք, քան հազարավոր փորձնական փորձարկումներից։ Բացի այդ, պահուստային պատճեններ պահեք։ Խնդրում եմ։


Թիմերի վրա թաքնված տարածված թակարդներ 🪤

  • Տվյալների արտահոսք . պատասխանը ներթափանցում է գործառույթների մեջ (օրինակ՝ հետլուծման դաշտերի օգտագործումը արդյունքները կանխատեսելու համար): Թվում է, թե խաբեություն է, որովհետև այդպես է:

  • Մակերեսային բազմազանություն ՝ մեկ աշխարհագրություն կամ սարք քողարկվում է որպես գլոբալ։ Թեստերը կբացահայտեն սյուժետային շրջադարձը։

  • Պիտակների շեղում - չափանիշները փոխվում են ժամանակի ընթացքում, բայց պիտակների ուղեցույցը՝ ոչ: Փաստաթղթավորեք և տարբերակեք ձեր օնտոլոգիան:

  • Թերորոշված ​​նպատակներ . եթե դուք չեք կարող սահմանել վատ կանխատեսում, ձեր տվյալները նույնպես չեն կարողանա։

  • Անկանոն լիցենզիաները ՝ հիմա քերծելը, հետո ներողություն խնդրելը, ռազմավարություն չէ։

  • Գերագնահատում - սինթետիկ տվյալներ, որոնք սովորեցնում են անիրատեսական արտեֆակտներ, օրինակ՝ խոհարարին պլաստիկ մրգերի վրա մարզելը։


Հաճախակի տրվող հարցեր արտահայտության վերաբերյալ ❓

  • «Ի՞նչ է արհեստական ​​բանականության տվյալների բազմությունը» հարցը միայն սահմանման հարց է։ Մեծ մասամբ, բայց դա նաև ազդանշան է, որ դուք հոգ եք տանում մոդելները հուսալի դարձնող ձանձրալի մանրամասների մասին։

  • Մի՞շտ են պիտակներ պետք։ Ոչ։ Անվերահսկելի, ինքնավերահսկվող և RL կարգավորումները հաճախ բաց են թողնում հստակ պիտակները, բայց կուրացումը դեռևս կարևոր է։

  • Կարո՞ղ եմ հանրային տվյալներն օգտագործել որևէ բանի համար։ Ոչ։ Հարգեք լիցենզիաները, հարթակի պայմանները և գաղտնիության պահպանման պարտավորությունները [4]:

  • Ավելի մեծ, թե՞ ավելի լավ։ Իդեալականում՝ երկուսն էլ։ Եթե պետք է ընտրեք, նախ ընտրեք ավելի լավը։


Վերջնական դիտողություններ - Ինչ կարող եք էկրանի նկարահանել 📌

Եթե ​​ձեզ հարցնեն, թե ինչ է արհեստական ​​բանականության տվյալների հավաքածուն , ասեք. դա օրինակների կուրացված, փաստաթղթավորված հավաքածու է, որը սովորեցնում և փորձարկում է մոդելը՝ փաթեթավորված կառավարման մեջ, որպեսզի մարդիկ կարողանան վստահել արդյունքներին: Լավագույն տվյալների հավաքածուները ներկայացուցչական են, լավ պիտակավորված, իրավաբանորեն մաքուր և անընդհատ պահպանվող: Մնացածը մանրամասներ են՝ կարևոր մանրամասներ՝ կառուցվածքի, բաժանումների և այն բոլոր փոքրիկ պաշտպանիչ ցանկապատերի մասին, որոնք թույլ չեն տալիս մոդելներին թափառել երթևեկության մեջ: Երբեմն գործընթացը նման է աղյուսակներով այգեգործության, երբեմն՝ պիքսելների հավաքագրման: Ամեն դեպքում, ներդրում կատարեք տվյալների մեջ, և ձեր մոդելները ավելի քիչ տարօրինակ կգործեն: 🌱🤖


Հղումներ

[1] Տվյալների հավաքածուների տվյալների թերթիկներ - Գեբրու և այլք, arXiv: Հղում
[2] Մոդելային հաշվետվությունների մոդելային քարտեր - Միտչել և այլք, arXiv: Հղում
[3] NIST արհեստական ​​բանականության ռիսկերի կառավարման շրջանակ (AI RMF 1.0) : Հղում
[4] Մեծ Բրիտանիայի GDPR ուղեցույց և ռեսուրսներ - Տեղեկատվության հանձնակատարի գրասենյակ (ICO): Հղում
[5] Խաչաձև վավերացում. գնահատիչի արդյունավետության գնահատում - scikit-learn օգտագործողի ուղեցույց: Հղում


Գտեք արհեստական ​​բանականության վերջին նորույթները պաշտոնական արհեստական ​​բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ