Արհեստական բանականության տվյալների պահպանման պահանջները. Ինչ դուք իսկապես պետք է իմանաք

Արհեստական բանականությունը պարզապես աչքի ընկնող մոդելներ կամ խոսող օգնականներ չեն, որոնք նմանակում են մարդկանց: Այս ամենի հետևում թաքնված է տվյալների լեռ, երբեմն՝ օվկիանոս: Եվ ազնվորեն ասած՝ այդ տվյալների պահպանումը՞: Ահա թե որտեղ է սովորաբար ամեն ինչ խառնվում: Անկախ նրանից, թե խոսքը պատկերի ճանաչման խողովակաշարերի մասին է, թե հսկայական լեզվական մոդելների մարզման մասին, Արհեստական բանականության տվյալների պահպանման պահանջները կարող են արագորեն դուրս գալ վերահսկողությունից, եթե չմտածեք դրա մասին: Եկեք բացատրենք, թե ինչու է պահեստավորումը այդքան կարևոր, ինչ տարբերակներ կան սեղանին, և ինչպես կարող եք համատեղել արժեքը, արագությունը և մասշտաբը՝ առանց ուժասպառ լինելու:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո

🔗 Տվյալագիտություն և արհեստական բանականություն. նորարարության ապագան
Ուսումնասիրելով, թե ինչպես են արհեստական բանականությունը և տվյալագիտությունը խթանում ժամանակակից նորարարությունները։.

🔗 Արհեստական հեղուկ բանականություն. արհեստական բանականության և ապակենտրոնացված տվյալների ապագան
Ապակենտրոնացված արհեստական բանականության տվյալների և զարգացող նորարարությունների ակնարկ։.

🔗 Արհեստական բանականության գործիքների տվյալների կառավարում, որը պետք է դիտարկել
Արհեստական տվյալների պահպանման և արդյունավետության բարելավման հիմնական ռազմավարություններ։.

🔗 Տվյալների վերլուծաբանների համար լավագույն արհեստական բանականության գործիքները. Բարելավեք վերլուծական որոշումների կայացումը
Առաջատար արհեստական ինտելեկտի գործիքներ, որոնք խթանում են տվյալների վերլուծությունը և որոշումների կայացումը։.

Այսպիսով… Ի՞նչն է արհեստական բանականության միջոցով տվյալների պահպանումը դարձնում օգտակար։ ✅

Խոսքը պարզապես «ավելի շատ տերաբայթերի» մասին չէ: Իսկական արհեստական ինտելեկտի համար հարմար պահեստը նշանակում է լինել օգտագործելի, հուսալի և բավականաչափ արագ ՝ թե՛ մարզումների, թե՛ եզրակացությունների աշխատանքային բեռների համար:

Մի քանի առանձնահատկություններ, որոնք արժե նշել

Մասշտաբայնություն. անցում GB-ներից PB-ների՝ առանց ձեր ճարտարապետությունը վերաշարադրելու։
Արդյունավետություն. Բարձր լատենտությունը կհոգնեցնի գրաֆիկական պրոցեսորները, դրանք չեն ներում խցանումները։
Կրկնակի օգտագործում. կարճ պատկերներ, կրկնօրինակում, տարբերակում, քանի որ փորձերը խափանվում են, և մարդիկ նույնպես։
Ծախսարդյունավետություն. ճիշտ մակարդակ, ճիշտ պահ։ Հակառակ դեպքում հաշիվը կսողոսկի ինչպես հարկային աուդիտ։
Հաշվիչներին մոտիկություն. պահեստը տեղադրեք GPU-ների/TPU-ների կողքին կամ հետևեք տվյալների մատակարարման խեղդմանը։

Հակառակ դեպքում, դա նման է Ferrari-ն խոտհնձիչի վառելիքով աշխատեցնելու փորձին. տեխնիկապես այն շարժվում է, բայց ոչ երկար։.

Համեմատական աղյուսակ. Արհեստական բանականության համար պահեստավորման տարածված տարբերակներ

Պահեստի տեսակը	Լավագույն համապատասխանություն	Քոստ Բոլպարկ	Ինչու է այն աշխատում (կամ չի աշխատում)
Ամպային օբյեկտների պահեստավորում	Ստարտափներ և միջին չափի ընկերություններ	$$ (փոփոխական)	Ճկուն, դիմացկուն, կատարյալ է տվյալների կուտակումների համար. զգույշ եղեք ելքային վճարներից + հարցումների ստացումից։
Տեղական NAS	Ավելի մեծ կազմակերպություններ՝ ՏՏ թիմերով	$$$$	Կանխատեսելի լատենտություն, լիակատար վերահսկողություն, նախնական կապիտալ ծախսեր + ընթացիկ գործառնական ծախսեր։.
Հիբրիդային ամպ	Համապատասխանության խիստ պահանջներ ներկայացնող կարգավորումներ	$$$	Համատեղում է տեղական արագությունը առաձգական ամպի հետ. նվագախմբավորումը գլխացավանք է ավելացնում։.
Բոլոր ֆլեշ զանգվածները	Պերֆորացիայով տարված հետազոտողներ	$$$$$	Անհավանականորեն արագ IOPS/արտադրողականություն, բայց ընդհանուր արժեքի (TCO) գործակիցը կատակ չէ։.
Բաշխված ֆայլային համակարգեր	Արհեստական բանականության մշակողներ / HPC կլաստերներ	$$–$$$	Զուգահեռ մուտք/ելք լուրջ մասշտաբով (Lustre, Spectrum Scale); օպերացիոն ծանրաբեռնվածությունը իրական է։.

Ինչու են արհեստական բանականության տվյալների կարիքները կտրուկ աճում 🚀

Արհեստական բանականությունը պարզապես սելֆիներ չի կուտակում։ Այն ագահ է։.

Ուսումնական հավաքածուներ. ImageNet-ի ILSVRC-ն միայն պարունակում է մոտ 1.2 միլիոն պիտակավորված պատկերներ, իսկ տիրույթին հատուկ կորպուսները շատ ավելի լայն են [1]:
Տարբերակում. Յուրաքանչյուր փոփոխություն՝ պիտակավորում, բաժանում, լրացում, ստեղծում է մեկ այլ «ճշմարտություն»։
Հոսքային մուտքեր. ուղիղ հեռարձակում, հեռաչափություն, սենսորային սնուցումներ… սա անընդհատ հրդեհային խողովակ է։
Անկառուցված ձևաչափեր՝ տեքստ, տեսանյութ, աուդիո, գրանցամատյաններ՝ շատ ավելի ծավալուն, քան կոկիկ SQL աղյուսակները։

Սա «կարող ես ուտել» բուֆետ է, և մոդելը միշտ վերադառնում է աղանդերի համար։.

Ամպն ընդդեմ տեղական տեխնոլոգիաների. Անվերջ բանավեճը 🌩️🏢

Ամպային տեխնոլոգիաները գրավիչ են թվում. գրեթե անվերջ, գլոբալ, վճարեք ըստ օգտագործման։ Մինչև ձեր հաշիվ-ապրանքագրում չնշվեն ելքային վճարները , և հանկարծ ձեր «էժան» պահեստային ծախսերը մրցակցային հաշվարկային ծախսերի պես են [2]:

Մյուս կողմից, տեղում տեղադրվող համակարգը ապահովում է կառավարում և անգերազանցելի աշխատանք, բայց դուք նաև վճարում եք սարքավորումների, սնուցման, սառեցման և դարակաշարերի խնամքի համար։.

Թիմերի մեծ մասը տեղավորվում է խառնաշփոթ միջավայրում՝ հիբրիդային կարգավորումներում։ Պահեք տաք, զգայուն, բարձր թողունակությամբ տվյալները GPU-ներին մոտ, իսկ մնացածը արխիվացրեք ամպային մակարդակներում։

Պահեստավորման ծախսեր, որոնք աննկատ աճում են 💸

Հզորությունը միայն մակերեսային շերտն է։ Թաքնված ծախսերը կուտակվում են։

Տվյալների տեղաշարժ. միջտարածաշրջանային պատճեններ, միջամպային փոխանցումներ, նույնիսկ օգտատիրոջ ելք [2]:
Ավելորդություն. 3-2-1- (երեք օրինակ, երկու կրիչ, մեկը՝ արտաքին) տեղ է զբաղեցնում, բայց փրկում է իրավիճակը [3]:
Հզորացում և սառեցում. եթե խնդիրը ձեր դարակն է, ապա խնդիրը ձեր ջերմության մեջ է։
Լատենտության փոխզիջումներ. ավելի էժան մակարդակները սովորաբար նշանակում են սառցադաշտային վերականգնման արագություն։

Անվտանգություն և համապատասխանություն. Անաղմուկ գործարքներ խախտողներ 🔒

Կանոնակարգերը կարող են բառացիորեն թելադրել, թե որտեղ են պահվում բայթերը: Մեծ Բրիտանիայի GDPR-ի, անձնական տվյալները Մեծ Բրիտանիայից դուրս տեղափոխելու համար անհրաժեշտ են օրինական փոխանցման ուղիներ (SCC, IDTA կամ համարժեքության կանոններ): Թարգմանություն՝ ձեր պահեստավորման դիզայնը պետք է «գիտի» աշխարհագրությունը [5]:

Առաջին օրվանից թխելու հիմնական կանոնները՝

Գաղտնագրում ՝ և՛ հանգստի, և՛ ճանապարհորդության ժամանակ։
Ամենաքիչ արտոնյալ մուտք + աուդիտի հետքեր։
Ջնջեք պաշտպանությունները, ինչպիսիք են անփոփոխությունը կամ օբյեկտների կողպեքները:

Արդյունավետության խոչընդոտներ. Լատենտությունը լուռ մարդասպանն է ⚡

Գրաֆիկական պրոցեսորները չեն սիրում սպասել։ Եթե հիշողությունը դանդաղում է, դրանք փառաբանվում են որպես տաքացուցիչներ։ NVIDIA GPUDirect Storage-ի վերացնում են պրոցեսորի միջնորդի դերը՝ տվյալները ուղղակիորեն NVMe-ից տեղափոխելով գրաֆիկական պրոցեսորի հիշողություն՝ հենց այն, ինչին ձգտում է մեծ խմբաքանակի վերապատրաստումը [4]:

Հաճախակի ուղղումներ՝

NVMe all-flash՝ տաք մարզումների բեկորների համար։.
Զուգահեռ ֆայլային համակարգեր (Lustre, Spectrum Scale) բազմահանգույց թողունակության համար։.
Ասինխրոն բեռնիչներ՝ sharding + prefetch ֆունկցիայով, որոնք կանխում են GPU-ների անգործուն աշխատանքը։.

Գործնական քայլեր արհեստական ինտելեկտի պահեստը կառավարելու համար 🛠️

Թիերիավորում. տաք բեկորներ NVMe/SSD-ի վրա; հնացած հավաքածուները արխիվացնել օբյեկտային կամ սառը թիերների մեջ։
Dedup + delta: Բազային գծերը պահում է մեկ անգամ, թողնում միայն տարբերությունները + մանիֆեստները։
Կյանքի ցիկլի կանոններ՝ ավտոմատ մակարդակավորում և հին ելքերի ժամկետի ավարտ [2]:
3-2-1 դիմացկունություն. Միշտ պահեք բազմաթիվ օրինակներ, տարբեր կրիչներում, որոնցից մեկը մեկուսացված է [3]:
Գործիքավորում՝ հետևման թողունակություն, p95/p99 ուշացումներ, անհաջող ընթերցումներ, ելք աշխատանքային ծանրաբեռնվածության պատճառով։

Արագ (հորինված, բայց տիպիկ) դեպք 📚

Տեսողական թիմը սկսում է իր աշխատանքը մոտ 20 ՏԲ ամպային օբյեկտային պահեստով։ Ավելի ուշ նրանք սկսում են կլոնավորել տվյալների հավաքածուները տարբեր տարածաշրջաններում՝ փորձերի համար։ Նրանց ծախսերը մեծանում են՝ ոչ թե պահեստից, այլ ելքային երթևեկությունից։ Նրանք տեղափոխում են տաք շարդերը NVMe՝ GPU կլաստերի մոտ, պահպանում են կանոնիկ պատճենը օբյեկտային պահեստում (կյանքի ցիկլի կանոններով) և ամրացնում են միայն անհրաժեշտ նմուշները։ Արդյունք՝ GPU-ներն ավելի ծանրաբեռնված են, հաշիվները՝ ավելի քիչ, և տվյալների հիգիենան բարելավվում է։

Ծրարի հետևից տարողունակության պլանավորում 🧮

Գնահատման մոտավոր բանաձև

Տարողություն ≈ (Հում տվյալների հավաքածու) × (Կրկնօրինակման գործակից) + (Նախապես մշակված / լրացված տվյալներ) + (Հսկիչ կետեր + Գրանցամատյաններ) + (Անվտանգության մարժա ~15–30%)

Այնուհետև «sanity»-ն այն ստուգում է թողունակության համեմատ։ Եթե յուրաքանչյուր հանգույցի բեռնիչները պահանջում են մոտ 2–4 ԳԲ/վրկ կայունություն, ապա դուք դիտարկում եք NVMe կամ զուգահեռ FS՝ տաք ուղիների համար, որտեղ օբյեկտների պահեստավորումը որպես հիմնական ճշմարտություն է։.

Խոսքը միայն տարածության մասին չէ 📊

Երբ մարդիկ ասում են արհեստական բանականության պահեստավորման պահանջներ, նրանք պատկերացնում են տերաբայթեր կամ պետաբայթեր: Սակայն իրական հնարքը հավասարակշռությունն է՝ արժեքն ընդդեմ արդյունավետության, ճկունությունն ընդդեմ համապատասխանության, նորարարությունն ընդդեմ կայունության: Արհեստական բանականության տվյալները շուտով չեն կրճատվի: Թիմերը, որոնք պահեստավորումը վաղ են ներառում մոդելի նախագծման մեջ, խուսափում են տվյալների ճահճուտներում խեղդվելուց, և նրանք նաև ավելի արագ են մարզվում:

Հղումներ

[1] Ռուսակովսկի և այլք։ ImageNet Large Scale Visual Recognition Challenge (IJCV) — տվյալների հավաքածուի մասշտաբ և մարտահրավեր։ Հղում
[2] AWS — Amazon S3 գնագոյացում և ծախսեր (տվյալների փոխանցում, ելք, կյանքի ցիկլի մակարդակներ)։ Հղում
[3] CISA — 3-2-1 պահուստավորման կանոնների խորհրդատվություն։ Հղում
[4] NVIDIA Docs — GPUDirect Storage-ի ակնարկ։ Հղում
[5] ICO — Մեծ Բրիտանիայի GDPR կանոններ միջազգային տվյալների փոխանցման վերաբերյալ։ Հղում

Գտեք արհեստական բանականության վերջին նորույթները պաշտոնական արհեստական բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ

Այսպիսով… Ի՞նչն է արհեստական ​​բանականության միջոցով տվյալների պահպանումը դարձնում օգտակար։ ✅

Համեմատական ​​աղյուսակ. Արհեստական ​​բանականության համար պահեստավորման տարածված տարբերակներ

Ինչու են արհեստական ​​բանականության տվյալների կարիքները կտրուկ աճում 🚀