Արհեստական բանականության տվյալների պահպանման պահանջները. Ինչ դուք իսկապես պետք է իմանաք

Արհեստական բանականությունը պարզապես աչքի ընկնող մոդելներ կամ խոսող օգնականներ չեն, որոնք նմանակում են մարդկանց: Այս ամենի հետևում թաքնված է տվյալների լեռ, երբեմն՝ օվկիանոս: Եվ ազնվորեն ասած՝ այդ տվյալների պահպանումը՞: Ահա թե որտեղ է սովորաբար ամեն ինչ խառնվում: Անկախ նրանից, թե խոսքը պատկերի ճանաչման խողովակաշարերի մասին է, թե հսկայական լեզվական մոդելների մարզման մասին, Արհեստական բանականության տվյալների պահպանման պահանջները կարող են արագորեն դուրս գալ վերահսկողությունից, եթե չմտածեք դրա մասին: Եկեք բացատրենք, թե ինչու է պահեստավորումը այդքան կարևոր, ինչ տարբերակներ կան սեղանին, և ինչպես կարող եք համատեղել արժեքը, արագությունը և մասշտաբը՝ առանց ուժասպառ լինելու:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.

🔗 Տվյալագիտություն և արհեստական բանականություն. նորարարության ապագան
Ուսումնասիրելով, թե ինչպես են արհեստական բանականությունը և տվյալագիտությունը խթանում ժամանակակից նորարարությունները։

🔗 Արհեստական հեղուկ բանականություն. արհեստական բանականության և ապակենտրոնացված տվյալների ապագան
Ապակենտրոնացված արհեստական բանականության տվյալների և զարգացող նորարարությունների ակնարկ։

🔗 Արհեստական բանականության գործիքների տվյալների կառավարում, որը պետք է դիտարկել
Արհեստական տվյալների պահպանման և արդյունավետության բարելավման հիմնական ռազմավարություններ։

🔗 Տվյալների վերլուծաբանների համար լավագույն արհեստական բանականության գործիքները. Բարելավեք վերլուծական որոշումների կայացումը
Առաջատար արհեստական ինտելեկտի գործիքներ, որոնք խթանում են տվյալների վերլուծությունը և որոշումների կայացումը։

Այսպիսով… Ի՞նչն է արհեստական բանականության միջոցով տվյալների պահպանումը դարձնում օգտակար։ ✅

Խոսքը պարզապես «ավելի շատ տերաբայթերի» մասին չէ: Իսկական արհեստական ինտելեկտի համար հարմար պահեստը նշանակում է լինել օգտագործելի, հուսալի և բավականաչափ արագ ՝ թե՛ մարզումների, թե՛ եզրակացությունների աշխատանքային բեռների համար:

Մի քանի առանձնահատկություններ, որոնք արժե նշել.

Մասշտաբայնություն . անցում GB-ներից PB-ների՝ առանց ձեր ճարտարապետությունը վերաշարադրելու։
Արդյունավետություն . Բարձր լատենտությունը կհոգնեցնի գրաֆիկական պրոցեսորները, դրանք չեն ներում խցանումները։
Կրկնակի օգտագործում . կարճ պատկերներ, կրկնօրինակում, տարբերակում, քանի որ փորձերը խափանվում են, և մարդիկ նույնպես։
Ծախսարդյունավետություն . ճիշտ մակարդակ, ճիշտ պահ։ Հակառակ դեպքում հաշիվը կսողոսկի ինչպես հարկային աուդիտ։
Հաշվիչներին մոտիկություն . պահեստը տեղադրեք GPU-ների/TPU-ների կողքին կամ հետևեք տվյալների մատակարարման խեղդմանը։

Հակառակ դեպքում, դա նման է Ferrari-ն խոտհնձիչի վառելիքով աշխատեցնելու փորձին. տեխնիկապես այն շարժվում է, բայց ոչ երկար։

Համեմատական աղյուսակ. Արհեստական բանականության համար պահեստավորման տարածված տարբերակներ

Պահեստի տեսակը	Լավագույն համապատասխանություն	Քոստ Բոլպարկ	Ինչու է այն աշխատում (կամ չի աշխատում)
Ամպային օբյեկտների պահեստավորում	Ստարտափներ և միջին չափի ընկերություններ	$$ (փոփոխական)	Ճկուն, դիմացկուն, կատարյալ է տվյալների կուտակումների համար. զգույշ եղեք ելքային վճարներից + հարցումների ստացումից։
Տեղական NAS	Ավելի մեծ կազմակերպություններ՝ ՏՏ թիմերով	$$$$	Կանխատեսելի լատենտություն, լիակատար վերահսկողություն, նախնական կապիտալ ծախսեր + ընթացիկ գործառնական ծախսեր։
Հիբրիդային ամպ	Համապատասխանության խիստ պահանջներ ներկայացնող կարգավորումներ	$$$	Համատեղում է տեղական արագությունը առաձգական ամպի հետ. նվագախմբավորումը գլխացավանք է ավելացնում։
Բոլոր ֆլեշ զանգվածները	Պերֆորացիայով տարված հետազոտողներ	$$$$$	Անհավանականորեն արագ IOPS/արտադրողականություն, բայց ընդհանուր արժեքի (TCO) գործակիցը կատակ չէ։
Բաշխված ֆայլային համակարգեր	Արհեստական բանականության մշակողներ / HPC կլաստերներ	$$–$$$	Զուգահեռ մուտք/ելք լուրջ մասշտաբով (Lustre, Spectrum Scale); օպերացիոն ծանրաբեռնվածությունը իրական է։

Ինչու են արհեստական բանականության տվյալների կարիքները կտրուկ աճում 🚀

Արհեստական բանականությունը պարզապես սելֆիներ չի կուտակում։ Այն ագահ է։

Ուսումնական հավաքածուներ . ImageNet-ի ILSVRC-ն միայն պարունակում է մոտ 1.2 միլիոն պիտակավորված պատկերներ, իսկ տիրույթին հատուկ կորպուսները շատ ավելի լայն են [1]:
Տարբերակում . Յուրաքանչյուր փոփոխություն՝ պիտակավորում, բաժանում, լրացում, ստեղծում է մեկ այլ «ճշմարտություն»։
Հոսքային մուտքեր . ուղիղ հեռարձակում, հեռաչափություն, սենսորային սնուցումներ… սա անընդհատ հրդեհային խողովակ է։
Անկառուցված ձևաչափեր ՝ տեքստ, տեսանյութ, աուդիո, գրանցամատյաններ՝ շատ ավելի ծավալուն, քան կոկիկ SQL աղյուսակները։

Սա «կարող ես ուտել» բուֆետ է, և մոդելը միշտ վերադառնում է աղանդերի համար։

Ամպն ընդդեմ տեղական տեխնոլոգիաների. Անվերջ բանավեճը 🌩️🏢

Ամպային տեխնոլոգիաները գրավիչ են թվում. գրեթե անվերջ, գլոբալ, վճարեք ըստ օգտագործման։ Մինչև ձեր հաշիվ-ապրանքագրում չնշվեն ելքային վճարները , և հանկարծ ձեր «էժան» պահեստային ծախսերը մրցակցային հաշվարկային ծախսերի պես են [2]:

Մյուս կողմից, տեղում տեղադրվող համակարգը ապահովում է կառավարում և անգերազանցելի աշխատանք, բայց դուք նաև վճարում եք սարքավորումների, սնուցման, սառեցման և դարակաշարերի խնամքի համար։

Թիմերի մեծ մասը տեղավորվում է խառնաշփոթ միջավայրում՝ հիբրիդային կարգավորումներում։ Պահեք տաք, զգայուն, բարձր թողունակությամբ տվյալները GPU-ներին մոտ, իսկ մնացածը արխիվացրեք ամպային մակարդակներում։

Պահեստավորման ծախսեր, որոնք աննկատ աճում են 💸

Հզորությունը միայն մակերեսային շերտն է։ Թաքնված ծախսերը կուտակվում են։

Տվյալների տեղաշարժ . միջտարածաշրջանային պատճեններ, միջամպային փոխանցումներ, նույնիսկ օգտատիրոջ ելք [2]:
Ավելորդություն . 3-2-1- (երեք օրինակ, երկու կրիչ, մեկը՝ արտաքին) տեղ է զբաղեցնում, բայց փրկում է իրավիճակը [3]:
Հզորացում և սառեցում . եթե խնդիրը ձեր դարակն է, ապա խնդիրը ձեր ջերմության մեջ է։
Լատենտության փոխզիջումներ . ավելի էժան մակարդակները սովորաբար նշանակում են սառցադաշտային վերականգնման արագություն։

Անվտանգություն և համապատասխանություն. Անաղմուկ գործարքներ խախտողներ 🔒

Կանոնակարգերը կարող են բառացիորեն թելադրել, թե որտեղ են պահվում բայթերը: Մեծ Բրիտանիայի GDPR-ի , անձնական տվյալները Մեծ Բրիտանիայից դուրս տեղափոխելու համար անհրաժեշտ են օրինական փոխանցման ուղիներ (SCC, IDTA կամ համարժեքության կանոններ): Թարգմանություն՝ ձեր պահեստավորման դիզայնը պետք է «գիտի» աշխարհագրությունը [5]:

Առաջին օրվանից թխելու հիմնական կանոնները՝

Գաղտնագրում ՝ և՛ հանգստի, և՛ ճանապարհորդության ժամանակ։
Ամենաքիչ արտոնյալ մուտք + աուդիտի հետքեր։
Ջնջեք պաշտպանությունները , ինչպիսիք են անփոփոխությունը կամ օբյեկտների կողպեքները:

Արդյունավետության խոչընդոտներ. Լատենտությունը լուռ մարդասպանն է ⚡

Գրաֆիկական պրոցեսորները չեն սիրում սպասել։ Եթե հիշողությունը դանդաղում է, դրանք փառաբանվում են որպես տաքացուցիչներ։ NVIDIA GPUDirect Storage-ի վերացնում են պրոցեսորի միջնորդի դերը՝ տվյալները ուղղակիորեն NVMe-ից տեղափոխելով գրաֆիկական պրոցեսորի հիշողություն՝ հենց այն, ինչին ձգտում է մեծ խմբաքանակի վերապատրաստումը [4]:

Հաճախակի ուղղումներ՝

NVMe all-flash՝ տաք մարզումների բեկորների համար։
Զուգահեռ ֆայլային համակարգեր (Lustre, Spectrum Scale) բազմահանգույց թողունակության համար։
Ասինխրոն բեռնիչներ՝ sharding + prefetch ֆունկցիայով, որոնք կանխում են GPU-ների անգործուն աշխատանքը։

Գործնական քայլեր արհեստական ինտելեկտի պահեստը կառավարելու համար 🛠️

Թիերիավորում . տաք բեկորներ NVMe/SSD-ի վրա; հնացած հավաքածուները արխիվացնել օբյեկտային կամ սառը թիերների մեջ։
Dedup + delta : Բազային գծերը պահում է մեկ անգամ, թողնում միայն տարբերությունները + մանիֆեստները։
Կյանքի ցիկլի կանոններ ՝ ավտոմատ մակարդակավորում և հին ելքերի ժամկետի ավարտ [2]:
3-2-1 դիմացկունություն . Միշտ պահեք բազմաթիվ օրինակներ, տարբեր կրիչներում, որոնցից մեկը մեկուսացված է [3]:
Գործիքավորում ՝ հետևման թողունակություն, p95/p99 ուշացումներ, անհաջող ընթերցումներ, ելք աշխատանքային ծանրաբեռնվածության պատճառով։

Արագ (հորինված, բայց տիպիկ) դեպք 📚

Տեսողական թիմը սկսում է իր աշխատանքը մոտ 20 ՏԲ ամպային օբյեկտային պահեստով։ Ավելի ուշ նրանք սկսում են կլոնավորել տվյալների հավաքածուները տարբեր տարածաշրջաններում՝ փորձերի համար։ Նրանց ծախսերը մեծանում են՝ ոչ թե պահեստից, այլ ելքային երթևեկությունից ։ Նրանք տեղափոխում են տաք շարդերը NVMe՝ GPU կլաստերի մոտ, պահպանում են կանոնիկ պատճենը օբյեկտային պահեստում (կյանքի ցիկլի կանոններով) և ամրացնում են միայն անհրաժեշտ նմուշները։ Արդյունք՝ GPU-ներն ավելի ծանրաբեռնված են, հաշիվները՝ ավելի քիչ, և տվյալների հիգիենան բարելավվում է։

Ծրարի հետևից տարողունակության պլանավորում 🧮

Գնահատման մոտավոր բանաձև.

Տարողություն ≈ (Հում տվյալների հավաքածու) × (Կրկնօրինակման գործակից) + (Նախապես մշակված / լրացված տվյալներ) + (Հսկիչ կետեր + Գրանցամատյաններ) + (Անվտանգության մարժա ~15–30%)

Այնուհետև «sanity»-ն այն ստուգում է թողունակության համեմատ։ Եթե յուրաքանչյուր հանգույցի բեռնիչները պահանջում են մոտ 2–4 ԳԲ/վրկ կայունություն, ապա դուք դիտարկում եք NVMe կամ զուգահեռ FS՝ տաք ուղիների համար, որտեղ օբյեկտների պահեստավորումը որպես հիմնական ճշմարտություն է։

Խոսքը միայն տարածության մասին չէ 📊

Երբ մարդիկ ասում են արհեստական բանականության պահեստավորման պահանջներ , նրանք պատկերացնում են տերաբայթեր կամ պետաբայթեր: Սակայն իրական հնարքը հավասարակշռությունն է՝ արժեքն ընդդեմ արդյունավետության, ճկունությունն ընդդեմ համապատասխանության, նորարարությունն ընդդեմ կայունության: Արհեստական բանականության տվյալները շուտով չեն կրճատվի: Թիմերը, որոնք պահեստավորումը վաղ են ներառում մոդելի նախագծման մեջ, խուսափում են տվյալների ճահճուտներում խեղդվելուց, և նրանք նաև ավելի արագ են մարզվում:

Հղումներ

[1] Ռուսակովսկի և այլք։ ImageNet Large Scale Visual Recognition Challenge (IJCV) — տվյալների հավաքածուի մասշտաբ և մարտահրավեր։ Հղում
[2] AWS — Amazon S3 գնագոյացում և ծախսեր (տվյալների փոխանցում, ելք, կյանքի ցիկլի մակարդակներ)։ Հղում
[3] CISA — 3-2-1 պահուստավորման կանոնների խորհրդատվություն։ Հղում
[4] NVIDIA Docs — GPUDirect Storage-ի ակնարկ։ Հղում
[5] ICO — Մեծ Բրիտանիայի GDPR կանոններ միջազգային տվյալների փոխանցման վերաբերյալ։ Հղում

Գտեք արհեստական բանականության վերջին նորույթները պաշտոնական արհեստական բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ

Երկիր/տարածաշրջան

Այսպիսով… Ի՞նչն է արհեստական ​​բանականության միջոցով տվյալների պահպանումը դարձնում օգտակար։ ✅

Համեմատական ​​աղյուսակ. Արհեստական ​​բանականության համար պահեստավորման տարածված տարբերակներ

Ինչու են արհեստական ​​բանականության տվյալների կարիքները կտրուկ աճում 🚀