Արհեստական ​​բանականության տվյալների պահպանման պահանջները

Արհեստական ​​բանականության տվյալների պահպանման պահանջները. Ինչ դուք իսկապես պետք է իմանաք

Արհեստական ​​բանականությունը պարզապես աչքի ընկնող մոդելներ կամ խոսող օգնականներ չեն, որոնք նմանակում են մարդկանց: Այս ամենի հետևում թաքնված է տվյալների լեռ, երբեմն՝ օվկիանոս: Եվ ազնվորեն ասած՝ այդ տվյալների պահպանումը՞: Ահա թե որտեղ է սովորաբար ամեն ինչ խառնվում: Անկախ նրանից, թե խոսքը պատկերի ճանաչման խողովակաշարերի մասին է, թե հսկայական լեզվական մոդելների մարզման մասին, Արհեստական ​​բանականության տվյալների պահպանման պահանջները կարող են արագորեն դուրս գալ վերահսկողությունից, եթե չմտածեք դրա մասին: Եկեք բացատրենք, թե ինչու է պահեստավորումը այդքան կարևոր, ինչ տարբերակներ կան սեղանին, և ինչպես կարող եք համատեղել արժեքը, արագությունը և մասշտաբը՝ առանց ուժասպառ լինելու:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.

🔗 Տվյալագիտություն և արհեստական ​​բանականություն. նորարարության ապագան
Ուսումնասիրելով, թե ինչպես են արհեստական ​​բանականությունը և տվյալագիտությունը խթանում ժամանակակից նորարարությունները։

🔗 Արհեստական ​​հեղուկ բանականություն. արհեստական ​​բանականության և ապակենտրոնացված տվյալների ապագան
Ապակենտրոնացված արհեստական ​​բանականության տվյալների և զարգացող նորարարությունների ակնարկ։

🔗 Արհեստական ​​բանականության գործիքների տվյալների կառավարում, որը պետք է դիտարկել
Արհեստական ​​​​տվյալների պահպանման և արդյունավետության բարելավման հիմնական ռազմավարություններ։

🔗 Տվյալների վերլուծաբանների համար լավագույն արհեստական ​​բանականության գործիքները. Բարելավեք վերլուծական որոշումների կայացումը
Առաջատար արհեստական ​​ինտելեկտի գործիքներ, որոնք խթանում են տվյալների վերլուծությունը և որոշումների կայացումը։


Այսպիսով… Ի՞նչն է արհեստական ​​բանականության միջոցով տվյալների պահպանումը դարձնում օգտակար։ ✅

Խոսքը պարզապես «ավելի շատ տերաբայթերի» մասին չէ: Իսկական արհեստական ​​ինտելեկտի համար հարմար պահեստը նշանակում է լինել օգտագործելի, հուսալի և բավականաչափ արագ ՝ թե՛ մարզումների, թե՛ եզրակացությունների աշխատանքային բեռների համար:

Մի քանի առանձնահատկություններ, որոնք արժե նշել.

  • Մասշտաբայնություն . անցում GB-ներից PB-ների՝ առանց ձեր ճարտարապետությունը վերաշարադրելու։

  • Արդյունավետություն . Բարձր լատենտությունը կհոգնեցնի գրաֆիկական պրոցեսորները, դրանք չեն ներում խցանումները։

  • Կրկնակի օգտագործում . կարճ պատկերներ, կրկնօրինակում, տարբերակում, քանի որ փորձերը խափանվում են, և մարդիկ նույնպես։

  • Ծախսարդյունավետություն . ճիշտ մակարդակ, ճիշտ պահ։ Հակառակ դեպքում հաշիվը կսողոսկի ինչպես հարկային աուդիտ։

  • Հաշվիչներին մոտիկություն . պահեստը տեղադրեք GPU-ների/TPU-ների կողքին կամ հետևեք տվյալների մատակարարման խեղդմանը։

Հակառակ դեպքում, դա նման է Ferrari-ն խոտհնձիչի վառելիքով աշխատեցնելու փորձին. տեխնիկապես այն շարժվում է, բայց ոչ երկար։


Համեմատական ​​աղյուսակ. Արհեստական ​​բանականության համար պահեստավորման տարածված տարբերակներ

Պահեստի տեսակը Լավագույն համապատասխանություն Քոստ Բոլպարկ Ինչու է այն աշխատում (կամ չի աշխատում)
Ամպային օբյեկտների պահեստավորում Ստարտափներ և միջին չափի ընկերություններ $$ (փոփոխական) Ճկուն, դիմացկուն, կատարյալ է տվյալների կուտակումների համար. զգույշ եղեք ելքային վճարներից + հարցումների ստացումից։
Տեղական NAS Ավելի մեծ կազմակերպություններ՝ ՏՏ թիմերով $$$$ Կանխատեսելի լատենտություն, լիակատար վերահսկողություն, նախնական կապիտալ ծախսեր + ընթացիկ գործառնական ծախսեր։
Հիբրիդային ամպ Համապատասխանության խիստ պահանջներ ներկայացնող կարգավորումներ $$$ Համատեղում է տեղական արագությունը առաձգական ամպի հետ. նվագախմբավորումը գլխացավանք է ավելացնում։
Բոլոր ֆլեշ զանգվածները Պերֆորացիայով տարված հետազոտողներ $$$$$ Անհավանականորեն արագ IOPS/արտադրողականություն, բայց ընդհանուր արժեքի (TCO) գործակիցը կատակ չէ։
Բաշխված ֆայլային համակարգեր Արհեստական ​​բանականության մշակողներ / HPC կլաստերներ $$–$$$ Զուգահեռ մուտք/ելք լուրջ մասշտաբով (Lustre, Spectrum Scale); օպերացիոն ծանրաբեռնվածությունը իրական է։

Ինչու են արհեստական ​​բանականության տվյալների կարիքները կտրուկ աճում 🚀

Արհեստական ​​բանականությունը պարզապես սելֆիներ չի կուտակում։ Այն ագահ է։

  • Ուսումնական հավաքածուներ . ImageNet-ի ILSVRC-ն միայն պարունակում է մոտ 1.2 միլիոն պիտակավորված պատկերներ, իսկ տիրույթին հատուկ կորպուսները շատ ավելի լայն են [1]:

  • Տարբերակում . Յուրաքանչյուր փոփոխություն՝ պիտակավորում, բաժանում, լրացում, ստեղծում է մեկ այլ «ճշմարտություն»։

  • Հոսքային մուտքեր . ուղիղ հեռարձակում, հեռաչափություն, սենսորային սնուցումներ… սա անընդհատ հրդեհային խողովակ է։

  • Անկառուցված ձևաչափեր ՝ տեքստ, տեսանյութ, աուդիո, գրանցամատյաններ՝ շատ ավելի ծավալուն, քան կոկիկ SQL աղյուսակները։

Սա «կարող ես ուտել» բուֆետ է, և մոդելը միշտ վերադառնում է աղանդերի համար։


Ամպն ընդդեմ տեղական տեխնոլոգիաների. Անվերջ բանավեճը 🌩️🏢

Ամպային տեխնոլոգիաները գրավիչ են թվում. գրեթե անվերջ, գլոբալ, վճարեք ըստ օգտագործման։ Մինչև ձեր հաշիվ-ապրանքագրում չնշվեն ելքային վճարները , և հանկարծ ձեր «էժան» պահեստային ծախսերը մրցակցային հաշվարկային ծախսերի պես են [2]:

Մյուս կողմից, տեղում տեղադրվող համակարգը ապահովում է կառավարում և անգերազանցելի աշխատանք, բայց դուք նաև վճարում եք սարքավորումների, սնուցման, սառեցման և դարակաշարերի խնամքի համար։

Թիմերի մեծ մասը տեղավորվում է խառնաշփոթ միջավայրում՝ հիբրիդային կարգավորումներում։ Պահեք տաք, զգայուն, բարձր թողունակությամբ տվյալները GPU-ներին մոտ, իսկ մնացածը արխիվացրեք ամպային մակարդակներում։


Պահեստավորման ծախսեր, որոնք աննկատ աճում են 💸

Հզորությունը միայն մակերեսային շերտն է։ Թաքնված ծախսերը կուտակվում են։

  • Տվյալների տեղաշարժ . միջտարածաշրջանային պատճեններ, միջամպային փոխանցումներ, նույնիսկ օգտատիրոջ ելք [2]:

  • Ավելորդություն . 3-2-1- (երեք օրինակ, երկու կրիչ, մեկը՝ արտաքին) տեղ է զբաղեցնում, բայց փրկում է իրավիճակը [3]:

  • Հզորացում և սառեցում . եթե խնդիրը ձեր դարակն է, ապա խնդիրը ձեր ջերմության մեջ է։

  • Լատենտության փոխզիջումներ . ավելի էժան մակարդակները սովորաբար նշանակում են սառցադաշտային վերականգնման արագություն։


Անվտանգություն և համապատասխանություն. Անաղմուկ գործարքներ խախտողներ 🔒

Կանոնակարգերը կարող են բառացիորեն թելադրել, թե որտեղ են պահվում բայթերը: Մեծ Բրիտանիայի GDPR-ի , անձնական տվյալները Մեծ Բրիտանիայից դուրս տեղափոխելու համար անհրաժեշտ են օրինական փոխանցման ուղիներ (SCC, IDTA կամ համարժեքության կանոններ): Թարգմանություն՝ ձեր պահեստավորման դիզայնը պետք է «գիտի» աշխարհագրությունը [5]:

Առաջին օրվանից թխելու հիմնական կանոնները՝

  • Գաղտնագրում ՝ և՛ հանգստի, և՛ ճանապարհորդության ժամանակ։

  • Ամենաքիչ արտոնյալ մուտք + աուդիտի հետքեր։

  • Ջնջեք պաշտպանությունները , ինչպիսիք են անփոփոխությունը կամ օբյեկտների կողպեքները:


Արդյունավետության խոչընդոտներ. Լատենտությունը լուռ մարդասպանն է ⚡

Գրաֆիկական պրոցեսորները չեն սիրում սպասել։ Եթե հիշողությունը դանդաղում է, դրանք փառաբանվում են որպես տաքացուցիչներ։ NVIDIA GPUDirect Storage-ի վերացնում են պրոցեսորի միջնորդի դերը՝ տվյալները ուղղակիորեն NVMe-ից տեղափոխելով գրաֆիկական պրոցեսորի հիշողություն՝ հենց այն, ինչին ձգտում է մեծ խմբաքանակի վերապատրաստումը [4]:

Հաճախակի ուղղումներ՝

  • NVMe all-flash՝ տաք մարզումների բեկորների համար։

  • Զուգահեռ ֆայլային համակարգեր (Lustre, Spectrum Scale) բազմահանգույց թողունակության համար։

  • Ասինխրոն բեռնիչներ՝ sharding + prefetch ֆունկցիայով, որոնք կանխում են GPU-ների անգործուն աշխատանքը։


Գործնական քայլեր արհեստական ​​ինտելեկտի պահեստը կառավարելու համար 🛠️

  • Թիերիավորում . տաք բեկորներ NVMe/SSD-ի վրա; հնացած հավաքածուները արխիվացնել օբյեկտային կամ սառը թիերների մեջ։

  • Dedup + delta : Բազային գծերը պահում է մեկ անգամ, թողնում միայն տարբերությունները + մանիֆեստները։

  • Կյանքի ցիկլի կանոններ ՝ ավտոմատ մակարդակավորում և հին ելքերի ժամկետի ավարտ [2]:

  • 3-2-1 դիմացկունություն . Միշտ պահեք բազմաթիվ օրինակներ, տարբեր կրիչներում, որոնցից մեկը մեկուսացված է [3]:

  • Գործիքավորում ՝ հետևման թողունակություն, p95/p99 ուշացումներ, անհաջող ընթերցումներ, ելք աշխատանքային ծանրաբեռնվածության պատճառով։


Արագ (հորինված, բայց տիպիկ) դեպք 📚

Տեսողական թիմը սկսում է իր աշխատանքը մոտ 20 ՏԲ ամպային օբյեկտային պահեստով։ Ավելի ուշ նրանք սկսում են կլոնավորել տվյալների հավաքածուները տարբեր տարածաշրջաններում՝ փորձերի համար։ Նրանց ծախսերը մեծանում են՝ ոչ թե պահեստից, այլ ելքային երթևեկությունից ։ Նրանք տեղափոխում են տաք շարդերը NVMe՝ GPU կլաստերի մոտ, պահպանում են կանոնիկ պատճենը օբյեկտային պահեստում (կյանքի ցիկլի կանոններով) և ամրացնում են միայն անհրաժեշտ նմուշները։ Արդյունք՝ GPU-ներն ավելի ծանրաբեռնված են, հաշիվները՝ ավելի քիչ, և տվյալների հիգիենան բարելավվում է։


Ծրարի հետևից տարողունակության պլանավորում 🧮

Գնահատման մոտավոր բանաձև.

Տարողություն ≈ (Հում տվյալների հավաքածու) × (Կրկնօրինակման գործակից) + (Նախապես մշակված / լրացված տվյալներ) + (Հսկիչ կետեր + Գրանցամատյաններ) + (Անվտանգության մարժա ~15–30%)

Այնուհետև «sanity»-ն այն ստուգում է թողունակության համեմատ։ Եթե յուրաքանչյուր հանգույցի բեռնիչները պահանջում են մոտ 2–4 ԳԲ/վրկ կայունություն, ապա դուք դիտարկում եք NVMe կամ զուգահեռ FS՝ տաք ուղիների համար, որտեղ օբյեկտների պահեստավորումը որպես հիմնական ճշմարտություն է։


Խոսքը միայն տարածության մասին չէ 📊

Երբ մարդիկ ասում են արհեստական ​​բանականության պահեստավորման պահանջներ , նրանք պատկերացնում են տերաբայթեր կամ պետաբայթեր: Սակայն իրական հնարքը հավասարակշռությունն է՝ արժեքն ընդդեմ արդյունավետության, ճկունությունն ընդդեմ համապատասխանության, նորարարությունն ընդդեմ կայունության: Արհեստական ​​բանականության տվյալները շուտով չեն կրճատվի: Թիմերը, որոնք պահեստավորումը վաղ են ներառում մոդելի նախագծման մեջ, խուսափում են տվյալների ճահճուտներում խեղդվելուց, և նրանք նաև ավելի արագ են մարզվում:


Հղումներ

[1] Ռուսակովսկի և այլք։ ImageNet Large Scale Visual Recognition Challenge (IJCV) — տվյալների հավաքածուի մասշտաբ և մարտահրավեր։ Հղում
[2] AWS — Amazon S3 գնագոյացում և ծախսեր (տվյալների փոխանցում, ելք, կյանքի ցիկլի մակարդակներ)։ Հղում
[3] CISA — 3-2-1 պահուստավորման կանոնների խորհրդատվություն։ Հղում
[4] NVIDIA Docs — GPUDirect Storage-ի ակնարկ։ Հղում
[5] ICO — Մեծ Բրիտանիայի GDPR կանոններ միջազգային տվյալների փոխանցման վերաբերյալ։ Հղում


Գտեք արհեստական ​​բանականության վերջին նորույթները պաշտոնական արհեստական ​​բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ