Երբ մարդկանց մեծ մասը լսում է «արհեստական բանականություն» բառը, նրանք պատկերացնում են նեյրոնային ցանցեր, տարօրինակ ալգորիթմներ կամ գուցե այդ մի փոքր տարօրինակ մարդակերպ ռոբոտները: Այն, ինչ հազվադեպ է անմիջապես նշվում, հետևյալն է. արհեստական բանականությունը պահեստը կլանում է գրեթե նույնքան անհագ, որքան հաշվարկներ է անում : Եվ ոչ թե ցանկացած պահեստային օբյեկտի պահեստը լուռ նստում է ֆոնին՝ կատարելով ոչ այնքան հմայիչ, բայց բացարձակապես կարևոր աշխատանքը՝ մոդելներին անհրաժեշտ տվյալները մատակարարելով:
Եկեք բացատրենք, թե ինչն է օբյեկտների պահեստավորումը դարձնում այդքան կարևոր արհեստական բանականության համար, ինչո՞վ է այն տարբերվում պահեստավորման համակարգերի «հին գվարդիայից» և ինչու է այն դառնում մասշտաբայնության և արդյունավետության հիմնական լծակներից մեկը։.
Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո
🔗 Ինչ տեխնոլոգիաներ պետք է լինեն բիզնեսի համար լայնածավալ գեներատիվ արհեստական բանականություն օգտագործելու համար
Հիմնական տեխնոլոգիաները, որոնք բիզնեսներին անհրաժեշտ են գեներատիվ արհեստական բանականության արդյունավետ ընդլայնման համար։.
🔗 Արհեստական բանականության գործիքների տվյալների կառավարում, որը պետք է դիտարկել
Արհեստական բանականության արդյունավետությունը օպտիմալացնելու համար տվյալների մշակման լավագույն փորձը։.
🔗 Արհեստական բանականության ազդեցությունը բիզնես ռազմավարության վրա
Ինչպես է արհեստական բանականությունը ազդում բիզնես ռազմավարությունների և երկարաժամկետ որոշումների կայացման վրա։.
Ի՞նչն է օբյեկտների պահեստավորումը դարձնում արհեստական բանականության համար կարևոր։ 🌟
Հիմնական գաղափարն այն է, որ օբյեկտների պահեստավորումը չի վերաբերում թղթապանակներին կամ կոշտ բլոկների դասավորությանը: Այն տվյալները բաժանում է «օբյեկտների», որոնցից յուրաքանչյուրը պիտակավորված է մետատվյալներով: Այդ մետատվյալները կարող են լինել համակարգային մակարդակի բաներ (չափս, ժամանակային նշաններ, պահեստավորման դաս) և օգտատիրոջ կողմից սահմանված key:value պիտակներ [1]: Պատկերացրեք այն որպես յուրաքանչյուր ֆայլ, որը պարունակում է կպչուն թղթերի կույտ, որոնք ձեզ ճշգրիտ ասում են, թե ինչ է այն, ինչպես է ստեղծվել և որտեղ է այն տեղավորվում ձեր աշխատանքային գծում:
Արհեստական բանականության թիմերի համար այդ ճկունությունը խաղի կանոնները փոխող գործոն է
-
Մասշտաբավորում առանց միգրենի . Տվյալների լճերը տարածվում են պետաբայթերի, և օբյեկտների պահեստները հեշտությամբ են կարգավորում դրանք: Դրանք նախատեսված են գրեթե անսահմանափակ աճի և բազմազգ AZ-ի կայունության համար (Amazon S3-ը լռելյայնորեն պարծենում է «11 իններ»-ով և միջգոտային կրկնօրինակմամբ) [2]:
-
Մետատվյալների հարստություն - Ավելի արագ որոնումներ, ավելի մաքուր ֆիլտրեր և ավելի խելացի խողովակաշարեր, քանի որ համատեքստը համընկնում է յուրաքանչյուր օբյեկտի հետ [1]:
-
Cloud-native - Տվյալները ստացվում են HTTP(S)-ի միջոցով, ինչը նշանակում է, որ դուք կարող եք զուգահեռաբար pull-եր անել և պահպանել բաշխված մարզումների բզզոցը։
-
Դիմացկունություն - Երբ օրերով մարզվում եք, չեք կարող ռիսկի դիմել վնասված shard killing epoch 12-ի համար: Օբյեկտների պահեստավորումը նախագծված կերպով կանխում է դա [2]:
Այն, ըստ էության, անհատակ մեջքի պայուսակ է. գուցե ներսը խառնաշփոթ է, բայց ամեն ինչ կարելի է գտնել, երբ ձեռքդ մեկնում ես դրան։.
Արհեստական բանականության օբյեկտների պահպանման արագ համեմատական աղյուսակ 🗂️
| Գործիք / Ծառայություն | Լավագույնը (հանդիսատեսի համար) | Գնային միջակայք | Ինչու է այն աշխատում (նշումներ լուսանցքներում) |
|---|---|---|---|
| Amazon S3 | Ձեռնարկություններ + ամպային թիմեր | Վճարեք ըստ օգտագործման | Չափազանց դիմացկուն, տարածաշրջանային առումով դիմացկուն [2] |
| Google ամպային պահեստ | Տվյալների գիտնականներ և մեքենայական ուսուցման մշակողներ | ճկուն մակարդակներ | Հզոր մեքենայական ուսուցման ինտեգրացիաներ, լիովին ամպային-բնածին |
| Azure Blob պահեստավորում | Microsoft-ի խոշոր խանութներ | Շերտավոր (տաք/սառը) | Անխափան համագործակցություն Azure-ի տվյալների + ML գործիքակազմի հետ |
| ՄինիՕ | Բաց կոդով / ինքնուրույն կարգավորումներ | Անվճար/ինքնամատակարարում | S3-համատեղելի, թեթև, տեղակայելի ամենուրեք 🚀 |
| Վասաբիի տաք ամպ | Ծախսերի նկատմամբ զգայուն կազմակերպություններ | Հաստատուն ցածր գին $ | Ելքի կամ API հարցման վճարներ չկան (ըստ քաղաքականության) [3] |
| IBM Cloud Object Storage | Խոշոր ձեռնարկություններ | Տարբեր է | Հասուն փաթեթ՝ հզոր ձեռնարկության անվտանգության տարբերակներով |
Միշտ խելամտորեն ստուգեք գները ձեր իրական օգտագործման հետ համեմատած, մասնավորապես՝ ելքային ծախսերի, հարցումների ծավալի և պահեստավորման դասի համադրության հետ։.
Ինչու է արհեստական բանականության մարզումը սիրում օբյեկտների պահպանումը 🧠
Ուսուցումը «մի բուռ ֆայլեր» չէ։ Այն միլիոնավոր գրառումների զուգահեռ ջարդում է։ Հիերարխիկ ֆայլային համակարգերը տատանվում են ծանր զուգահեռության պայմաններում։ Օբյեկտների պահեստավորումը շրջանցում է դա հարթ անվանատարածքների և մաքուր API-ների շնորհիվ։ Յուրաքանչյուր օբյեկտ ունի եզակի բանալի. աշխատողները տարածվում և բեռնվում են զուգահեռ։ Բեկորացված տվյալների բազմություններ + զուգահեռ մուտք/ելք = GPU-ները զբաղված են մնում՝ փոխարենը սպասելու։
Խորհուրդ՝ տաք բեկորները պահեք հաշվողական կլաստերի մոտ (նույն տարածաշրջանում կամ գոտում) և ագրեսիվ կերպով քեշավորեք SSD-ի վրա: Եթե ձեզ անհրաժեշտ է գրեթե ուղիղ միացումներ GPU-ներին, ապա NVIDIA GPUDirect Storage-ը արժե դիտարկել. այն կրճատում է CPU-ի ցատկի բուֆերները, կրճատում է լատենտությունը և բարձրացնում թողունակությունը անմիջապես արագացուցիչների վրա [4]:
Մետատվյալներ՝ թերագնահատված գերուժը 🪄
Ահա թե որտեղ է օբյեկտների պահեստավորումը փայլում ոչ այնքան ակնհայտ ձևերով։ Վերբեռնման ժամանակ կարող եք կցել հատուկ մետատվյալներ (օրինակ՝ x-amz-meta-… S3-ի համար)։ Օրինակ՝ տեսողության տվյալների հավաքածուն կարող է պատկերներին պիտակավորել lighting=low կամ blur=high : Դա թույլ է տալիս խողովակաշարերը ֆիլտրել, հավասարակշռել կամ շերտավորել առանց հում ֆայլերը վերասկանավորելու [1]:
Եվ հետո կա տարբերակումը ։ Շատ օբյեկտների պահեստներ կողք կողքի պահում են օբյեկտի բազմաթիվ տարբերակներ՝ իդեալական վերարտադրելի փորձերի կամ կառավարման քաղաքականության համար, որոնք պահանջում են չեղարկումներ [5]:
Օբյեկտ vs Բլոկ vs Ֆայլերի Պահեստավորում ⚔️
-
Բլոկների պահեստավորում . Հիանալի է գործարքային տվյալների բազաների համար՝ արագ և ճշգրիտ, բայց չափազանց թանկ է պետաբայթերի մասշտաբի չկառուցվածքային տվյալների համար։
-
Ֆայլերի պահեստավորում . ծանոթ է, POSIX-հարմար, բայց գրացուցակները խեղդվում են զուգահեռ ծանրաբեռնվածության պատճառով։
-
Օբյեկտների պահեստավորում . նախագծված է զրոյից՝ մասշտաբի, զուգահեռության և մետատվյալների վրա հիմնված մուտքի համար [1]:
Եթե ուզում եք անհարմար փոխաբերություն. բլոկների պահեստը արխիվային պահարան է, ֆայլերի պահեստը՝ աշխատասեղանի թղթապանակ, իսկ օբյեկտների պահեստը… անհատակ փոս է՝ կպչուն թղթերով, որոնք ինչ-որ կերպ այն օգտագործելի են դարձնում։.
Հիբրիդային արհեստական բանականության աշխատանքային հոսքեր 🔀
Այն միշտ չէ, որ միայն ամպային է։ Հաճախակի համադրությունը հետևյալն է
-
Տեղական օբյեկտների պահեստավորում (MinIO, Dell ECS) զգայուն կամ կարգավորվող տվյալների համար։
-
Ամպային օբյեկտների պահեստավորում պայթյունային աշխատանքային բեռների, փորձերի կամ համագործակցության համար։
Այս հավասարակշռությունը ազդում է արժեքի, համապատասխանության և ճկունության վրա: Ես տեսել եմ, թե ինչպես են թիմերը բառացիորեն մեկ գիշերվա ընթացքում տերաբայթեր թափում S3 դույլի մեջ՝ պարզապես ժամանակավոր GPU կլաստերը վառելու համար, ապա սպրինտի ավարտից հետո այն ամբողջությամբ միջուկային անջատում: Ավելի սահմանափակ բյուջեների դեպքում Wasabi-ի ֆիքսված/առանց ելքի մոդելը [3] կյանքը դարձնում է ավելի հեշտ կանխատեսելի:.
Այն մասը, որով ոչ ոք չի պարծենում 😅
Իրականության ստուգում. այն անթերի չէ։.
-
Լատենտություն - Հաշվողական և պահեստային համակարգերը միմյանցից շատ հեռու տեղադրելով՝ ձեր գրաֆիկական պրոցեսորները կսկանավորվեն։ GDS-ը օգնում է, բայց ճարտարապետությունը դեռևս կարևոր է [4]:
-
Արժեքային անակնկալներ . ելքի և API հարցումների վճարները աննկատելիորեն կուտակվում են մարդկանց վրա: Որոշ մատակարարներ հրաժարվում են դրանցից (Wasabi-ն անում է, մյուսները՝ ոչ) [3]:
-
Մետատվյալների քաոսը մասշտաբով . Ո՞վ է սահմանում «ճշմարտությունը» թեգերում և տարբերակներում: Ձեզ անհրաժեշտ կլինեն պայմանագրեր, քաղաքականություն և որոշակի կառավարման ուժ [5]:
Առարկաների պահեստավորումը ենթակառուցվածքների ջրամատակարարում է. կարևորագույն, բայց ոչ հմայիչ։.
Ուր է այն ուղղվում 🚀
-
Ավելի խելացի, արհեստական բանականությանը համապատասխանող պահեստավորում , որը ավտոմատ կերպով պիտակավորում և բացահայտում է տվյալները SQL-անման հարցման շերտերի միջոցով [1]:
-
Ավելի սերտ սարքավորումների ինտեգրում (DMA ուղիներ, NIC-ի բեռնաթափումներ), որպեսզի գրաֆիկական պրոցեսորները չզրկվեն մուտքից/ելքից [4]:
-
Թափանցիկ, կանխատեսելի գնագոյացում (պարզեցված մոդելներ, ազատված ելքային վճարներից) [3]:
Մարդիկ խոսում են հաշվարկների մասին որպես արհեստական բանականության ապագայի։ Բայց իրատեսորեն՞։ Խնդիրը նույնքան կապված է տվյալների մոդելներին արագ մատակարարման հետ՝ առանց բյուջեն մեծացնելու ։ Ահա թե ինչու օբյեկտների պահեստավորման դերը միայն աճում է։
Ամփոփում 📝
Օբյեկտների պահեստավորումը շռայլ չէ, բայց հիմնարար է։ Առանց մասշտաբային, մետատվյալներին համապատասխանող, դիմացկուն պահեստավորման, մեծ մոդելների մարզումը նման է սանդալներով մարաթոն վազելուն։.
Այո՛, գրաֆիկական պրոցեսորները կարևոր են, շրջանակները կարևոր են։ Բայց եթե լուրջ եք վերաբերվում արհեստական բանականությանը, մի՛ անտեսեք, թե որտեղ են գտնվում ձեր տվյալները ։ Հավանական է, որ օբյեկտների պահեստավորումն արդեն իսկ աննկատ կերպով պահում է ամբողջ գործողությունը։
Հղումներ
[1] AWS S3 – Օբյեկտի մետատվյալներ - համակարգային և հատուկ մետատվյալներ
https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingMetadata.html
[2] AWS S3 – Պահեստավորման դասեր - դիմացկունություն («11 իններ») + դիմացկունություն
https://aws.amazon.com/s3/storage-classes/
[3] Wasabi Hot Cloud – Գնագոյացում - ֆիքսված գին, առանց ելքի/API վճարների
https://wasabi.com/pricing
[4] NVIDIA GPUDirect Storage – Փաստաթղթեր - DMA ուղիներ դեպի GPU-ներ
https://docs.nvidia.com/gpudirect-storage/
[5] AWS S3 – Տարբերակներ - կառավարման/վերարտադրելիության համար բազմակի տարբերակներ
https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html