Ինչպե՞ս է աշխատում արհեստական բանականության բարձրացումը (AI Upscaling):

Կարճ պատասխան. Արհեստական բանականության բարձրացումը գործում է՝ մոդելը մարզելով ցածր և բարձր թույլտվությամբ զույգ պատկերների վրա, այնուհետև դրանք օգտագործելով՝ աճի ընթացքում հավաստի լրացուցիչ պիքսելներ կանխատեսելու համար: Եթե մոդելը մարզման ընթացքում տեսել է նմանատիպ հյուսվածքներ կամ դեմքեր, այն կարող է համոզիչ մանրամասներ ավելացնել. եթե ոչ, այն կարող է «հալյուցինացիաներ» առաջացնել տեսանյութում, ինչպիսիք են հալոները, մոմապատ մաշկը կամ թարթումը:

Հիմնական եզրակացություններ՝

Կանխատեսում. Մոդելը ստեղծում է հավանական մանրամասներ, այլ ոչ թե իրականության երաշխավորված վերակառուցում։

Մոդելի ընտրություն. CNN-ները հակված են ավելի կայուն լինելու. GAN-ները կարող են ավելի սուր տեսք ունենալ, բայց ռիսկի են դիմում ստեղծել նոր գործառույթներ։

Արտեֆակտների ստուգում. ուշադրություն դարձրեք լուսապսակներին, կրկնվող հյուսվածքներին, «գրեթե տառերին» և պլաստիկ դեմքերին։

Տեսանյութի կայունություն. Օգտագործեք ժամանակային մեթոդներ, հակառակ դեպքում կտեսնեք կադրից կադր փայլատակում և տեղաշարժ։

Բարձր ռիսկային օգտագործում. Եթե ճշգրտությունը կարևոր է, բացահայտեք մշակումը և արդյունքները համարեք օրինակելի։

Ինչպե՞ս է աշխատում արհեստական բանականության արդիականացումը։ Ինֆոգրաֆիկա։.

Դուք հավանաբար տեսել եք. փոքրիկ, ճռճռան պատկերը վերածվում է բավականաչափ ճռճռանի՝ առանց ցնցվելու տպելու, հոսքային դիտելու կամ ներկայացման մեջ դնելու համար։ Դա խաբեության է նման։ Եվ՝ լավագույն իմաստով՝ այդպես էլ կա 😅

Այսպիսով, արհեստական բանականության միջոցով սքեյլինգի աշխատանքի սկզբունքը հանգում է ավելի կոնկրետ բանի, քան «համակարգիչը բարելավում է մանրամասները» (ձեռքի ալիքավոր ձևաչափով) և ավելի մոտ է «մոդելը կանխատեսում է հավանական բարձր թույլտվության կառուցվածք՝ հիմնվելով բազմաթիվ օրինակներից ստացված օրինաչափությունների վրա» (Deep Learning for Image Super-resolution: A Survey): Այդ կանխատեսման քայլը ամբողջ խաղն է, և այդ պատճառով էլ արհեստական բանականության միջոցով սքեյլինգը կարող է ապշեցուցիչ տեսք ունենալ… կամ մի փոքր պլաստիկ… կամ ինչպես ձեր կատվի մոտ լրացուցիչ բեղեր են աճեցվել:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո

🔗 Ինչպես է աշխատում արհեստական բանականությունը
Սովորեք արհեստական բանականության մեջ մոդելների, տվյալների և եզրակացությունների հիմունքները։.

🔗 Ինչպես է արհեստական բանականությունը սովորում
Տեսեք, թե ինչպես են մարզման տվյալները և հետադարձ կապը ժամանակի ընթացքում բարելավում մոդելի աշխատանքը։.

🔗 Ինչպես է արհեստական բանականությունը հայտնաբերում անոմալիաները
Հասկացեք օրինաչափությունների ելակետային գծերը և թե ինչպես է արհեստական բանականությունը արագորեն հայտնաբերում անսովոր վարքագիծը։.

🔗 Ինչպես է արհեստական բանականությունը կանխատեսում միտումները
Ուսումնասիրեք կանխատեսման մեթոդները, որոնք հայտնաբերում են ազդանշանները և կանխատեսում ապագա պահանջարկը։.

Ինչպես է աշխատում արհեստական բանականության արդիականացումը. հիմնական գաղափարը՝ առօրյա բառերով 🧩

Մեծացում նշանակում է թույլտվության բարձրացում. ավելի շատ պիքսելներ, ավելի մեծ պատկեր: Ավանդական մեծացումը (ինչպես երկխորանարդայինը) հիմնականում ձգում է պիքսելները և հարթեցնում անցումները (երկխորանարդային ինտերպոլյացիա): Այն լավ է, բայց այն չի կարող նոր մանրամասներ հորինել՝ այն պարզապես ինտերպոլյացիա է անում:

Արհեստական բանականության բարձրացումը փորձում է ավելի համարձակ մի բան (հետազոտական աշխարհում հայտնի է որպես «գերլուծաչափ») (Խորը ուսուցում պատկերի գերլուծաչափի համար. Հարցում):

Այն նայում է ցածր թույլտվությամբ մուտքին
Ճանաչում է նախշերը (եզրեր, հյուսվածքներ, դեմքի գծեր, տեքստի գծեր, գործվածքի հյուսվածք և այլն):
ավելի բարձր թույլտվությամբ տարբերակը պետք է լինի
Ստեղծում է լրացուցիչ պիքսելային տվյալներ, որոնք համապատասխանում են այդ նախշերին

Ոչ թե «իրականությունը կատարելապես վերականգնել», այլ ավելի շուտ «շատ հավաստի ենթադրություն անել» (Image Super-Resolution Using Deep Convolutional Networks (SRCNN)): Եթե դա մի փոքր կասկածելի է հնչում, դուք չեք սխալվում, բայց նաև դա է պատճառը, որ այն այդքան լավ է աշխատում 😄

Եվ այո, սա նշանակում է, որ արհեստական բանականության միջոցով արդիականացումը, ըստ էության, վերահսկվող հալյուցինացիա է… բայց արդյունավետ, պիքսելները հարգող ձևով։.

Ի՞նչն է արհեստական բանականության միջոցով արդիականացման տարբերակը դարձնում լավը։ ✅🛠️

Եթե դուք գնահատում եք արհեստական բանականության բարձրացման գործիքը (կամ կարգավորումների նախադրված տարբերակը), ահա թե ինչն է ամենակարևորը

Մանրամասների վերականգնում առանց չափից շատ եփելու։
Լավ չափաբաժնի բարձրացումը հաղորդում է թարմություն և կառուցվածք, այլ ոչ թե ճռճռան աղմուկ կամ կեղծ ծակոտիներ։
Եզրերի կարգապահություն։
Մաքուր գծերը մնում են մաքուր։ Վատ մոդելները եզրերը տատանում կամ լուսապսակներ են առաջացնում։
Հյուսվածքային ռեալիզմ։
Մազերը չպետք է դառնան վրձնի հարված։ Աղյուսը չպետք է դառնա կրկնվող նախշի դրոշմ։
Շर्यानारान և սեղմման կառավարում։
Շատ առօրյա պատկերներ JPEG ֆորմատով մահացու են։ Լավ upscaler-ը չի ուժեղացնում այդ վնասը (Real-ESRGAN):
Դեմքի և տեքստի ընկալում։
Դեմքերը և տեքստը սխալները նկատելու ամենահեշտ վայրերն են։ Լավ մոդելները դրանց վերաբերվում են նրբանկատորեն (կամ ունեն մասնագիտացված ռեժիմներ)։
Համապատասխանություն կադրերի միջև (տեսանյութի համար):
Եթե մանրամասները թարթում են կադրից կադր, ձեր աչքերը կճչան: Տեսանյութի մասշտաբի բարձրացումը կամ կենդանի է, կամ մեռնում է ժամանակային կայունության շնորհիվ (BasicVSR (CVPR 2021)):
Իմաստալից կառավարման տարրեր։
Ձեզ անհրաժեշտ են սահիկներ, որոնք համապատասխանում են իրական արդյունքներին. աղմուկի նվազեցում, մշուշոտության հեռացում, արտեֆակտների հեռացում, հատիկի պահպանում, սրացում… գործնական բաները։

Հանգիստ կանոն, որը գործում է. «լավագույն» բարձրացումը հաճախ այն է, որը դուք հազիվ եք նկատում: Պարզապես թվում է, թե սկզբում ավելի լավ տեսախցիկ եք ունեցել 📷✨

Համեմատական աղյուսակ. արհեստական ինտելեկտի միջոցով բարելավման հայտնի տարբերակներ (և ինչի համար են դրանք օգտակար) 📊🙂

Ստորև ներկայացված է գործնական համեմատություն։ Գները միտումնավոր անորոշ են, քանի որ գործիքները տարբերվում են՝ կախված լիցենզիայից, փաթեթներից, հաշվողական ծախսերից և այդ բոլոր զվարճալի բաներից։.

Գործիք / մոտեցում	Լավագույնը	Գնային տրամադրություն	Ինչու է այն աշխատում (մոտավորապես)
Topaz ոճի սեղանի բարձրացնող սարքեր (Topaz Photo, Topaz Video)	Լուսանկարներ, տեսանյութեր, հեշտ աշխատանքային գործընթաց	Վճարովի	Ուժեղ ընդհանուր մոդելներ + շատ կարգաբերում, հակված են «պարզապես աշխատել»… հիմնականում
Adobe-ի «Super Resolution» տիպի գործառույթներ (Adobe Enhance > Super Resolution)	Լուսանկարիչներ, որոնք արդեն իսկ այդ էկոհամակարգում են	Բաժանորդագրություն	Մանրամասների ամուր վերակառուցում, սովորաբար պահպանողական (ավելի քիչ դրամատիզմ)
Real-ESRGAN / ESRGAN տարբերակներ (Real-ESRGAN, ESRGAN)	Ինքնուրույն աշխատանք, մշակողներ, խմբային աշխատանքներ	Անվճար (բայց ժամանակատար)	Հիանալի է հյուսվածքի մանրամասների համար, կարող է կծու լինել դեմքերի վրա, եթե զգույշ չլինեք
Դիֆուզիայի վրա հիմնված բարձրացման ռեժիմներ (SR3)	Ստեղծագործական աշխատանք, ոճավորված արդյունքներ	Խառը	Կարող է ստեղծել հիասքանչ մանրամասներ, կարող է նաև անհեթեթություններ հորինել, այնպես որ… այո
Խաղի որակի բարձրացման սարքեր (DLSS/FSR ոճով) (NVIDIA DLSS, AMD FSR 2)	Իրական ժամանակի խաղեր և ցուցադրում	Փաթեթավորված	Օգտագործում է շարժման տվյալներ և սովորած նախորդներ՝ հարթ կատարողականի հաղթանակ 🕹️
Ամպային բարձրացման ծառայություններ	Հարմարավետություն, արագ հաղթանակներ	Վճարել օգտագործման համար	Արագ + մասշտաբային, բայց դուք փոխանակում եք վերահսկողությունը և երբեմն նրբությունը
Տեսանյութերի վրա կենտրոնացած արհեստական բանականության բարելավիչներ (BasicVSR, Topaz Video)	Հին կադրեր, անիմե, արխիվներ	Վճարովի	Ժամանակավոր հնարքներ թարթումը նվազեցնելու համար + մասնագիտացված տեսամոդելներ
«Խելացի» հեռախոսի/պատկերասրահի ընդլայնում	Անկանոն օգտագործում	Ներառված է	Թեթև մոդելներ, որոնք կարգավորվել են հաճելի արդյունքի համար, այլ ոչ թե կատարելության (դեռևս հարմար են)

Ձևաչափման առանձնահատկության խոստովանություն. «Paid-ish»-ը շատ աշխատանք է կատարում այդ աղյուսակում։ Բայց դուք հասկացաք գաղափարը 😅

Մեծ գաղտնիքը. մոդելները սովորում են ցածր թույլտվությունից բարձր թույլտվության անցում կատարել 🧠➡️🖼️

Արհեստական ինտելեկտի միջոցով իրականացվող արդիականացման մեծ մասի հիմքում ընկած է վերահսկվող ուսուցման համակարգը (պատկերի գերլուծաչափ՝ խորը կոնվոլյուցիոն ցանցերի միջոցով (SRCNN)):

Սկսեք բարձր թույլտվությամբ պատկերներից («ճշմարտությունը»)
Նվազեցրեք դրանք ցածր թույլտվությամբ տարբերակների («մուտքային»)
Մարզեք մոդել՝ ցածր թույլտվությամբ լուսանկարը բարձր թույլտվությամբ վերականգնելու համար

Ժամանակի ընթացքում մոդելը սովորում է հետևյալ համակցությունները

«Աչքի շուրջ այս տեսակի մշուշը սովորաբար բնորոշ է թարթիչներին»
«Այս պիքսելային կլաստերը հաճախ ցույց է տալիս սերիֆ տեքստ»
«Այս եզրային գրադիենտը տանիքի գծի տեսք ունի, այլ ոչ թե պատահական աղմուկի»

Դա կոնկրետ պատկերների անգիր սովորելը չէ (պարզ իմաստով), այլ վիճակագրական կառուցվածքի ուսուցում է (Deep Learning for Image Super-resolution: A Survey): Պատկերացրեք դա որպես հյուսվածքների և եզրերի քերականություն սովորելը: Ոչ թե պոեզիայի քերականություն, այլ ավելի շուտ… IKEA-ի ձեռնարկի քերականություն 🪑📦 (անհարմար փոխաբերություն, բայց բավականին մոտ):

Հիմնական սկզբունքները. ինչ է կատարվում եզրակացության ժամանակ (երբ դուք բարձրացնում եք մասշտաբը) ⚙️✨

Երբ դուք պատկեր եք ներմուծում արհեստական ինտելեկտի բարելավման սարքի մեջ, սովորաբար կա հետևյալ գործընթացը՝

Նախնական մշակում
- Գունային տարածության փոխակերպում (երբեմն)
- Նորմալացնել պիքսելային արժեքները
- Եթե պատկերը մեծ է, բաժանեք կտորների (VRAM իրականության ստուգում 😭) (Real-ESRGAN պահոց (խճանկարների տարբերակներ))
Հատկանիշների արդյունահանում
- Վաղ շերտերը հայտնաբերում են եզրեր, անկյուններ, թեքություններ
- Ավելի խորը շերտերը հայտնաբերում են նախշեր՝ հյուսվածքներ, ձևեր, դեմքի բաղադրիչներ
Վերակառուցում
- Մոդելը ստեղծում է ավելի բարձր թույլտվությամբ հատկանիշների քարտեզ
- Այնուհետև դա վերածում է իրական պիքսելային արդյունքի
Հետմշակում
- Լրացուցիչ սրում
- Ըստ ցանկության՝ աղմուկի նվազեցում
- Արտեֆակտների (զանգերի, հալոների, խցանման) լրացուցիչ ճնշում

Մեկ նուրբ մանրուք. շատ գործիքներ բարձրացնում են սալիկների չափսերը, ապա խառնում են կարերը: Հիանալի գործիքները թաքցնում են սալիկների սահմանները: Մեխանիկական գործիքները թողնում են թույլ ցանցի հետքեր, եթե կկոցեք աչքերը: Եվ այո, դուք կկոցեք աչքերը, քանի որ մարդիկ սիրում են զննել մանր թերությունները 300% մեծացմամբ, ինչպես փոքրիկ գրեմլինները 🧌

Արհեստական բանականության բարձրացման համար օգտագործվող հիմնական մոդելների ընտանիքները (և թե ինչու են դրանք տարբերվում միմյանցից) 🤖📚

1) CNN-ի վրա հիմնված գերլուծաչափ (դասական աշխատանքային ձի)

Կոնվոլյուցիոն նեյրոնային ցանցերը հիանալի են տեղային օրինաչափությունների՝ եզրերի, հյուսվածքների, փոքր կառուցվածքների համար (Պատկերի գերլուծաչափ՝ խորը կոնվոլյուցիոն ցանցերի միջոցով (SRCNN)):

Առավելություններ՝ արագ, կայուն, ավելի քիչ անակնկալներ
Թերություններ՝ կարող է մի փոքր «մշակված» թվալ, եթե շատ սեղմվի

2) GAN-ի վրա հիմնված բարձրացում (ESRGAN ոճով) 🎭

GAN-ները (Գեներատիվ հակառակորդական ցանցեր) մարզում են գեներատորին ստեղծելու բարձր թույլտվության պատկերներ, որոնք տարբերակողը չի կարող տարբերակել իրականից (Գեներատիվ հակառակորդական ցանցեր):

Առավելություններ՝ վառ մանրամասներ, տպավորիչ հյուսվածք
Թերություններ՝ կարող է հորինել մանրամասներ, որոնք գոյություն չունեն՝ երբեմն սխալ, երբեմն՝ արտասովոր (SRGAN, ESRGAN):

GAN-ը կարող է ձեզ տալ ապշեցուցիչ սրություն։ Այն նաև կարող է ձեր դիմանկարին լրացուցիչ հոնք հաղորդել։ Այսպիսով… ընտրեք ձեր մարտերը 😬

3) Դիֆուզիայի վրա հիմնված արդիականացում (ստեղծագործական վայրի քարտ) 🌫️➡️🖼️

Դիֆուզիոն մոդելները քայլ առ քայլ ջնջում են աղմուկը և կարող են ուղղորդվել բարձր թույլտվությամբ մանրամասներ ստանալու համար (SR3):

Առավելություններ՝ կարող է աներևակայելիորեն լավ լինել հավանական մանրամասների մեջ, հատկապես ստեղծագործական աշխատանքի համար
Թերություններ՝ կարող է շեղվել սկզբնական ինքնությունից/կառուցվածքից, եթե կարգավորումները ագրեսիվ են (SR3)

Ահա թե որտեղ է «բարձրացումը» սկսում միախառնվել «վերաիմաստավորմանը»։ Երբեմն դա հենց այն է, ինչ դուք ուզում եք։ Երբեմն՝ ոչ։.

4) Տեսանյութի արդիականացում ժամանակային համապատասխանությամբ 🎞️

Տեսանյութի մասշտաբի բարձրացումը հաճախ ավելացնում է շարժման գիտակցող տրամաբանություն։

Օգտագործում է հարևան կադրերը՝ մանրամասները կայունացնելու համար (BasicVSR (CVPR 2021))
Փորձում է խուսափել թարթող և սողացող արտեֆակտներից
Հաճախ համատեղում է գերլուծաչափը աղմուկի նվազեցման և ապամիջտեղադրման հետ (Topaz Video)

Եթե պատկերի մասշտաբի բարձրացումը նման է մեկ նկարի վերականգնմանը, ապա տեսանյութի մասշտաբի բարձրացումը նման է գրքույկի վերականգնմանը՝ առանց կերպարի քթի ձևը փոխելու ստիպելու ամեն էջում։ Որը… ավելի դժվար է, քան թվում է։.

Ինչու է արհեստական բանականության միջոցով բարելավումը երբեմն կեղծ թվում (և ինչպես այն նկատել) 👀🚩

Արհեստական բանականության միջոցով արդիականացումը ձախողվում է ճանաչելի ձևերով։ Երբ սովորեք օրինաչափությունները, դրանք կտեսնեք ամենուր, օրինակ՝ նոր մեքենա գնելիս և հանկարծակի այդ մոդելը նկատելիս ամեն փողոցում 😵💫

Ընդհանուրը պատմում է

մաշկի մոմապատում Դեմքի
չափազանց սրված հալոներ (դասական «գերազանցման» տարածք) (երկու խորանարդաձև ինտերպոլյացիա)
Կրկնվող հյուսվածքներ (աղյուսե պատերը վերածվում են պատճենահանված նախշերի)
Խրթխրթան միկրոկոնտրաստ , որը գոռում է «ալգորիթմ»
Տեքստի աղավաղում , որտեղ տառերը գրեթե տառեր են դառնում (ամենավատ տեսակը)
Մանրամասների շեղում , որտեղ փոքր առանձնահատկությունները աննշանորեն փոխվում են, հատկապես դիֆուզիոն աշխատանքային հոսքերում (SR3):

Խճճված մասը. երբեմն այս արտեֆակտները առաջին հայացքից «ավելի լավ» են թվում: Ձեր ուղեղը սիրում է սրությունը: Բայց մի պահ անց այն… անճաշակ է թվում:.

Լավ մարտավարություն է մեծացնել պատկերը և ստուգել, թե արդյոք այն բնական տեսք ունի նորմալ դիտման հեռավորությունից։ Եթե այն լավ տեսք ունի միայն 400% մեծացման դեպքում, դա հաղթանակ չէ, դա հոբբի է 😅

Ինչպես է աշխատում արհեստական բանականության բարձրացումը. մարզման կողմը՝ առանց մաթեմատիկական գլխացավանքի 📉🙂

Գերլուծաչափային մոդելների վարժեցումը սովորաբար ներառում է

Զույգացված տվյալների հավաքածուներ (ցածր թույլտվությամբ մուտքային տվյալներ, բարձր թույլտվությամբ թիրախային տվյալներ) (Պատկերի գեր-լուծաչափ՝ խորը կոնվոլյուցիոն ցանցերի միջոցով (SRCNN))
Կորստի ֆունկցիաներ , որոնք պատժում են սխալ վերակառուցումները (SRGAN)

Կորուստների բնորոշ տեսակները

Պիքսելների կորուստը (L1/L2)
խրախուսում է ճշգրտությունը։ Կարող է մի փոքր թույլ արդյունքներ տալ։
Զգացողության կորուստը
համեմատում է ավելի խորը առանձնահատկությունները (օրինակ՝ «սա նման է՞ » ), այլ ոչ թե ճշգրիտ պիքսելները (Զգացողության կորուստներ (Ջոնսոն և այլք, 2016)):
Հակառակորդական կորուստ (ՀԱԿ)
Խրախուսում է ռեալիզմը, երբեմն՝ բառացի ճշգրտության գնով (SRGAN, Գեներատիվ Հակառակորդական ցանցեր):

Կա անընդհատ պայքար

Դարձրեք այն հավատարիմ բնօրինակին
vs.
Դարձրեք այն տեսողականորեն հաճելի

Այդ սպեկտրի տարբեր մասերում տարբեր գործիքներ են հանդիպում։ Եվ դուք կարող եք նախընտրել դրանցից մեկը՝ կախված նրանից, թե վերականգնում եք ընտանեկան լուսանկարներ, թե պատրաստում եք պաստառ, որտեղ «գեղեցիկ տեսքը» ավելի կարևոր է, քան դատաբժշկական ճշգրտությունը։.

Գործնական աշխատանքային հոսքեր՝ լուսանկարներ, հին սկանավորված լուսանկարներ, անիմե և տեսանյութեր 📸🧾🎥

Լուսանկարներ (դիմանկարներ, բնապատկերներ, արտադրանքի լուսանկարներ)

Լավագույն պրակտիկան սովորաբար հետևյալն է

Սկզբում թեթևակի աղմկազերծեք (անհրաժեշտության դեպքում)
Բարձրակարգ՝ պահպանողական կարգավորումներով
Ավելացրեք հատիկավոր զանգված, եթե ամեն ինչ չափազանց հարթ է թվում (այո, իսկապես)

Հացահատիկը աղի նման է։ Չափից շատը փչացնում է ընթրիքը, բայց ոչ մի բան չի կարող մի փոքր անճաշակ լինել 🍟

Հին սկանավորումներ և խիստ սեղմված պատկերներ

Սրանք ավելի դժվար են, քանի որ մոդելը կարող է սեղմման բլոկները դիտարկել որպես «տեքստուրա»։
Փորձեք՝

Արտեֆակտների հեռացում կամ արգելափակման վերացում
Ապա բարձրակարգ
Ապա լույսի սրացում (ոչ շատ… գիտեմ, բոլորն են դա ասում, բայց միևնույն է)

Անիմե և գծանկար

Գծային արվեստը առավելություններ ունի

Մոդելներ, որոնք պահպանում են մաքուր եզրերը
Նվազեցված հյուսվածքային հալյուցինացիա։
Անիմեի մասշտաբի բարձրացումը հաճախ հիանալի տեսք ունի, քանի որ ձևերն ավելի պարզ և հաստատուն են։ (Բախտավոր է։)

Տեսանյութ

Տեսանյութում ավելացված են լրացուցիչ քայլեր

Աղմուկից ազատում
Դեինտերլեյս (որոշակի աղբյուրների համար)
Բարձրակարգ
Ժամանակային հարթեցում կամ կայունացում (BasicVSR (CVPR 2021))
Հացահատիկի լրացուցիչ վերականգնում՝ համախմբվածության համար

Եթե բաց թողնեք ժամանակային համապատասխանությունը, կտեսնեք այդ փայլուն մանրուքի թարթումը։ Երբ նկատեք այն, այլևս չեք կարող անտեսանելի լինել։ Ինչպես ճռռացող աթոռը լուռ սենյակում 😖

Կարգավորումներ ընտրել առանց շատ կռահելու (փոքրիկ խաբեբա թերթիկ) 🎛️😵💫

Ահա լավ մեկնարկային մտածելակերպ

Եթե դեմքերը պլաստիկ տեսք ունեն,
նվազեցրեք աղմուկի նվազեցումը, սրությունը, փորձեք դեմքը պահպանող մոդել կամ ռեժիմ։
Եթե հյուսվածքները չափազանց ինտենսիվ են թվում,
իջեցրեք «մանրամասների բարելավման» կամ «մանրամասների վերականգնման» սահիկները, դրանից հետո ավելացրեք նուրբ հատիկավորություն։
Եթե եզրերը փայլում են,
նվազեցրեք սրությունը, ստուգեք լուսապսակի ճնշման տարբերակները։
Եթե պատկերը չափազանց «արհեստական» է թվում,
ապա ավելի պահպանողական եղեք։ Երբեմն լավագույն քայլը պարզապես… պակասն է։

Նաև՝ մի՛ մեծացրեք 8x-ը միայն այն պատճառով, որ կարող եք։ Մաքուր 2x-ը կամ 4x-ը հաճախ լավագույն տարբերակն է։ Դրանից զատ, դուք խնդրում եք մոդելին գրել երկրպագուական պատմություններ ձեր պիքսելների մասին 📖😂

Էթիկա, իսկություն և «ճշմարտության» անհարմար հարցը 🧭😬

Արհեստական բանականության միջոցով մասշտաբի բարձրացումը խամրեցնում է սահմանը

Վերականգնումը նշանակում է վերականգնել այն, ինչ կար
Բարելավումը ենթադրում է ավելացնել այն, ինչ չկար

Անձնական լուսանկարների դեպքում սովորաբար դա նորմալ է (և հաճելի): Լրագրության, իրավական ապացույցների, բժշկական պատկերագրության կամ ցանկացած այլ բանի դեպքում, որտեղ հավատարմությունը կարևոր է… դուք պետք է զգույշ լինեք (OSAC/NIST: Դատաբժշկական թվային պատկերների կառավարման ստանդարտ ուղեցույց, SWGDE դատաբժշկական պատկերների վերլուծության ուղեցույցներ):

Պարզ կանոն

Եթե խաղադրույքները բարձր են, արհեստական բանականության բարձրացումը դիտարկեք որպես օրինակ, այլ ոչ թե վերջնական։

Բացի այդ, բացահայտումը կարևոր է մասնագիտական համատեքստերում։ Ոչ թե որովհետև արհեստական բանականությունը չարիք է, այլ որովհետև լսարանը արժանի է իմանալ, թե արդյոք մանրամասները վերականգնվել են, թե արձանագրվել։ Դա պարզապես… հարգալից է։.

Եզրափակիչ նշումներ և կարճ ամփոփում 🧡✅

Այսպիսով, արհեստական բանականության միջոցով վերափոխումը հետևյալն է. մոդելները սովորում են, թե ինչպես են բարձր թույլտվության մանրամասները հակված կապված լինել ցածր թույլտվության օրինաչափությունների հետ, այնուհետև կանխատեսում են հավաստի լրացուցիչ պիքսելներ վերափոխման ընթացքում (Խորը ուսուցում պատկերի գերլուծաչափի համար. Հարցում): Կախված մոդելների ընտանիքից (CNN, GAN, դիֆուզիոն, տեսա-ժամանակավոր), այդ կանխատեսումը կարող է լինել պահպանողական և ճշգրիտ… կամ համարձակ և երբեմն անհամապատասխան 😅

Հակիրճ ամփոփում

Ավանդական բարձրացմանը մեծացնում է պիքսելները (երկու խորանարդ ինտերպոլյացիա)
Արհեստական բանականության բարձրացումը կանխատեսում է բացակայող մանրամասները՝ օգտագործելով սովորած օրինաչափությունները (պատկերի գերլուծաչափ՝ խորը կոնվոլյուցիոն ցանցերի միջոցով (SRCNN)):
Հիանալի արդյունքներ են ստացվում ճիշտ մոդելից + զսպվածությունից
Դիտեք հալոները, մոմե դեմքերը, կրկնվող հյուսվածքները և թարթումը տեսանյութում (BasicVSR (CVPR 2021)):
Բարձրացումը հաճախ «հավանական վերակառուցում» է, այլ ոչ թե կատարյալ ճշմարտություն (SRGAN, ESRGAN):

Եթե ուզում ես, ասա ինձ, թե ինչն ես թարմացնում (դեմքեր, հին լուսանկարներ, տեսանյութեր, անիմե, տեքստի սկանավորում), և ես կառաջարկեմ կարգավորումների ռազմավարություն, որը հակված է խուսափելու «արհեստական մտքի տեսքի» տարածված թակարդներից 🎯🙂

Հաճախակի տրվող հարցեր

Արհեստական բանականության բարձրացում և դրա աշխատանքի սկզբունքը

Արհեստական բանականության միջոցով մասշտաբի բարձրացումը (հաճախ անվանում են «գերլուծաչափ») մեծացնում է պատկերի լուծաչափը՝ կանխատեսելով մարզման ընթացքում սովորած օրինաչափություններից բարձր լուծաչափի բացակայող մանրամասները: Բիկուբիկ ինտերպոլյացիայի նման պիքսելները պարզապես ձգելու փոխարեն, մոդելը ուսումնասիրում է եզրերը, հյուսվածքները, դեմքերը և տեքստանման գծերը, այնուհետև ստեղծում է նոր պիքսելային տվյալներ, որոնք համապատասխանում են այդ սովորած օրինաչափություններին: Այն ավելի քիչ է «վերականգնում իրականությունը» և ավելի շատ «կայացնում է հավաստի կռահումներ», որոնք բնական են համարվում:.

Արհեստական ինտելեկտի միջոցով չափափոխում ընդդեմ երկխորանարդ կամ ավանդական չափափոխման

Ավանդական մարգարտացման մեթոդները (ինչպիսին է երկխորանարդաձևը) հիմնականում ինտերպոլացնում են առկա պիքսելների միջև՝ հարթեցնելով անցումները՝ առանց իրական նոր մանրամասներ ստեղծելու: Արհեստական ինտելեկտի մարգարտացման նպատակն է վերականգնել հավանական կառուցվածքը՝ ճանաչելով տեսողական ազդանշանները և կանխատեսելով, թե ինչ տեսք կունենան այդ ազդանշանների բարձր թույլտվությամբ տարբերակները: Ահա թե ինչու արհեստական ինտելեկտի արդյունքները կարող են զգալիորեն ավելի սուր թվալ, ինչպես նաև այն պատճառով, որ դրանք կարող են ներմուծել արտեֆակտներ կամ «հորինել» մանրամասներ, որոնք առկա չեն եղել սկզբնաղբյուրում:.

Ինչու են դեմքերը կարող մոմոտ կամ չափազանց հարթ տեսք ունենալ

Մոմե դեմքերը սովորաբար առաջանում են ագրեսիվ աղմուկը հանելուց և հարթեցնելուց, զուգորդված սրացման հետ, որը հեռացնում է մաշկի բնական հյուսվածքը: Շատ գործիքներ աղմուկը և նուրբ հյուսվածքը նույն կերպ են մշակում, ուստի պատկերի «մաքրումը» կարող է ջնջել ծակոտիները և նուրբ մանրամասները: Հաճախակի օգտագործվող մոտեցումն է նվազեցնել աղմուկը և սրացումը, օգտագործել դեմքի պահպանման ռեժիմ, եթե հնարավոր է, ապա վերականգնել հատիկավորության մի փոքր հպում, որպեսզի արդյունքը ավելի քիչ պլաստիկ և ավելի լուսանկարչական տեսք ունենա:.

Արհեստական բանականության բարձրացման տարածված արտեֆակտներ, որոնց պետք է ուշադրություն դարձնել

Տիպիկ նշաններից են եզրերի շուրջ լուսապսակները, կրկնվող հյուսվածքային նախշերը (ինչպես օրինակ՝ պատճեն-տեղադրած աղյուսները), ճռճռան միկրոկոնտրաստը և տեքստը, որը վերածվում է «գրեթե տառերի»: Դիֆուզիայի վրա հիմնված աշխատանքային հոսքերում կարող եք նաև տեսնել մանրամասների շեղում, որտեղ փոքր հատկանիշները աննկատելիորեն փոխվում են: Տեսանյութի դեպքում մանրամասների թարթումը և սողալը կադրերի միջև մեծ կարմիր դրոշներ են: Եթե այն լավ է երևում միայն ծայրահեղ մեծացման դեպքում, ապա կարգավորումները, հավանաբար, չափազանց ագրեսիվ են:.

Ինչպես են GAN-ը, CNN-ը և դիֆուզիոն բարձրակարգ ընկերությունները տարբերվում արդյունքներով

CNN-ի վրա հիմնված գերլուծաչափը հակված է ավելի կայուն և կանխատեսելի լինելու, բայց ուժեղ ճնշման դեպքում այն կարող է «մշակված» թվալ: GAN-ի վրա հիմնված տարբերակները (ESRGAN ոճով) հաճախ ստեղծում են ավելի ուժեղ հյուսվածք և ընկալվող սրություն, բայց դրանք կարող են հալյուցինացիաներ առաջացնել սխալ մանրամասների համար, հատկապես դեմքերի վրա: Դիֆուզիայի վրա հիմնված բարձրացումը կարող է ստեղծել գեղեցիկ, հավանական մանրամասներ, սակայն դրանք կարող են շեղվել սկզբնական կառուցվածքից, եթե ուղղորդման կամ ուժի կարգավորումները չափազանց ուժեղ են:.

Գործնական կարգավորումների ռազմավարություն՝ «չափազանց արհեստական ինտելեկտի» տեսքից խուսափելու համար

Սկսեք պահպանողական մոտեցումից. մեծացրեք պատկերի չափը 2× կամ 4×, նախքան ծայրահեղ գործոններին դիմելը: Եթե դեմքերը պլաստիկ տեսք ունեն, նվազեցրեք աղմուկի նվազեցման և սրման ռեժիմը և փորձեք դեմքի ճանաչման ռեժիմ: Եթե հյուսվածքները չափազանց ինտենսիվ են դառնում, նվազեցրեք մանրամասների բարելավումը և հետագայում մտածեք նուրբ հատիկավորության ավելացման մասին: Եթե եզրերը փայլում են, նվազեցրեք սրումը և ստուգեք լուսապսակի կամ արտեֆակտների ճնշումը: Շատ խողովակաշարերում «քիչ»-ը հաղթում է, քանի որ այն պահպանում է հավաստի ռեալիզմը:.

Հին սկանավորված կամ խիստ JPEG սեղմված պատկերների մշակում՝ մասշտաբի բարձրացումից առաջ

Սեղմված պատկերները բարդ են, քանի որ մոդելները կարող են բլոկային արտեֆակտները դիտարկել որպես իրական հյուսվածք և ուժեղացնել դրանք: Հաճախակի աշխատանքային հոսքը նախ արտեֆակտների հեռացումն է կամ արգելափակումից ազատումը, ապա մասշտաբի բարձրացումը, ապա միայն անհրաժեշտության դեպքում՝ լույսի սրացումը: Սկանավորման դեպքում նուրբ մաքրումը կարող է օգնել մոդելին կենտրոնանալ իրական կառուցվածքի, այլ ոչ թե վնասի վրա: Նպատակն է նվազեցնել «կեղծ հյուսվածքի ազդանշանները», որպեսզի մասշտաբի բարձրացումը չստիպված լինի վստահորեն ենթադրություններ անել աղմկոտ մուտքային տվյալներից:.

Ինչու է տեսանյութի բարձրացումը լուսանկարների բարձրացումից ավելի դժվար

Տեսանյութի մասշտաբի բարձրացումը պետք է լինի հետևողական բոլոր կադրերում, այլ ոչ թե միայն մեկ անշարժ պատկերի վրա։ Եթե մանրամասները թարթում են կադրից կադր, արդյունքը արագորեն շեղում է ուշադրությունը։ Տեսանյութին կենտրոնացած մոտեցումները օգտագործում են հարևան կադրերից ստացված ժամանակային տեղեկատվությունը՝ վերակառուցումը կայունացնելու և փայլող արտեֆակտներից խուսափելու համար։ Շատ աշխատանքային հոսքեր ներառում են նաև աղմուկի նվազեցում, որոշակի աղբյուրների համար ապամիահյուսում և հատիկների վերափոխում ըստ ցանկության, որպեսզի ամբողջ հաջորդականությունը թվա համակցված, այլ ոչ թե արհեստականորեն սուր։.

Երբ արհեստական բանականության մասշտաբի բարձրացումը նպատակահարմար չէ կամ ռիսկային է հույսը դնելը

Արհեստական ինտելեկտի միջոցով մասշտաբի բարձրացումը լավագույնս դիտարկվում է որպես բարելավում, այլ ոչ թե ապացույց: Բարձր ռիսկային համատեքստերում, ինչպիսիք են լրագրությունը, իրավական ապացույցները, բժշկական պատկերագրությունը կամ դատաբժշկական աշխատանքը, «հավատալի» պիքսելների ստեղծումը կարող է մոլորեցնող լինել, քանի որ այն կարող է ավելացնել մանրամասներ, որոնք չեն արձանագրվել: Ավելի անվտանգ շրջանակում այն օգտագործելն է որպես օրինակ և բացահայտել, որ արհեստական ինտելեկտի գործընթացը վերականգնել է մանրամասները: Եթե ճշգրտությունը կարևոր է, պահպանեք բնօրինակները և փաստաթղթավորեք մշակման յուրաքանչյուր քայլը և կարգավորումը:.

Հղումներ

arXiv - Խորը ուսուցում պատկերի գերլուծաչափի համար. Հարցում - arxiv.org
arXiv - Պատկերի գերլուծաչափ՝ խորը կոնվոլյուցիոն ցանցերի միջոցով (SRCNN) - arxiv.org
arXiv - Իրական ESRGAN - arxiv.org
arXiv - ESRGAN - arxiv.org
arXiv - SR3 - arxiv.org
NVIDIA մշակող - NVIDIA DLSS - developer.nvidia.com
AMD GPUOpen - FidelityFX Super Resolution 2 - gpuopen.com
Համակարգչային տեսողության հիմնադրամ (CVF) բաց մուտք - BasicVSR: Տեսանյութի գերլուծաչափի էական բաղադրիչների որոնում (CVPR 2021) - openaccess.thecvf.com
arXiv - Գեներատիվ հակառակորդական ցանցեր - arxiv.org
arXiv - SRGAN - arxiv.org
arXiv - Ընկալման կորուստներ (Ջոնսոն և այլք, 2016) - arxiv.org
GitHub - Real-ESRGAN պահոց (սալիկների տարբերակներ) - github.com
Վիքիպեդիա - Բիկուբիկ ինտերպոլյացիա - wikipedia.org
Topaz Labs - Topaz-ի լուսանկար - topazlabs.com
Topaz Labs - Topaz տեսանյութ - topazlabs.com
Adobe-ի օգնության կենտրոն - Adobe Enhance > Գերլուծում - helpx.adobe.com
NIST / OSAC - Դատաբժշկական թվային պատկերների կառավարման ստանդարտ ուղեցույց (տարբերակ 1.0) - nist.gov
SWGDE - Դատաբժշկական պատկերի վերլուծության ուղեցույցներ - swgde.org

Գտեք արհեստական բանականության վերջին նորույթները պաշտոնական արհեստական բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ

Երկիր/տարածաշրջան

Ինչպես է աշխատում արհեստական ​​բանականության արդիականացումը. հիմնական գաղափարը՝ առօրյա բառերով 🧩

Ի՞նչն է արհեստական ​​բանականության միջոցով արդիականացման տարբերակը դարձնում լավը։ ✅🛠️

Համեմատական ​​աղյուսակ. արհեստական ​​ինտելեկտի միջոցով բարելավման հայտնի տարբերակներ (և ինչի համար են դրանք օգտակար) 📊🙂