որտեղի՞ց է արհեստական բանականությունը տեղեկատվություն ստանում

Որտեղի՞ց է արհեստական բանականությունը ստանում իր տեղեկատվությունը։

Երբևէ նստե՞լ եք ու գլուխը քորեք, մտածելով, թե… որտեղի՞ց է իրականում գալիս այս ամենը։ Այսինքն՝ արհեստական բանականությունը չի թերթում փոշոտ գրադարանների կույտերը կամ չի դիտում YouTube-ի կարճամետրաժ հոլովակներ։ Այնուամենայնիվ, այն ինչ-որ կերպ պատասխաններ է գտնում ամեն ինչի համար՝ լազանիայի հնարքներից մինչև սև խոռոչների ֆիզիկա, կարծես ներսում ինչ-որ անհատակ արխիվային պահարան լինի։ Իրականությունն ավելի տարօրինակ է և, հնարավոր է, ավելի հետաքրքիր, քան դուք կարող եք կռահել։ Եկեք մի փոքր բացատրենք այն (և այո, գուցե ճանապարհին մի քանի առասպելներ քանդենք)։

Կախարդանք է՞։ 🌐

Սա կախարդանք չէ, չնայած երբեմն այդպես է թվում։ Այն, ինչ տեղի է ունենում դրա հետևում, հիմնականում օրինաչափությունների կանխատեսում է։ Լեզվական մեծ մոդելները (LLM) փաստերը չեն պահպանում այնպես, ինչպես ձեր ուղեղը պահպանում է ձեր տատիկի թխվածքաբլիթի բաղադրատոմսը. փոխարենը, դրանք մարզված են գուշակելու հաջորդ բառը (ժետոնը)՝ հիմնվելով նախորդ բառի վրա [2]: Գործնականում դա նշանակում է, որ նրանք կառչում են հարաբերություններից. որ բառերն են միմյանց կպչում, ինչպես են նախադասությունները սովորաբար ձևավորվում, ինչպես են ամբողջական գաղափարները կառուցվում ինչպես հիմք։ Ահա թե ինչու արդյունքը ճիշտ է հնչում , չնայած՝ լիակատար անկեղծությամբ՝ դա վիճակագրական ընդօրինակում է, այլ ոչ թե հասկացողություն [4]:

Այսպիսով, ի՞նչն է իրականում արհեստական բանականության կողմից ստեղծված տեղեկատվությունը դարձնում օգտակար։ Մի քանի բան.

Տվյալների բազմազանություն ՝ անթիվ աղբյուրներից, այլ ոչ թե մեկ նեղ հոսքից տվյալների հավաքագրում։
Թարմացումներ - առանց թարմացման ցիկլերի, այն արագ հնանում է։
Ֆիլտրացում ՝ իդեալական տարբերակն այն է, որ աղբը որսաք, նախքան այն ներս կթափանցի (չնայած, եկեք իրատես լինենք, այդ ցանցն անցքեր ունի):
Խաչաձև ստուգում ՝ հիմնվելով հեղինակավոր աղբյուրների վրա (օրինակ՝ NASA, ԱՀԿ, խոշոր համալսարաններ), որը պարտադիր է արհեստական բանականության կառավարման մեծ մասի ձեռնարկներում [3]:

Այնուամենայնիվ, երբեմն այն հորինվում է՝ վստահորեն։ Այդ այսպես կոչված հալյուցինացիաները՞։ Հիմնականում հղկված անհեթեթություններ, որոնք ասվում են անկեղծ դեմքով [2][3]:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո

🔗 Կարո՞ղ է արհեստական բանականությունը կանխատեսել վիճակախաղի համարները
Արհեստական բանականության վիճակախաղի կանխատեսումների մասին առասպելների և փաստերի ուսումնասիրություն։.

🔗 Ի՞նչ է նշանակում արհեստական բանականությանը համալիր մոտեցում ցուցաբերելը
Արհեստական բանականության ըմբռնում՝ էթիկայի և ազդեցության վերաբերյալ հավասարակշռված տեսակետներով։.

🔗 Ի՞նչ է ասում Աստվածաշունչը արհեստական բանականության մասին
Տեխնոլոգիայի և մարդու արարչագործության վերաբերյալ Աստվածաշնչյան տեսակետների ուսումնասիրություն։.

Հակիրճ համեմատություն. Որտեղի՞ց է արհեստական բանականությունը 📊

Ոչ բոլոր աղբյուրներն են հավասար, բայց յուրաքանչյուրն իր դերն է խաղում: Ահա համառոտ պատկերը:.

Աղբյուրի տեսակը	Ո՞վ է այն օգտագործում (AI)	Արժեք/արժեք	Ինչու է այն աշխատում (կամ չի աշխատում...)
Գրքեր և հոդվածներ	Մեծ լեզվական մոդելներ	Անգին (մոտավորապես)	Խիտ, կառուցվածքային գիտելիք՝ պարզապես արագ հնանում է։.
Կայքեր և բլոգներ	Գրեթե բոլոր արհեստական ինտելեկտները	Ազատ (աղմուկով)	Վայրի բազմազանություն; շքեղության և բացարձակ աղբի խառնուրդ։.
Ակադեմիական աշխատանքներ	Հետազոտություններով ծանրաբեռնված արհեստական ինտելեկտ	Երբեմն վճարովի է	Խստություն + հավաստիություն, բայց արտահայտված ծանր ժարգոնով։.
Օգտատիրոջ տվյալներ	Անհատականացված արհեստական ինտելեկտներ	Բարձր զգայունություն ⚠️	Կտրուկ կարվածք, բայց գաղտնիության հետ կապված բազմաթիվ գլխացավեր։.
Իրական ժամանակի վեբ	Որոնման հետ կապված արհեստական բանականություններ	Անվճար (եթե առցանց է)	Տեղեկատվությունը թարմ է պահում։ Թերությունը լուրերի տարածման ռիսկն է։.

Մարզումների տվյալների տիեզերք 🌌

Սա «մանկական ուսուցման» փուլն է։ Պատկերացրեք, որ երեխային միաժամանակ տալիս եք միլիոնավոր պատմվածքների գրքեր, նորությունների հատվածներ և Վիքիպեդիայի «ճագարի խոռոչներ»։ Ահա թե ինչ տեսք ունի նախնական ուսուցումը։ Իրական աշխարհում մատակարարները միասին են համադրում հանրությանը հասանելի տվյալները, լիցենզավորված աղբյուրները և մարզչի կողմից ստեղծված տեքստը [2]:

Վերևում շերտավորված՝ ընտրված մարդկային օրինակներ՝ լավ պատասխաններ, վատ պատասխաններ, ճիշտ ուղղությամբ հրումներ՝ նախքան նույնիսկ խրախուսանքի սկսվելը [1]:.

Թափանցիկության վերաբերյալ նախազգուշացում. ընկերությունները չեն բացահայտում բոլոր մանրամասները: Որոշ պաշտպանիչ ցանկապատեր գաղտնի են (մտավոր սեփականություն, անվտանգության հետ կապված հարցեր), ուստի դուք միայն մասնակի պատկերացում եք տալիս իրական իրավիճակի մասին [2]:.

Իրական ժամանակի որոնում. Լրացուցիչ լրացում 🍒

Որոշ մոդելներ այժմ կարող են դուրս նայել իրենց ուսումնական «փուչիկից»։ Դա վերականգնման-ընդլայնված սերնդի (RAG) մեթոդն, որը հիմնականում ներառում է հատվածներ ակտիվ ինդեքսից կամ փաստաթղթերի խանութից, այնուհետև դրանք միահյուսում է պատասխանի մեջ [5]: Հիանալի է արագ փոփոխվող բաների համար, ինչպիսիք են նորությունների վերնագրերը կամ բաժնետոմսերի գները:

Խնդիրը՞։ Ինտերնետը հավասարապես հանճարեղ է և աղբի կրակ։ Եթե ֆիլտրերը կամ ծագման ստուգումները թույլ են, դուք ռիսկի եք դիմում անպետք տվյալների հետ վերադառնալու, ինչը հենց այն է, ինչի մասին զգուշացնում են ռիսկի շրջանակները [3]:.

Տարածված լուծում. ընկերությունները մոդելները կապում են իրենց ներքին տվյալների բազաների հետ, որպեսզի պատասխանները հղում անեն ներկայիս HR քաղաքականությանը կամ թարմացված ապրանքային փաստաթղթին, այլ ոչ թե թևաթափ անեն այն: Մտածեք. ավելի քիչ «օհ» պահեր, ավելի շատ վստահելի պատասխաններ:

Մանրակրկիտ կարգավորում. Արհեստական բանականության հղկման քայլը 🧪

Նախապես պատրաստված հում մոդելները անհարմար են։ Հետևաբար, դրանք մանրակրկիտ կարգավորվում։

Սովորեցրեք նրանց լինել օգտակար, անվնաս, ազնիվ (մարդկային հետադարձ կապի միջոցով ուժեղացված ուսուցման միջոցով, RLHF) [1]:
Անվտանգ կամ թունավոր եզրերի հղկում (հավասարեցում) [1]:.
Հարմարվել տոնին՝ լինի դա բարեկամական, պաշտոնական, թե խաղային հեգնական։.

Դա այնքան ադամանդի հղկում չէ, որքան վիճակագրական ձնահոսքը զուգընկերոջ պես պահելուն ստիպելը։.

Անհաջողություններն ու խափանումները 🚧

Եկեք չձևացնենք, թե այն անթերի է

Հալյուցինացիաներ ՝ հստակ պատասխաններ, որոնք բացարձակապես սխալ են [2][3]:
Կողմնակալություն - այն արտացոլում է տվյալների մեջ ներկառուցված օրինաչափությունները. նույնիսկ կարող է ուժեղացնել դրանք, եթե չստուգվի [3][4]:
Անձնական փորձ չունի . այն կարող է խոսել ապուրի բաղադրատոմսերի մասին, բայց երբեք չի համտեսել դրանք [4]:
Չափազանց ինքնավստահություն . արձակը հոսում է այնպես, կարծես գիտի, նույնիսկ երբ այդպես չէ։ Ռիսկի շրջանակները շեշտը դնում են արհամարհական ենթադրությունների վրա [3]:

Ինչու է դա զգացվում իմանալու պես 🧠

Այն չունի համոզմունքներ, հիշողություն մարդկային իմաստով և, անշուշտ, «ես»-ի մասին տեղեկություններ չունի։ Սակայն, քանի որ այն նախադասությունները սահուն կերպով է միացնում, ձեր ուղեղը այն կարդում է այնպես, կարծես հասկանում է։ Տեղի է ունենում պարզապես հաջորդ նշանի հսկայական մասշտաբի կանխատեսում՝ վայրկյանների ընթացքում տրիլիոնավոր հավանականությունների վերլուծություն [2]:

«Ինտելեկտի» տրամադրությունը ի հայտ եկող վարքագիծն է. հետազոտողները այն անվանում են, մի փոքր կատակով, «ստոխաստիկ թութակի» էֆեկտ [4]:

Երեխաների համար նախատեսված անալոգիա 🎨

Պատկերացրեք մի թութակ, որը կարդացել է գրադարանի բոլոր գրքերը։ Այն չի հասկանում պատմությունները, բայց կարող է խառնել բառերը՝ ստեղծելով իմաստուն մի բան։ Երբեմն դա ճշգրիտ է, երբեմն՝ անհեթեթություն, բայց բավարար հմտությամբ միշտ չէ, որ կարող եք տարբերությունը զգալ։

Ամփոփելով՝ որտեղից է գալիս արհեստական բանականության տեղեկատվությունը 📌

Պարզ ասած՝

Մարզումների մեծածավալ տվյալներ (հանրային + լիցենզավորված + մարզիչների կողմից ստեղծված) [2]:
նուրբ կարգավորում ՝ տոնը/վարքը ձևավորելու համար [1]:
Վերականգնման համակարգերը , երբ միացված են ուղիղ տվյալների հոսքերին [5]:

Արհեստական բանականությունը ոչինչ «չգիտի», այն կանխատեսում է տեքստը։ Սա և՛ նրա գերուժն է, և՛ Աքիլեսյան գարշապարը։ Վերջնական եզրակացությունը՞։ Միշտ ստուգեք կարևոր տեղեկությունները վստահելի աղբյուրի հետ [3]:

Հղումներ

Օույանգ, Լ. և այլք (2022): Լեզվական մոդելների վարժեցում՝ մարդկային հետադարձ կապի միջոցով հրահանգներին հետևելու համար (InstructGPT): arXiv:
OpenAI (2023): GPT-4 տեխնիկական զեկույց - լիցենզավորված, հանրային և մարդու կողմից ստեղծված տվյալների համադրություն; հաջորդ տոկենի կանխատեսման նպատակը և սահմանափակումները: arXiv:
NIST (2023)։ Արհեստական ինտելեկտի ռիսկերի կառավարման շրջանակ (AI RMF 1.0) - ծագում, հուսալիություն և ռիսկերի վերահսկում։ PDF։
Բենդեր, Է.Մ., Գեբրու, Թ., Մաքմիլան-Մաջոր, Ա., Միտչել, Ս. (2021): Ստոխաստիկ թութակների վտանգների մասին. Կարո՞ղ են լեզվական մոդելները չափազանց մեծ լինել: PDF:
Լյուիս, Պ. և այլք (2020): Վերականգնման-ընդլայնված սերունդ գիտելիքների վրա հիմնված NLP-ի համար: arXiv.

Գտեք արհեստական բանականության վերջին նորույթները պաշտոնական արհեստական բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ