որտեղի՞ց է արհեստական ​​բանականությունը տեղեկատվություն ստանում

Որտեղի՞ց է արհեստական ​​բանականությունը ստանում իր տեղեկատվությունը։

Երբևէ նստե՞լ եք ու գլուխը քորեք, մտածելով, թե… որտեղի՞ց է իրականում գալիս այս ամենը ։ Այսինքն՝ արհեստական ​​բանականությունը չի թերթում փոշոտ գրադարանների կույտերը կամ չի դիտում YouTube-ի կարճամետրաժ հոլովակներ։ Այնուամենայնիվ, այն ինչ-որ կերպ պատասխաններ է գտնում ամեն ինչի համար՝ լազանիայի հնարքներից մինչև սև խոռոչների ֆիզիկա, կարծես ներսում ինչ-որ անհատակ արխիվային պահարան լինի։ Իրականությունն ավելի տարօրինակ է և, հնարավոր է, ավելի հետաքրքիր, քան դուք կարող եք կռահել։ Եկեք մի փոքր բացատրենք այն (և այո, գուցե ճանապարհին մի քանի առասպելներ քանդենք)։


Կախարդանք է՞։ 🌐

Սա կախարդանք չէ, չնայած երբեմն այդպես է թվում։ Այն, ինչ տեղի է ունենում դրա հետևում, հիմնականում օրինաչափությունների կանխատեսում փաստերը չեն այնպես, ինչպես ձեր ուղեղը պահպանում է ձեր տատիկի թխվածքաբլիթի բաղադրատոմսը. փոխարենը, դրանք մարզված են գուշակելու հաջորդ բառը (ժետոնը)՝ հիմնվելով նախորդ բառի վրա [2]: Գործնականում դա նշանակում է, որ նրանք կառչում են հարաբերություններից. որ բառերն են միմյանց կպչում, ինչպես են նախադասությունները սովորաբար ձևավորվում, ինչպես են ամբողջական գաղափարները կառուցվում ինչպես հիմք։ Ահա թե ինչու արդյունքը է հնչում , չնայած՝ լիակատար անկեղծությամբ՝ դա վիճակագրական ընդօրինակում է, այլ ոչ թե հասկացողություն [4]:

Այսպիսով, ի՞նչն է իրականում արհեստական ​​բանականության կողմից ստեղծված տեղեկատվությունը դարձնում օգտակար ։ Մի քանի բան.

  • Տվյալների բազմազանություն ՝ անթիվ աղբյուրներից, այլ ոչ թե մեկ նեղ հոսքից տվյալների հավաքագրում։

  • Թարմացումներ - առանց թարմացման ցիկլերի, այն արագ հնանում է։

  • Ֆիլտրացում ՝ իդեալական տարբերակն այն է, որ աղբը որսաք, նախքան այն ներս կթափանցի (չնայած, եկեք իրատես լինենք, այդ ցանցն անցքեր ունի):

  • Խաչաձև ստուգում ՝ հիմնվելով հեղինակավոր աղբյուրների վրա (օրինակ՝ NASA, ԱՀԿ, խոշոր համալսարաններ), որը պարտադիր է արհեստական ​​բանականության կառավարման մեծ մասի ձեռնարկներում [3]:

Այնուամենայնիվ, երբեմն այն հորինվում է՝ վստահորեն։ Այդ այսպես կոչված հալյուցինացիաները՞ ։ Հիմնականում հղկված անհեթեթություններ, որոնք ասվում են անկեղծ դեմքով [2][3]:

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո.

🔗 Կարո՞ղ է արհեստական ​​բանականությունը կանխատեսել վիճակախաղի համարները
Արհեստական ​​բանականության վիճակախաղի կանխատեսումների մասին առասպելների և փաստերի ուսումնասիրություն։

🔗 Ի՞նչ է նշանակում արհեստական ​​բանականությանը համալիր մոտեցում ցուցաբերելը
Արհեստական ​​բանականության ըմբռնում՝ էթիկայի և ազդեցության վերաբերյալ հավասարակշռված տեսակետներով։

🔗 Ի՞նչ է ասում Աստվածաշունչը արհեստական ​​բանականության մասին
Տեխնոլոգիայի և մարդու արարչագործության վերաբերյալ Աստվածաշնչյան տեսակետների ուսումնասիրություն։


Հակիրճ համեմատություն. Որտեղի՞ց է արհեստական ​​բանականությունը 📊

Ոչ բոլոր աղբյուրներն են հավասար, բայց յուրաքանչյուրն իր դերն է խաղում: Ահա համառոտ պատկերը:

Աղբյուրի տեսակը Ո՞վ է այն օգտագործում (AI) Արժեք/արժեք Ինչու է այն աշխատում (կամ չի աշխատում...)
Գրքեր և հոդվածներ Մեծ լեզվական մոդելներ Անգին (մոտավորապես) Խիտ, կառուցվածքային գիտելիք՝ պարզապես արագ հնանում է։
Կայքեր և բլոգներ Գրեթե բոլոր արհեստական ​​ինտելեկտները Ազատ (աղմուկով) Վայրի բազմազանություն; շքեղության և բացարձակ աղբի խառնուրդ։
Ակադեմիական աշխատանքներ Հետազոտություններով ծանրաբեռնված արհեստական ​​ինտելեկտ Երբեմն վճարովի է Խստություն + հավաստիություն, բայց արտահայտված ծանր ժարգոնով։
Օգտատիրոջ տվյալներ Անհատականացված արհեստական ​​ինտելեկտներ Բարձր զգայունություն ⚠️ Կտրուկ կարվածք, բայց գաղտնիության հետ կապված առատ գլխացավեր։
Իրական ժամանակի վեբ Որոնման հետ կապված արհեստական ​​բանականություններ Անվճար (եթե առցանց է) Տեղեկատվությունը թարմ է պահում։ Թերությունը լուրերի տարածման ռիսկն է։

Մարզումների տվյալների տիեզերք 🌌

Սա «մանկական ուսուցման» փուլն է։ Պատկերացրեք, որ երեխային միաժամանակ միլիոնավոր հանրությանը հասանելի տվյալները, լիցենզավորված աղբյուրները և մարզչի կողմից ստեղծված տեքստը [2]:

Վերևում շերտավորված՝ ընտրված մարդկային օրինակներ՝ լավ պատասխաններ, վատ պատասխաններ, ճիշտ ուղղությամբ հրումներ՝ նախքան նույնիսկ խրախուսանքի սկսվելը [1]:

Թափանցիկության վերաբերյալ նախազգուշացում. ընկերությունները չեն բացահայտում բոլոր մանրամասները: Որոշ պաշտպանիչ ցանկապատեր գաղտնի են (մտավոր սեփականություն, անվտանգության հետ կապված հարցեր), ուստի դուք միայն մասնակի պատկերացում եք տալիս իրական իրավիճակի մասին [2]:


Իրական ժամանակի որոնում. Լրացուցիչ լրացում 🍒

Որոշ մոդելներ այժմ կարող են դուրս նայել իրենց ուսումնական փուչիկից։ Դա վերականգնման-ընդլայնված սերնդի (RAG) , որը հիմնականում ներառում է հատվածներ ակտիվ ինդեքսից կամ փաստաթղթերի խանութից, այնուհետև դրանք միահյուսում է պատասխանի մեջ [5]: Հիանալի է արագ փոփոխվող բաների համար, ինչպիսիք են նորությունների վերնագրերը կամ բաժնետոմսերի գները:

Խնդիրը՞։ Ինտերնետը հավասարապես հանճարեղ է և աղբի կրակ։ Եթե ֆիլտրերը կամ ծագման ստուգումները թույլ են, դուք ռիսկի եք դիմում անպետք տվյալների հետ վերադառնալու, ինչը հենց այն է, ինչի մասին զգուշացնում են ռիսկի շրջանակները [3]:

Տարածված լուծում. ընկերությունները մոդելները կապում են իրենց ներքին տվյալների բազաների հետ, որպեսզի պատասխանները հղում անեն ներկայիս HR քաղաքականությանը կամ թարմացված ապրանքային փաստաթղթին, այլ ոչ թե թևաթափ անեն այն: Մտածեք. ավելի քիչ «օհ» պահեր, ավելի շատ վստահելի պատասխաններ:


Մանրակրկիտ կարգավորում. Արհեստական ​​բանականության հղկման քայլը 🧪

Նախապես պատրաստված հում մոդելները անհարմար են։ Հետևաբար, դրանք մանրակրկիտ կարգավորվում ։

  • Սովորեցրեք նրանց լինել օգտակար, անվնաս, ազնիվ (մարդկային հետադարձ կապի միջոցով ուժեղացված ուսուցման միջոցով, RLHF) [1]:

  • Անվտանգ կամ թունավոր եզրերի հղկում (հավասարեցում) [1]:

  • Հարմարվել տոնին՝ լինի դա բարեկամական, պաշտոնական, թե խաղային հեգնական։

Դա այնքան ադամանդի հղկում չէ, որքան վիճակագրական ձնահոսքը զուգընկերոջ պես պահելուն ստիպելը։


Անհաջողություններն ու խափանումները 🚧

Եկեք չձևացնենք, թե այն անթերի է.

  • Հալյուցինացիաներ ՝ հստակ պատասխաններ, որոնք բացարձակապես սխալ են [2][3]:

  • Կողմնակալություն - այն արտացոլում է տվյալների մեջ ներկառուցված օրինաչափությունները. նույնիսկ կարող է ուժեղացնել դրանք, եթե չստուգվի [3][4]:

  • Անձնական փորձ չունի . այն կարող է խոսել ապուրի բաղադրատոմսերի մասին, բայց երբեք չի համտեսել դրանք [4]:

  • Չափազանց ինքնավստահություն . արձակը հոսում է այնպես, կարծես գիտի, նույնիսկ երբ այդպես չէ։ Ռիսկի շրջանակները շեշտը դնում են արհամարհական ենթադրությունների վրա [3]:


Ինչու է դա զգացվում իմանալու պես 🧠

Այն չունի համոզմունքներ, հիշողություն մարդկային իմաստով և, անշուշտ, «ես»-ի մասին տեղեկություններ չունի։ Սակայն, քանի որ այն նախադասությունները սահուն կերպով է միացնում, ձեր ուղեղը այն կարդում է այնպես, կարծես հասկանում է ։ Տեղի է ունենում պարզապես հաջորդ նշանի հսկայական մասշտաբի կանխատեսում ՝ վայրկյանների ընթացքում տրիլիոնավոր հավանականությունների վերլուծություն [2]:

«Ինտելեկտի» տրամադրությունը ի հայտ եկող վարքագիծն է. հետազոտողները այն անվանում են, մի փոքր կատակով, «ստոխաստիկ թութակի» էֆեկտ [4]:


Երեխաների համար նախատեսված անալոգիա 🎨

Պատկերացրեք մի թութակ, որը կարդացել է գրադարանի բոլոր գրքերը։ Այն չի հասկանում պատմությունները, բայց կարող է խառնել բառերը՝ ստեղծելով իմաստուն մի բան։ Երբեմն դա ճշգրիտ է, երբեմն՝ անհեթեթություն, բայց բավարար հմտությամբ միշտ չէ, որ կարող եք տարբերությունը զգալ։


Ամփոփելով՝ որտեղից է գալիս արհեստական ​​բանականության տեղեկատվությունը 📌

Պարզ ասած՝

  • Մարզումների մեծածավալ տվյալներ (հանրային + լիցենզավորված + մարզիչների կողմից ստեղծված) [2]:

  • նուրբ կարգավորում ՝ տոնը/վարքը ձևավորելու համար [1]:

  • Վերականգնման համակարգերը , երբ միացված են ուղիղ տվյալների հոսքերին [5]:

Արհեստական ​​բանականությունը ոչինչ «չգիտի», այն կանխատեսում է տեքստը ։ Սա և՛ նրա գերուժն է, և՛ Աքիլեսյան գարշապարը։ Վերջնական եզրակացությունը՞։ Միշտ ստուգեք կարևոր տեղեկությունները վստահելի աղբյուրի հետ [3]:


Հղումներ

  1. Օույանգ, Լ. և այլք (2022): Լեզվական մոդելների վարժեցում՝ մարդկային հետադարձ կապի միջոցով հրահանգներին հետևելու համար (InstructGPT) : arXiv :

  2. OpenAI (2023): GPT-4 տեխնիկական զեկույց - լիցենզավորված, հանրային և մարդու կողմից ստեղծված տվյալների համադրություն; հաջորդ տոկենի կանխատեսման նպատակը և սահմանափակումները: arXiv :

  3. NIST (2023)։ Արհեստական ​​​​ինտելեկտի ռիսկերի կառավարման շրջանակ (AI RMF 1.0) - ծագում, հուսալիություն և ռիսկերի վերահսկում։ PDF ։

  4. Բենդեր, Է.Մ., Գեբրու, Թ., Մաքմիլան-Մաջոր, Ա., Միտչել, Ս. (2021): Ստոխաստիկ թութակների վտանգների մասին. Կարո՞ղ են լեզվական մոդելները չափազանց մեծ լինել: PDF :

  5. Լյուիս, Պ. և այլք (2020): Վերականգնման-ընդլայնված սերունդ գիտելիքների վրա հիմնված NLP-ի համար : arXiv .


Գտեք արհեստական ​​բանականության վերջին նորույթները պաշտոնական արհեստական ​​բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ