Ինչպե՞ս են աշխատում արհեստական ​​բանականության դետեկտորները։

Ինչպե՞ս են աշխատում արհեստական ​​բանականության դետեկտորները։

Կարճ պատասխան. Արհեստական ​​բանականության դետեկտորները չեն «ապացուցում», թե ով է ինչ-որ բան գրել. նրանք գնահատում են, թե որքանով է հատվածը համապատասխանում ծանոթ լեզվական մոդելի օրինաչափություններին: Դրանց մեծ մասը հիմնված է դասակարգիչների, կանխատեսելիության ազդանշանների (շփոթվածություն/պայթյուն), ոճաչափության և, ավելի հազվադեպ դեպքերում, ջրանիշի ստուգման համադրության վրա: Երբ նմուշը կարճ է, խիստ ֆորմալ, տեխնիկական կամ գրված է ESL հեղինակի կողմից, գնահատականը համարեք վերանայման հուշում, այլ ոչ թե դատողություն:

Հիմնական եզրակացություններ՝

Հավանականություն, ոչ թե ապացույց . Տոկոսները դիտարկեք որպես «արհեստական ​​բանականության նմանության» ռիսկի ազդանշաններ, այլ ոչ թե որոշակիություն։

Կեղծ դրական արդյունքներ . ֆորմալ, տեխնիկական, ձևանմուշային կամ ոչ բնիկ լեզվով գրելը հաճախ սխալմամբ նշվում է։

Մեթոդների համադրություն . Գործիքները համատեղում են դասակարգիչները, շփոթվածությունը/պայթյունավտանգությունը, ոճաչափությունը և անսովոր ջրանիշերի ստուգումները։

Թափանցիկություն . նախապատվությունը տվեք այնպիսի դետեկտորների, որոնք պարունակում են մակերևույթի բացվածքներ, առանձնահատկություններ և անորոշություն՝ այլ ոչ թե միայն մեկ թիվ։

Վիճարկման հնարավորություն . ձեռքի տակ պահեք նախագծերը/նշումները և մշակեք ապացույցները վեճերի և բողոքարկումների համար։

Ինֆոգրաֆիկա։ Ինչպե՞ս են աշխատում արհեստական ​​բանականության դետեկտորները։

Հոդվածներ, որոնք կարող են ձեզ դուր գալ կարդալ սրանից հետո

🔗 Ո՞րն է լավագույն արհեստական ​​ինտելեկտի դետեկտորը։
Արհեստական ​​բանականության հայտնաբերման լավագույն գործիքների համեմատություն ճշգրտության, առանձնահատկությունների և օգտագործման դեպքերի առումով։.

🔗 Արհեստական ​​բանականության դետեկտորները հուսալի՞ են։
Բացատրում է հուսալիությունը, կեղծ դրական արդյունքները և թե ինչու են արդյունքները հաճախ տարբերվում։.

🔗 Կարո՞ղ է Turnitin-ը հայտնաբերել արհեստական ​​ինտելեկտը։
Turnitin-ի արհեստական ​​բանականության հայտնաբերման, սահմանների և լավագույն փորձի ամբողջական ուղեցույց։.

🔗 QuillBot AI դետեկտորը ճշգրիտ է՞։
Ճշգրտության, ուժեղ և թույլ կողմերի, ինչպես նաև իրական աշխարհի թեստերի մանրամասն վերանայում։.


1) Հակիրճ պատկերացում՝ իրականում ինչ է անում արհեստական ​​ինտելեկտի դետեկտորը ⚙️

Արհեստական ​​​​բանականության դետեկտորների մեծ մասը «արհեստական ​​​​բանականություն» չի որսում, ինչպես ցանցը ձուկ է որսում։ Նրանք անում են ավելի պրոզաիկ բան

Անկեղծ լինենք՝ ինտերֆեյսը կասի, օրինակ՝ «92% արհեստական ​​բանականություն», և ձեր ուղեղը կասի՝ «դե, կարծում եմ՝ սա փաստ է»։ Սա փաստ չէ։ Սա մոդելի ենթադրություն է մեկ այլ մոդելի մատնահետքերի մասին։ Ինչը մի փոքր զվարճալի է, ինչպես շների կողմից շների հոտոտելը 🐕🐕


2) Ինչպես են աշխատում արհեստական ​​ինտելեկտի դետեկտորները. ամենատարածված «հայտնաբերման շարժիչները» 🔍

Դետեկտորները սովորաբար օգտագործում են այս մոտեցումներից մեկը (կամ համադրությունը). ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

Ա) Դասակարգիչի մոդելներ (ամենատարածվածը)

Դասակարգիչը մարզվում է պիտակավորված օրինակների վրա՝

  • Մարդու կողմից գրված նմուշներ

  • Արհեստական ​​բանականության կողմից ստեղծված նմուշներ

  • Երբեմն «հիբրիդային» նմուշներ (մարդկային արհեստական ​​ինտելեկտի կողմից խմբագրված տեքստ)

Այնուհետև այն սովորում է խմբերը բաժանող օրինաչափությունները: Սա մեքենայական ուսուցման դասական մոտեցում է, և այն կարող է զարմանալիորեն լավ լինել… մինչև որ այլևս չլինի: ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

Բ) Շփոթվածության և «պայթյունի» գնահատական ​​📈

Որոշ դետեկտորներ հաշվարկում են, թե որքան «կանխատեսելի» է տեքստը։.

  • Շփոթվածություն . մոտավորապես, թե որքանով է լեզվական մոդելը զարմացած հաջորդ բառից: ( Բոստոնի համալսարան - Շփոթվածության գրառումներ )

  • Ավելի քիչ շփոթվածությունը կարող է ենթադրել, որ տեքստը խիստ կանխատեսելի է (ինչը կարող է պատահել արհեստական ​​բանականության ելքերի դեպքում): ( DetectGPT )

  • «Purstiness»-ը փորձում է չափել, թե որքանով է տատանվում նախադասության բարդությունը և ռիթմը։ ( GPTZero )

Այս մոտեցումը պարզ է և արագ։ Այն նաև հեշտ է շփոթեցնել, քանի որ մարդիկ նույնպես կարող են կանխատեսելիորեն գրել (բարև կորպորատիվ էլ.փոստեր): ( OpenAI )

Գ) Ստիլոմետրիա (գրավոր մատնահետք) ✍️

Ստիլոմետրիան դիտարկում է հետևյալ նախշերը

  • միջին նախադասության երկարությունը

  • կետադրական ոճ

  • ֆունկցիայի բառի հաճախականությունը (the, and, but…)

  • բառապաշարի բազմազանություն

  • ընթեռնելիության միավորներ

Դա նման է «ձեռագրի վերլուծության», բացառությամբ տեքստի։ Երբեմն դա օգնում է։ Երբեմն դա նման է մրսածության ախտորոշմանը՝ նայելով մեկի կոշիկներին։ ( Ոճաբանություն և դատաբժշկական գիտություն. Գրականության վերանայում ; Գործառույթային բառեր հեղինակային իրավունքի վկայակոչման մեջ )

Դ) Ջրանիշի հայտնաբերում (երբ այն գոյություն ունի) 🧩

Որոշ մոդելների մատակարարներ կարող են ներդնել նուրբ նախշեր («ջրանիշներ») ստեղծված տեքստի մեջ։ Եթե դետեկտորը գիտի ջրանիշի սխեման, այն կարող է փորձել ստուգել այն։ ( Ջրանիշ մեծ լեզվական մոդելների համար ; SynthID տեքստ )

Բայց… ոչ բոլոր մոդելների ջրանիշերն են, ոչ բոլոր ելքային տվյալները պահպանում են ջրանիշը խմբագրումներից հետո, և ոչ բոլոր դետեկտորներն ունեն գաղտնի բաղադրիչին մուտք գործելու հնարավորություն։ Այսպիսով, սա համընդհանուր լուծում չէ։ ( Ջրանիշների հուսալիության մասին մեծ լեզվական մոդելների համար ; OpenAI )


3) Ի՞նչն է արհեստական ​​բանականության դետեկտորի տարբերակը դարձնում լավը ✅

«Լավ» դետեկտորը (իմ փորձից ելնելով՝ խմբագրական աշխատանքային հոսքերի համար դրանցից մի քանիսը կողք կողքի փորձարկելով) այն չէ, որն ամենաբարձրն է գոռում։ Այն այն է, որն իրեն պատասխանատու է պահում։.

Ահա թե ինչն է արհեստական ​​ինտելեկտի դետեկտորը դարձնում հուսալի

Լավագույնները, որոնք ես տեսել եմ, սովորաբար մի փոքր համեստ են լինում։ Ամենավատերը այնպես են վարվում, կարծես մտքեր են կարդում 😬


4) Համեմատական ​​աղյուսակ - արհեստական ​​ինտելեկտի դետեկտորների տարածված «տեսակներ» և որտեղ են դրանք փայլում 🧾

Ստորև ներկայացված է գործնական համեմատություն։ Սրանք ապրանքանիշեր չեն, այլ հիմնական կատեգորիաներ, որոնց դուք կհանդիպեք։ ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

Գործիքի տեսակը (մոտավորապես) Լավագույն լսարանը Գնի զգացողություն Ինչու է այն աշխատում (երբեմն)
Շփոթվածության ստուգիչ Lite Ուսուցիչներ, արագ ստուգումներ Ազատի նման Արագ ազդանշան կանխատեսելիության վերաբերյալ, բայց կարող է լինել անկայուն…
Դասակարգիչ սկաներ Pro Խմբագիրներ, մարդկային ռեսուրսներ, համապատասխանության բաժին Բաժանորդագրություն Սովորում է օրինաչափություններ պիտակավորված տվյալներից՝ լավ է միջին երկարության տեքստի վրա
Ոճաչափության վերլուծիչ Հետազոտողներ, դատաբժշկական փորձագետներ $$$ կամ նիշային Համեմատում է գրելու մատնահետքերը՝ տարօրինակ, բայց հարմար երկար ձևաչափով
Ջրանիշի որոնիչ Հարթակներ, ներքին թիմեր Հաճախ փաթեթավորված Ուժեղ է, երբ ջրանիշը գոյություն ունի. եթե այն չկա, դա, ըստ էության, ուսերը թոթվելն է
Հիբրիդային ձեռնարկությունների փաթեթ Խոշոր կազմակերպություններ Մեկ տեղի համար, պայմանագրեր Միավորում է բազմաթիվ ազդանշաններ՝ ավելի լավ ծածկույթ, ավելի շատ կարգավորման կոճակներ (և ավելի շատ եղանակներ սխալ կարգավորելու համար, ուփս):

Ուշադրություն դարձրեք «գնի զգացողություն» սյունակին։ Այո, դա գիտական ​​չէ։ Բայց դա անկեղծ է 😄


5) Հիմնական ազդանշանները, որոնք դետեկտորները փնտրում են՝ «պատմում» են 🧠

Ահա թե ինչ են շատ դետեկտորներ փորձում չափել կափարիչի տակ

Կանխատեսելիություն (նշանային հավանականություն)

Լեզվական մոդելները տեքստ են ստեղծում՝ կանխատեսելով հաջորդ հավանական տոկենները։ Սա հակված է ստեղծել

Մյուս կողմից, մարդիկ հաճախ ավելի շատ են զիգզագաձև շարժվում։ Մենք հակասում ենք ինքներս մեզ, ավելացնում ենք պատահական կողմնակի մեկնաբանություններ, օգտագործում ենք մի փոքր անտեղի փոխաբերություններ, օրինակ՝ արհեստական ​​բանականության դետեկտորը համեմատում ենք պոեզիան գնահատող տոստերի հետ։ Այդ փոխաբերությունը վատն է, բայց դուք հասկանում եք։.

Կրկնության և կառուցվածքի օրինաչափություններ

Արհեստական ​​​​ինտելեկտի միջոցով գրելը կարող է ցույց տալ նուրբ կրկնություն

Բայց նաև՝ շատ մարդիկ այդպես են գրում, հատկապես դպրոցում կամ կորպորատիվ միջավայրում: Այսպիսով, կրկնությունը ակնարկ է, այլ ոչ թե ապացույց:.

Չափազանց պարզ և «չափազանց մաքուր» արձակ ✨

Սա յուրօրինակ դեպք է։ Որոշ դետեկտորներ «շատ մաքուր գրությունը» անուղղակիորեն կասկածելի են համարում։ ( OpenAI )

Որը անհարմար է, քանի որ

  • լավ գրողներ գոյություն ունեն

  • խմբագիրներ գոյություն ունեն

  • ուղղագրության ստուգում գոյություն ունի

Այսպիսով, եթե մտածում եք, թե ինչպես են աշխատում արհեստական ​​ինտելեկտի դետեկտորները , պատասխանի մի մասն այն է, որ երբեմն նրանք խրախուսում են կոպտությունը։ Որը… մի փոքր հակառակն է։

Իմաստային խտություն և ընդհանուր արտահայտություն

Դետեկտորները կարող են նշել տեքստ, որը պարունակում է՝

Արհեստական ​​բանականությունը հաճախ ստեղծում է բովանդակություն, որը հնչում է ողջամիտ, բայց մի փոքր էլ մշակված։ Օրինակ՝ հյուրանոցային համար, որը գեղեցիկ տեսք ունի, բայց զրոյական անհատականություն ունի 🛏️


6) Դասակարգչի մոտեցումը. ինչպես է այն մարզվում (և ինչու է այն խափանվում) 🧪

Դասակարգիչի դետեկտորը սովորաբար մարզվում է հետևյալ կերպ

  1. Հավաքեք մարդկային տեքստի տվյալների հավաքածու (էսսեներ, հոդվածներ, ֆորումներ և այլն):

  2. Ստեղծեք արհեստական ​​բանականության տեքստ (բազմակի հուշումներ, ոճեր, երկարություններ)

  3. Նշեք նմուշները

  4. Մարզեք մոդելին՝ դրանք առանձնացնելու համար՝ օգտագործելով առանձնահատկություններ կամ ներդրված տարրեր

  5. Հաստատեք այն պահված տվյալների վրա

  6. Առաքեք այն… և հետո իրականությունը հարվածում է դրա դեմքին ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

Ինչու է իրականությունը հարվածում դրան

  • Դոմեյնի տեղաշարժ . մարզման տվյալները չեն համընկնում իրական օգտատիրոջ գրած տվյալների հետ

  • Մոդելի փոփոխություն . նոր սերնդի մոդելները չեն գործում տվյալների բազայի մոդելների նման

  • Խմբագրման էֆեկտներ . մարդկային խմբագրումները կարող են հեռացնել ակնհայտ օրինաչափությունները, բայց պահպանել նուրբ օրինաչափությունները

  • Լեզվի բազմազանություն . բարբառները, ESL գրելաձևը և ֆորմալ ոճերը սխալ են մեկնաբանվում ( Հետազոտություն LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ ; Լիանգ և այլք (arXiv) )

Ես տեսել եմ դետեկտորներ, որոնք «գերազանց» էին իրենց սեփական ցուցադրական հավաքածուի ժամանակ, ապա փչացել էին իրական աշխատավայրում գրելու ժամանակ։ Դա նման է նրան, որ ստուգող շանը մարզես միայն մեկ ապրանքանիշի թխվածքաբլիթների վրա և սպասես, որ այն կգտնի աշխարհի բոլոր խորտիկները 🍪


7) Շփոթվածություն և պոռթկում՝ մաթեմատիկական կարճ ճանապարհ 📉

Այս դետեկտորների ընտանիքը հակված է հիմնվել լեզվական մոդելի գնահատման վրա

  • Նրանք ձեր տեքստը անցկացնում են մոդելի միջոցով, որը գնահատում է, թե որքան հավանական է յուրաքանչյուր հաջորդ թոքենը։.

  • Նրանք հաշվարկում են ընդհանուր «զարմանքը» (շփոթվածությունը): ( Բոստոնի համալսարան - Շփոթվածության գրառումներ )

  • Նրանք կարող են ավելացնել վարիացիոն չափանիշներ («պոռթկումայինություն»)՝ տեսնելու համար, թե արդյոք ռիթմը մարդկային է զգացվում: ( GPTZero )

Ինչու է այն երբեմն աշխատում

  • հում արհեստական ​​բանականության տեքստը կարող է լինել չափազանց սահուն և վիճակագրորեն կանխատեսելի ( DetectGPT )

Ինչու է այն ձախողվում

  • կարճ նմուշները աղմկոտ են

  • ֆորմալ գրելը կանխատեսելի է

  • տեխնիկական գրելը կանխատեսելի է

  • Ոչ մայրենի լեզվով գրելը կարող է կանխատեսելի լինել

  • Խիստ խմբագրված արհեստական ​​բանականության տեքստը կարող է մարդկային տեսք ունենալ ( OpenAI ; Turnitin )

Այսպիսով, արհեստական ​​ինտելեկտի դետեկտորների աշխատանքը երբեմն նման է արագաչափի, որը շփոթում է հեծանիվներն ու մոտոցիկլետները։ Նույն ճանապարհը, տարբեր շարժիչներ 🚲🏍️


8) Ջրանիշեր՝ «մատնահետքի թանաքի մեջ» գաղափարը 🖋️

Ջրանիշը թվում է մաքուր լուծում. նշեք արհեստական ​​բանականության տեքստը ստեղծման պահին, ապա հայտնաբերեք այն ավելի ուշ: ( Ջրանիշ մեծ լեզվական մոդելների համար ; SynthID տեքստ )

Գործնականում, ջրանիշերը կարող են փխրուն լինել

Բացի այդ, ջրանիշի հայտնաբերումը գործում է միայն այն դեպքում, եթե՝

  • օգտագործվում է ջրանիշ

  • դետեկտորը գիտի, թե ինչպես ստուգել այն

  • Տեքստը շատ չի փոխակերպվել ( OpenAI ; SynthID Text )

Այո՛, ջրանիշերը կարող են հզոր լինել, բայց դրանք ոստիկանության ունիվերսալ նշան չեն։.


9) Կեղծ դրական արդյունքներ և դրանց առաջացման պատճառը (ցավոտ մասը) 😬

Սա արժանի է առանձին բաժնի, քանի որ այստեղ է ամենաշատ վեճը։.

Հաճախակի կեղծ դրական արձագանքի ազդակներ

  • Շատ պաշտոնական տոն (ակադեմիական, իրավաբանական, համապատասխանության վերաբերյալ գրավոր աշխատանք)

  • Ոչ մայրենի անգլերեն (ավելի պարզ նախադասությունների կառուցվածքները կարող են «մոդելի տեսք ունենալ»)

  • Շաբլոնների վրա հիմնված գրագրություն (ուղեկցող նամակներ, ստանդարտ ընթացակարգեր, լաբորատոր զեկույցներ)

  • Կարճ տեքստի նմուշներ (բավարար ազդանշան չէ)

  • Թեմատիկ սահմանափակումներ (որոշ թեմաներ պահանջում են կրկնվող արտահայտություններ) ( Լիանգ և այլք (arXiv) ; Turnitin )

Եթե ​​երբևէ տեսել եք, որ ինչ-որ մեկը քննադատվի չափազանց լավ գրելու համար… այո։ Այդպիսի բաներ պատահում են։ Եվ դա դաժան է։.

Դետեկտորի գնահատականը պետք է դիտարկել հետևյալ կերպ

  • ծխի ազդանշան, ոչ թե դատարանի որոշում 🔥
    Այն ասում է «գուցե ստուգում է», այլ ոչ թե «գործը փակված է» ( OpenAI ; Turnitin )


10) Ինչպես մեկնաբանել դետեկտորի միավորները մեծահասակի պես 🧠🙂

Ահա արդյունքները կարդալու գործնական եղանակ

Եթե ​​գործիքը տալիս է մեկ տոկոս

Վերաբերվեք դրան որպես մոտավոր ռիսկի ազդանշանի

  • 0-30%հավանաբար մարդու կողմից կամ խիստ խմբագրված

  • 30-70%երկիմաստ գոտի - ոչինչ մի ենթադրեք

  • 70-100% ՝ ավելի հավանական է արհեստական ​​բանականության նման օրինաչափություններ, բայց դեռևս ապացույց չեն ( Turnitin ուղեցույցներ )

Նույնիսկ բարձր միավորները կարող են սխալ լինել, հատկապես հետևյալ դեպքերում՝

  • ստանդարտացված գրություն

  • որոշակի ժանրեր (ամփոփումներ, սահմանումներ)

  • Անգլերեն լեզվի գրավոր աշխատանք ( Լիանգ և այլք (arXiv) )

Փնտրեք բացատրություններ, ոչ թե միայն թվեր

Ավելի լավ դետեկտորները ապահովում են՝

Եթե ​​գործիքը հրաժարվում է որևէ բան բացատրելուց և պարզապես թիվ է շպրտում ճակատիդ… ես չեմ վստահում դրան։ Դու էլ չպետք է վստահես։.


11) Ինչպես են աշխատում արհեստական ​​ինտելեկտի դետեկտորները. պարզ մտավոր մոդել 🧠🧩

Եթե ​​ուզում եք մաքուր ընթրիք, օգտագործեք այս մտավոր մոդելը

  1. Արհեստական ​​բանականության դետեկտորները փնտրում են մեքենայական ստեղծած տեքստում տարածված վիճակագրական և ոճական օրինաչափություններ Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

  2. Նրանք համեմատում են այդ օրինաչափությունները վերապատրաստման օրինակներից իրենց սովորածի հետ: ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

  3. Նրանք տալիս են հավանականության նման ենթադրություն , այլ ոչ թե փաստացի ծագման պատմություն: ( OpenAI )

  4. Գուշակությունը զգայուն է ժանրի, թեմայի, տևողության, խմբագրումների և դետեկտորի մարզման տվյալների ։ ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

Այլ կերպ ասած, արհեստական ​​ինտելեկտի դետեկտորների աշխատանքի սկզբունքն այն է, որ նրանք «դատում են նմանությունը», այլ ոչ թե հեղինակությունը: Ինչպես ասել, որ մեկը նման է իր զարմիկին: Դա նույնը չէ, ինչ ԴՆԹ թեստը… և նույնիսկ ԴՆԹ թեստերն ունեն եզրային դեպքեր:


12) Գործնական խորհուրդներ պատահական դրոշները նվազեցնելու համար (առանց խաղեր խաղալու) ✍️✅

Ոչ թե «ինչպես խաբել դետեկտորներին»։ Ավելի շուտ՝ ինչպես գրել այնպես, որ արտացոլվի իրական հեղինակությունը և խուսափվի տարօրինակ սխալ մեկնաբանություններից։.

  • Ավելացրեք կոնկրետ մանրամասներ՝ իրականում օգտագործած հասկացությունների անուններ, ձեռնարկած քայլեր, հաշվի առած փոխզիջումներ

  • Օգտագործեք բնական տատանումներ. խառնեք կարճ և երկար նախադասություններ (ինչպես մարդիկ են անում, երբ մտածում են):

  • Ներառեք իրական սահմանափակումներ՝ ժամանակային սահմանափակումներ, օգտագործված գործիքներ, ինչն է սխալ գնացել, ինչ կանեիք այլ կերպ։

  • Խուսափեք ձևանմուշային չափազանց շատ ձևակերպումներից. «Ավելին» փոխարինեք այն բանով, որը իրականում կասեիք։

  • Պահպանեք նախագծեր և նշումներ. եթե երբևէ վեճ առաջանա, գործընթացի ապացույցները ավելի կարևոր են, քան ներքին զգացողությունը։

Իրականում, լավագույն պաշտպանությունը պարզապես… անկեղծ լինելն է։ Անկեղծորեն անկեղծ, այլ ոչ թե «կատարյալ գրքույկի» անկեղծություն։.


Եզրափակիչ նշումներ 🧠✨

Արհեստական ​​բանականության դետեկտորները կարող են արժեքավոր լինել, բայց դրանք ճշմարտության մեքենաներ չեն։ Դրանք անկատար տվյալների վրա մարզված օրինաչափությունների համապատասխանեցնողներ են, որոնք աշխատում են մի աշխարհում, որտեղ գրելու ոճերը անընդհատ համընկնում են։ ( OpenAI ; Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

Հակիրճ՝

  • Դետեկտորները հիմնված են դասակարգիչների, շփոթվածության/պոռթկունության, ոճաչափության և երբեմն ջրանիշերի վրա 🧩 ( Հարցում LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ )

  • Նրանք գնահատում են «արհեստական ​​բանականության նմանությունը», այլ ոչ թե որոշակիությունը ( OpenAI )

  • Կեղծ դրական արդյունքներ հաճախ են լինում ֆորմալ, տեխնիկական կամ ոչ բնիկ գրվածքներում 😬 ( Լիանգ և այլք (arXiv) ; Turnitin )

  • Օգտագործեք դետեկտորի արդյունքները որպես վերանայման հուշում, այլ ոչ թե որպես դատավճիռ ( Turnitin )

Եվ այո… եթե մեկը կրկին հարցնի, թե ինչպես են աշխատում արհեստական ​​ինտելեկտի դետեկտորները , կարող եք պատասխանել. «Նրանք կռահում են՝ հիմնվելով օրինաչափությունների վրա՝ երբեմն խելացի, երբեմն՝ հիմար, միշտ՝ սահմանափակ»։ 🤖

Հաճախակի տրվող հարցեր

Ինչպե՞ս են արհեստական ​​բանականության դետեկտորները աշխատում գործնականում։

Արհեստական ​​բանականության դետեկտորների մեծ մասը չի «ապացուցում» հեղինակությունը: Նրանք գնահատում են, թե որքանով է ձեր տեքստը նման լեզվական մոդելների կողմից սովորաբար ստեղծված օրինաչափություններին, այնուհետև արտածում են հավանականության նման գնահատական: Ներսում նրանք կարող են օգտագործել դասակարգիչ մոդելներ, շփոթության ոճով կանխատեսելիության գնահատական, ոճաչափության առանձնահատկություններ կամ ջրանիշի ստուգումներ: Արդյունքը լավագույնս դիտարկվում է որպես ռիսկի ազդանշան, այլ ոչ թե վերջնական դատավճիռ:.

Ի՞նչ ազդանշաններ են արհեստական ​​բանականության դետեկտորները փնտրում գրավոր։

Հաճախ հանդիպող ազդանշաններից են կանխատեսելիությունը (թե որքան է մոդելը «զարմացած» ձեր հաջորդ բառերից), նախադասությունների կառուցվածքում կրկնությունը, անսովոր հետևողական տեմպը և ընդհանուր արտահայտությունները՝ քիչ կոնկրետ մանրամասներով: Որոշ գործիքներ նաև ուսումնասիրում են ոճաչափության նշիչներ, ինչպիսիք են նախադասության երկարությունը, կետադրական սովորույթները և ֆունկցիոնալ բառերի հաճախականությունը: Այս ազդանշանները կարող են համընկնել մարդկային գրավոր աշխատանքի հետ, հատկապես ֆորմալ, ակադեմիական կամ տեխնիկական ժանրերում:.

Ինչո՞ւ են արհեստական ​​բանականության դետեկտորները մարդկային գրությունը նշում որպես արհեստական ​​բանականություն։

Կեղծ դրական արդյունքներ են ստացվում, երբ մարդկային գրվածքը վիճակագրորեն «հարթ» կամ ձևանմուշի նման է թվում: Պաշտոնական տոնը, համապատասխանության ոճի ձևակերպումները, տեխնիկական բացատրությունները, կարճ նմուշները և ոչ մայրենի անգլերենը կարող են սխալմամբ մեկնաբանվել որպես արհեստական ​​բանականության նման, քանի որ դրանք նվազեցնում են տատանումները: Ահա թե ինչու մաքուր, լավ խմբագրված պարբերությունը կարող է բարձր միավորներ ստանալ: Դետեկտորը համեմատում է նմանությունը, այլ ոչ թե հաստատում ծագումը:.

Արդյո՞ք շփոթվածության և «պայթյունի» դետեկտորները հուսալի են։

Շփոթվածության վրա հիմնված մեթոդները կարող են աշխատել, երբ տեքստը հում, խիստ կանխատեսելի արհեստական ​​ինտելեկտի արդյունք է։ Սակայն դրանք փխրուն են. կարճ հատվածները աղմկոտ են, և շատ օրինական մարդկային ժանրեր բնականաբար կանխատեսելի են (ամփոփումներ, սահմանումներ, կորպորատիվ էլեկտրոնային նամակներ, ձեռնարկներ)։ Խմբագրումը և հղկումը նույնպես կարող են զգալիորեն փոխել գնահատականը։ Այս գործիքները հարմար են արագ տեսակավորման համար, այլ ոչ թե ինքնուրույն բարձր ռիսկային որոշումների համար։.

Ի՞նչ տարբերություն կա դասակարգիչ դետեկտորների և ոճաչափության գործիքների միջև:

Դասակարգիչ դետեկտորները սովորում են մարդկային և արհեստական ​​ինտելեկտի (և երբեմն հիբրիդային) տեքստերի պիտակավորված տվյալների հավաքածուներից և կանխատեսում, թե ձեր տեքստը որ դույլին է ամենաշատը նման։ Ոճաչափության գործիքները կենտրոնանում են գրելու «մատնահետքերի» վրա, ինչպիսիք են բառերի ընտրության ձևերը, ֆունկցիոնալ բառերը և ընթեռնելիության ազդանշանները, որոնք կարող են ավելի տեղեկատվական լինել երկար ձևի վերլուծության մեջ։ Երկու մոտեցումներն էլ տառապում են տիրույթի տեղաշարժից և կարող են դժվարություններ ունենալ, երբ գրելու ոճը կամ թեման տարբերվում է իրենց մարզման տվյալներից։.

Արդյո՞ք ջրանիշերը վերջնականապես լուծում են արհեստական ​​ինտելեկտի հայտնաբերման խնդիրը։

Ջրանիշները կարող են ուժեղ լինել, երբ մոդելն օգտագործում է դրանք, և դետեկտորը գիտի ջրանիշի սխեման։ Իրականում, ոչ բոլոր մատակարարների ջրանիշներն են, և տարածված փոխակերպումները՝ վերաձևակերպումը, թարգմանությունը, մասնակի մեջբերումները կամ աղբյուրների խառնումը, կարող են թուլացնել կամ խաթարել օրինաչափությունը։ Ջրանիշի հայտնաբերումը հզոր է նեղ դեպքերում, երբ ամբողջ շղթան գծվում է, բայց այն համընդհանուր ծածկույթ չէ։.

Ինչպե՞ս պետք է մեկնաբանեմ «X% AI» գնահատականը։

Մեկ տոկոսը համարեք «արհեստական ​​բանականության նմանության» մոտավոր ցուցիչ, այլ ոչ թե արհեստական ​​բանականության հեղինակության ապացույց: Միջին միջակայքի գնահատականները հատկապես երկիմաստ են, և նույնիսկ բարձր գնահատականները կարող են սխալ լինել ստանդարտացված կամ ֆորմալ գրավոր աշխատանքներում: Ավելի լավ գործիքները տրամադրում են բացատրություններ, ինչպիսիք են ընդգծված տարածությունները, առանձնահատկությունների նշումները և անորոշության լեզուն: Եթե դետեկտորը չի բացատրում իրեն, մի՛ համարեք այդ թիվը հեղինակավոր:.

Ի՞նչն է դարձնում արհեստական ​​բանականության դետեկտորը լավը դպրոցների կամ խմբագրական աշխատանքային հոսքերի համար։

Հստակ դետեկտորը կարգավորված է, նվազագույնի է հասցնում կեղծ դրականները և հստակորեն հաղորդում է սահմանները։ Այն պետք է խուսափի կարճ նմուշների վերաբերյալ չափազանց վստահ պնդումներից, մշակի տարբեր ոլորտներ (ակադեմիական vs բլոգային vs տեխնիկական) և մնա կայուն, երբ մարդիկ վերանայում են տեքստը։ Ամենապատասխանատու գործիքները գործում են համեստորեն. դրանք առաջարկում են ապացույցներ և անորոշություն, այլ ոչ թե գործում են որպես մտքեր կարդացողներ։.

Ինչպե՞ս կարող եմ նվազեցնել պատահական արհեստական ​​ինտելեկտի դրոշները՝ առանց համակարգը «խաղալու»։

Կենտրոնացեք հեղինակության իսկական ազդանշանների վրա, այլ ոչ թե հնարքների վրա: Ավելացրեք կոնկրետ մանրամասներ (ձեր ձեռնարկած քայլերը, սահմանափակումները, փոխզիջումները), բնականաբար փոփոխեք նախադասությունների ռիթմը և խուսափեք չափազանց ձևանմուշային անցումներից, որոնք սովորաբար չէիք օգտագործի: Պահպանեք նախագծերը, նշումները և վերանայման պատմությունը. վեճերի դեպքում գործընթացի ապացույցները հաճախ ավելի կարևոր են, քան դետեկտորային գնահատականը: Նպատակը անհատականությամբ պարզությունն է, այլ ոչ թե գրքույկի կատարյալ արձակը:.

Հղումներ

  1. Հաշվողական լեզվաբանության ասոցիացիա (ACL անթոլոգիա) - LLM-ի կողմից ստեղծված տեքստի հայտնաբերման վերաբերյալ հետազոտություն - aclanthology.org

  2. OpenAI - Արհեստական ​​բանականության նոր դասակարգիչ՝ արհեստական ​​բանականության կողմից գրված տեքստը նշելու համար - openai.com

  3. Turnitin ուղեցույցներ - Արհեստական ​​​​բանականության միջոցով գրության հայտնաբերում դասական հաշվետվության տեսքով - guides.turnitin.com

  4. Turnitin ուղեցույցներ - Արհեստական ​​գրության հայտնաբերման մոդել - guides.turnitin.com

  5. Turnitin - Կեղծ դրականների ըմբռնումը մեր արհեստական ​​ինտելեկտի գրության հայտնաբերման հնարավորությունների շրջանակներում - turnitin.com

  6. arXiv - DetectGPT - arxiv.org

  7. Բոստոնի համալսարան - Շփոթվածության գրառումներ - cs.bu.edu

  8. GPTZero - Շփոթվածություն և պոռթկում. ի՞նչ է դա: - gptzero.me

  9. PubMed Central (NCBI) - Ոճաչափություն և դատաբժշկական գիտություն. Գրականության վերանայում - ncbi.nlm.nih.gov

  10. Հաշվողական լեզվաբանության ասոցիացիա (ACL անթոլոգիա) - Գործառույթային բառեր հեղինակային իրավունքի վկայագրում - aclanthology.org

  11. arXiv - Ջրանիշ մեծ լեզվական մոդելների համար - arxiv.org

  12. Google-ի արհեստական ​​բանականություն մշակողների համար - SynthID տեքստ - ai.google.dev

  13. arXiv - Ջրանիշերի հուսալիության մասին մեծ լեզվական մոդելների համար - arxiv.org

  14. OpenAI - Հասկանալով առցանց տեսածի և լսածի աղբյուրը - openai.com

  15. Սթենֆորդի HAI - Արհեստական ​​բանականության դետեկտորները կողմնակալ են ոչ անգլերեն լեզվով գրողների նկատմամբ - hai.stanford.edu

  16. arXiv - Լիանգ և այլք - arxiv.org

Գտեք արհեստական ​​բանականության վերջին նորույթները պաշտոնական արհեստական ​​բանականության օգնականների խանութում

Մեր մասին

Վերադառնալ բլոգ