Data publicării:
Cum se schimbă comportamentul ChatGPT în timp? Un studiu arată că își pierde capacitatea după ce a eșuat în rezolvare unor probleme de matematică
Matei Zaharia, un informatician româno-canadian specializat în big data, alături de alți doi cercetători (Lingjiao Chen și James Zou) au realizat un studiu care demonstrează că ultima versiune a ChatGPT nu se descurcă la fel de bine la matematică precum versiunea sa mai veche.
În ultima perioadă, tot mai mulți oameni se tem de progresul inteligenței artificiale, însă cercetătorii de la Universitatea Stanford și de la Universitatea din California, Berkeley, au lansat o lucrare de cercetare care intenționează să arate modificări ale rezultatelor GPT-4 de-a lungul timpului.
Lucrarea alimentează o credință comună, că modelul de limbaj AI a devenit mai slab la sarcinile de codificare și compoziție în ultimele câteva luni.
Potrivit cercetătorilor, în dezvoltarea inteligenței artificiale, această deteriorare poartă numele de drift și se datorează încercării cercetătorilor de a dezvolta anumite modele, însă în același timp efectul este slăbirea calității altora.
In studiul care se numește „Cum se schimbă comportamentul ChatGPT în timp?”, cei trei cercetători pun la îndoială performanța consecventă a modelelor de limbaj mari (LLM) OpenAI, în special GPT-3.5 și GPT-4.
Folosind accesul API, ei au testat versiunile din martie și iunie 2023 ale acestor modele pe sarcini precum rezolvarea problemelor de matematică, răspunsul la întrebări sensibile, generarea de cod și raționamentul vizual.
Cel mai important, capacitatea GPT-4 de a identifica numerele prime a scăzut dramatic de la o precizie de 97,6%, în martie, la doar 2,4% în iunie. În mod ciudat, GPT-3.5 a arătat o performanță îmbunătățită în aceeași perioadă, potrivit Arstechnica.com.
Ambele servicii arată o suprapunere mare între versiunile lor. În ceea ce privește GPT-4, rata de răspuns a acestuia a scăzut, iar verbozitatea a scăzut în consecință. GPT-3, totuși, arată o ușoară creștere a ratei de răspuns, în timp ce arată o scădere a nivelului de verbozitate.
Concluziile studiului
- GPT-4 pare să eșueze în raționamentul CoT atunci când rezolvă probleme de matematică, în timp ce GPT-3.5 are rezultate bune.
- GPT-4 alege să nu spună multe atunci când sunt adresate întrebări sensibile, precum și GPT-3.5, deși acesta din urmă răspunde puțin mai mult decât versiunea sa anterioară.
- Din cauza modificărilor formatului de răspuns, ambele servicii redau coduri neexecutabile.
- Deși există o îmbunătățire a performanței în raționamentul vizual, aceasta rămâne scăzută pentru ambele servicii.
Fiți la curent cu ultimele noutăți. Urmăriți DCNews și pe Google News