Cercetătorii au identificat o serie de cazuri în care sistemele AI au înșelat adversarii, au blufat și au pretins că sunt umane. Un sistem chiar și-a schimbat comportamentul în timpul unor teste de siguranță simulate, ceea ce ridică posibilitatea ca auditorii să fie induși în eroare cu privire la siguranța sistemului, scrie The Guardian.
"Pe măsură ce capacitățile de înșelăciune ale sistemelor de inteligență artificială devin din ce în ce mai avansate, pericolele pe care le reprezintă pentru societate vor deveni tot mai grave", a declarat dr. Peter Park, cercetător în siguranța existențială a AI la MIT și autor al cercetării.
Park a fost determinat să investigateze după ce Meta, compania care deține Facebook, a dezvoltat un program numit Cicero care a jucat în topul celor 10% dintre jucătorii umani la jocul de strategie de cucerire a lumii, Diplomacy. Meta a declarat că Cicero a fost antrenat să fie "în mare măsură onest și util" și să "nu înșele niciodată intenționat" aliații săi umani.
"Limba folosită era foarte optimistă, ceea ce era suspect, deoarece înșelăciunea este unul dintre cele mai importante concepte din joc", a declarat Park.
Park și colegii săi au analizat datele disponibile public și au identificat mai multe cazuri în care Cicero a spus minciuni premeditate, a colaborat pentru a atrage alți jucători în intrigi și, într-un caz, și-a justificat absența după ce a fost repornit spunând altui jucător: "Sunt la telefon cu prietena mea." "Am descoperit că AI-ul de la Meta a învățat să fie un maestru al înșelăciunii", a declarat Park.
Echipa de la MIT a găsit probleme similare și la alte sisteme, inclusiv un program de poker Texas hold 'em care putea blufa împotriva jucătorilor profesioniști umani și un alt sistem pentru negocieri economice care și-a prezentat greșit preferințele pentru a obține un avantaj.
Într-un studiu, organismele AI dintr-un simulator digital "au făcut pe moarte" pentru a-i înșela pe cei care testau sistemele care au evoluat pentru a se replica rapid, înainte de a relua activitatea viguroasă odată ce testele au fost finalizate. Acest lucru evidențiază provocarea tehnică de a se asigura că sistemele nu prezintă comportamente nedorite și neașteptate.
"Asta este foarte preocupant", a declarat Park. "Doar pentru că un sistem AI este considerat sigur în mediul de testare, nu înseamnă că este sigur în lumea reală. Ar putea doar să facă pe că este sigur în test."
Revizuirea, publicată în revista Patterns, cere guvernelor să elaboreze legi privind siguranța AI care să țină seama de potențialul de înșelăciune al acestor sisteme. Riscurile provenite din sisteme AI necinstite includ fraudă, manipularea alegerilor și "sandbagging", unde diferiți utilizatori primesc răspunsuri diferite. Dacă aceste sisteme își vor rafina capacitatea lor de înșelăciune, oamenii ar putea pierde controlul asupra lor, sugerează studiul.
Profesorul Anthony Cohn, profesor de raționament automat la Universitatea din Leeds și la Institutul Alan Turing, a declarat că studiul este "oportun și binevenit", adăugând că există o provocare semnificativă în definirea comportamentelor dorite și nedorite pentru sistemele AI.
"Calitățile dorite pentru un sistem AI (cele "trei H") sunt adesea notate ca fiind onestitatea, utilitatea și nepericulo
"Această cercetare evidențiază o provocare importantă în ceea ce privește dezvoltarea sistemelor de inteligență artificială sigure și etice. Pe măsură ce capacitatea de înșelăciune a acestor sisteme devine din ce în ce mai avansată, este necesar să ne asigurăm că ele nu reprezintă o amenințare pentru societate", a declarat Cohn.
Un purtător de cuvânt al Meta a declarat: "Lucrarea noastră la Cicero a fost doar un proiect de cercetare și modelele pe care le-au construit cercetătorii noștri sunt instruite doar să joace jocul Diplomacy ... Meta împărtășește în mod regulat rezultatele cercetării noastre pentru a valida acestea și pentru a permite celorlalți să construiască responsabil pe baza progreselor noastre. Nu avem planuri să folosim această cercetare sau ceea ce am învățat din ea în produsele noastre."
Fiți la curent cu ultimele noutăți. Urmăriți DCNews și pe Google News
- Elicopterul în care s-ar afla președintele Iranului, prăbușit. Chirieac: Se va da vina pe Israel şi pe Occident. Tensiunile vor ajunge la cer
- Orașul despre care Daniel Buzdugan spune că ar putea fi Salonicul României - Foto în articol
- Romanița Iovan, mărturisiri: "Sunt în viață datorită mamei, pentru că au fost presiuni". Reacția tatălui la maternitate
- Semnalul dat de BNR privind economia. Adrian Negrescu: Ce urmează pentru România
- Gelozia, minciuna şi manipularea asociată cu dependenţa de droguri, impact asupra relaţiilor de cuplu. Radu Leca: Sunt singurul din România care o spune
- Marea reorganizare din Ministerul Muncii: Sunt mai puțini cu... 7 angajați!
- Va plăti rate până la 68 de ani pentru un apartament cu două camere, dar nu-i pare rău. „Accept situația așa cum este”
- Ce a făcut președintele Iranului, Ebrahim Raisi, înainte de accidentul cu elicopterul
- Compania de apă controlată de Ion Dumitrel, CJ Alba, usucă la buzunare. Doi pensionari speciali, la robinet
- UPDATE: Semiluna Roșie a Iranului neagă faptul că ar fi fost găsit elicopterul / Elicopterul în care s-ar afla președintele Iranului, Ebrahim Raisi, s-a prăbușit
- Cum sunt prinse firmele cu administrator fictiv, numit și „om de paie”. Comisar: Întotdeauna identificăm adevăratul șef, aceștia nu scapă
- Lupta dependenților, de două ori mai grea într-un cuplu în care ambii consumă. Psiholog: Partenerul poate fi un obstacol în calea recuperării
- România o ia pe urmele Greciei. Negrescu: Cheltuielile statului, cu 28% mai mari în 2024, în țara codașă la colectarea TVA