Data publicării: 21.06.2024 18:50

Mai multe companii de AI ocolesc standardele web pentru a extrage conținut de pe site-uri

Autor: Tudor Polojan | Categorie: Tehnologie

Sursa foto: Pexels

Mai multe companii de inteligență artificială ocolesc un standard web comun folosit de editori pentru a bloca extragerea conținutului lor pentru utilizarea în sistemele de AI generative, a spus startup-ul de licențiere a conținutului TollBit editorilor, scrie Reuters.

O scrisoare adresată editorilor, văzută de Reuters vineri, care nu numește companiile de AI sau editorii afectați, vine în contextul unei dispute publice între startup-ul de căutare AI Perplexity și publicația media Forbes, implicând același standard web și o dezbatere mai amplă între firmele de tehnologie și cele media privind valoarea conținutului în era AI generative.

Publicația de business media a acuzat public Perplexity de plagierea articolelor sale de investigație în rezumate generate de AI fără a cita Forbes sau a cere permisiunea acestuia. O investigație Wired publicată săptămâna aceasta a descoperit că Perplexity probabil a ocolit eforturile de a bloca crawler-ul său web prin intermediul protocolului de excludere a roboților, sau "robots.txt", un standard larg acceptat menit să determine ce părți ale unui site pot fi accesate de crawlere. Perplexity a refuzat să comenteze pentru sursa citată în legătură cu disputa.

TollBit, un startup în stadiu incipient, se poziționează ca un intermediar între companiile de AI înfometate de conținut și editorii deschiși să încheie acorduri de licențiere cu acestea. Compania urmărește traficul AI către site-urile editorilor și folosește analize pentru a ajuta ambele părți să stabilească taxele care trebuie plătite pentru utilizarea diferitelor tipuri de conținut.

De exemplu, editorii pot opta să stabilească tarife mai mari pentru conținut premium, cum ar fi ultimele știri sau perspective exclusive, spune compania pe site-ul său. Aceasta spune că avea 50 de site-uri active începând cu luna mai, deși nu le-a numit. Potrivit scrisorii TollBit, Perplexity nu este singurul vinovat care pare să ignore robots.txt.

TollBit a spus că analizele sale indică faptul că numeroși agenți AI ocolesc protocolul, un instrument standard folosit de editori pentru a indica ce părți ale site-ului lor pot fi accesate de crawlere.

"În termeni practici, asta înseamnă că agenții AI din mai multe surse (nu doar o singură companie) optează să ocolească protocolul robots.txt pentru a prelua conținut de pe site-uri. Cu cât ingestăm mai multe jurnale ale editorilor, cu atât acest tipar devine mai evident." a scris TollBit.

Protocolul robots.txt a fost creat la mijlocul anilor 1990 ca o modalitate de a evita supraîncărcarea site-urilor cu crawlere web. Deși nu există un mecanism legal de aplicare, istoric vorbind a existat o conformitate larg răspândită pe web. Mai recent, robots.txt a devenit un instrument cheie pe care editorii l-au folosit pentru a bloca companiile de tehnologie de la preluarea gratuită a conținutului lor pentru a fi utilizat în sistemele de AI generative care pot imita creativitatea umană și pot rezuma instantaneu articole.

Companiile de AI folosesc conținutul atât pentru a-și antrena algoritmii, cât și pentru a genera rezumate ale informațiilor în timp real. Unii editori, inclusiv The New York Times, au dat în judecată companiile de AI pentru încălcarea drepturilor de autor pentru aceste utilizări. Alții semnează acorduri de licențiere cu companiile de AI deschise să plătească pentru conținut, deși părțile deseori nu sunt de acord asupra valorii materialelor. Mulți dezvoltatori de AI argumentează că nu au încălcat nicio lege accesându-le gratuit.

Thomson Reuters, proprietarul Reuters News, este printre cei care au încheiat acorduri pentru a licenția conținutul de știri pentru utilizarea de către modelele AI. Editorii au ridicat semnale de alarmă în special în legătură cu rezumatele de știri de când Google a lansat anul trecut un produs care folosește AI pentru a crea rezumate ca răspuns la unele interogări de căutare. Dacă editorii doresc să prevină utilizarea conținutului lor de către AI-ul Google pentru a ajuta la generarea acestor rezumate, trebuie să folosească același instrument care ar împiedica, de asemenea, apariția lor în rezultatele căutării Google, făcându-i practic invizibili pe web.

Fiți la curent cu ultimele noutăți. Urmăriți DCNews și pe Google News