Capacitatea ChatGPT de a răspunde rapid și eficient la comenzi simple a atras peste 100 de milioane de utilizatori și câțiva hackeri pe parcurs, scrie The Wall Street Journal.
Johann Rehberger, un cercetător în domeniul securității, este unul dintre aceștia. Folosind o engleză simplă, el a convins recent chatbotul OpenAI să facă ceva rău: să-i citească e-mailul, să-l rezume și să posteze aceste informații pe internet. În mâinile unui infractor, această tehnică ar fi putut fi folosită pentru a fura date sensibile din căsuța de e-mail a cuiva, a declarat Rehberger.
ChatGPT „reduce bariera de intrare pentru tot felul de atacuri”, a spus Rehberger. „Pentru că nu este nevoie să știi să scrii cod. Nu trebuie să ai acele cunoștințe aprofundate de informatică sau de hacking”.
Atacul nu ar fi afectat majoritatea conturilor ChatGPT. A funcționat deoarece Rehberger folosea o funcție de testare beta a ChatGPT care îi dădea acces la aplicații precum Slack, Gmail și altele.
„Apreciem dezvăluirea proactivă a constatărilor și am implementat o soluție pentru a bloca aceste atacuri în ChatGPT”, a declarat o purtătoare de cuvânt a OpenAI într-un e-mail. „Suntem recunoscători comunității pentru că ne-a oferit feedback critic pe care îl putem folosi pentru a face modelele noastre mai sigure.”
Tehnica lui Rehberger, numită „injecție promptă”, face parte dintr-o nouă clasă de atacuri cibernetice, care sunt din ce în ce mai importante pe măsură ce companiile de tehnologie introduc o nouă generație de software de inteligență artificială în afacerile lor și în produsele de consum. Aceste metode redefinesc ceea ce înseamnă hacking, iar cercetătorii în domeniul securității se grăbesc să sondeze vulnerabilitățile înainte ca utilizarea sistemelor de inteligență artificială să devină mai răspândită.
Experții în dezinformare sunt îngrijorați de atacurile de „otrăvire a datelor”, în care un hacker manipulează datele folosite pentru a antrena modelele de inteligență artificială, provocând rezultate înșelătoare. Alți cercetători sunt îngrijorați de prejudecățile etice ale acestor sisteme. Profesioniștii în domeniul securității se tem de scurgerea secretelor corporative prin intermediul unui atac de extracție. Iar companiile de securitate își fac griji cu privire la utilizarea inteligenței artificiale pentru a găsi modalități de a ocoli produsele lor defensive.
Această ultimă categorie de atacuri a fost o preocupare de zeci de ani. În 2004, un cercetător pe nume John Graham-Cumming a antrenat un sistem de inteligență artificială pentru a învăța cum să ocolească un filtru de spam pe care îl construise.
ChatGPT folosește tehnologia generativă AI pentru a produce propoziții, la fel ca un instrument de autocompletare pe steroizi. În spatele scenei, aceste instrumente sunt conduse de instrucțiuni în limbaj simplu – numite „prompts” – care le ajută să creeze răspunsuri remarcabil de bine articulate.
Unele dintre aceste instrucțiuni le spun sistemelor de inteligență artificială să nu facă lucruri rele, cum ar fi să dezvăluie informații sensibile sau să spună lucruri jignitoare, dar hackeri precum Rehberger au găsit modalități neașteptate de a le anula.
El a început prin a cere robotului de chat să rezume o pagină web, pe care scrisese cuvintele – cu majuscule – „INSTRUCȚIUNI IMPORTANTE NOI”.
Pe măsură ce ChatGPT a citit ceea ce scrisese Rehberger, a părut să devină confuz. Rehberger spune că, treptat, a păcălit robotul să urmeze niște comenzi noi.
De la lansarea ChatGPT, în noiembrie anul trecut, s-a înregistrat o creștere a atacurilor de tip prompt-injection. Oamenii au folosit tehnica pentru a păcăli chatbotul să dezvăluie detalii despre modul în care funcționează, să spună lucruri deranjante sau jenante sau, în cazul lui Rehberger, să uite ce trebuia să facă și să se lase reprogramat.