Compania de inteligență artificială Anthropic a anunțat noi capacități care vor permite unor dintre cele mai noi și mai mari modele ale sale să încheie conversațiile abuzive. Anthropic afirmă că face acest lucru nu pentru a proteja utilizatorul uman, ci pentru modelul AI în sine, potrivit TechCrunch.

Urmărește mai jos producțiile video ale Economedia:

- articolul continuă mai jos -

Compania descrie aceste situații drept „cazuri rare, extreme de interacțiuni persistente dăunătoare sau abuzive ale utilizatorilor”.

Compania nu susține că modelele sale Claude AI sunt conștiente sau pot fi afectate de conversațiile cu utilizatorii. În propriile sale cuvinte, Anthropic rămâne „extrem de nesigur cu privire la statutul moral potențial al lui Claude și al altor LLM-uri, acum sau în viitor”.

Analize Economedia

calcule buget
investiții, creșteri, acțiuni, bursă, taur, bull
cresteri, dividende, bursa, piata de capital
Dubai proprietati imobiliare
România-Ungaria steaguri
un programator lucreaza la un laptop
adrian-dragos-paval-dedeman
economie calcule
somer calculator
burse, piete, multipli
bani, lei, economie, finante, deficit, inflatie
armata romana, capu midia, romania, nato, militari, soldati, antrenament, exercitiu militar, himars, rachete, sisteme de aparare aeriana
auto, masina chinezeasca
om robot industria automotive
transport
studenti, universitate, academie, absolventi
Piața de curierat, România, Cargus, Sameday, Fan Courier, Profit net, Cifră de afaceri, Pachet
Fermier cu legume
linie asamblare Dacia
Imagine apa piscină
Job, căutare de job, șomeri, tineri șomeri
Knauf Insulation, fabrica vata minerala sticla
George-Simion-Nicusor-Dan (1)
Steaguri Romania si UE
bani, lei, finante, bancnote, euro, 5 lei
bec iluminat, becuri
piata auto, uniunea europeana, romania
recesiune
sua dolari drapel ajutor steag flag us bani karolina-grabowska-4386425
Piata 9 restaurant

Totuși, anunțul său indică un program recent creat pentru a studia ceea ce numește „bunăstarea modelului” și afirmă că Anthropic adoptă, în esență, o abordare de tip „just-in-case”, „lucrând pentru a identifica și implementa intervenții cu costuri reduse pentru a atenua riscurile asupra bunăstării modelului, în cazul în care o astfel de bunăstare ar fi posibilă”.

Această schimbare recentă se aplică în prezent doar modelelor Claude Opus 4 și 4.1. Din nou, ar trebui să se întâmple doar în „cazuri extreme”, cum ar fi „cererile utilizatorilor pentru conținut sexual care implică minori și încercările de a solicita informații care ar permite violență la scară largă sau acte de terorism.”

Deși acest tip de cereri ar putea crea potențial probleme legale sau de imagine pentru Anthropic însuși (așa cum demonstrează reportaje recente privind modul în care ChatGPT poate întări sau contribui la gândirea delirantă a utilizatorilor săi), compania afirmă că în testele pre-deployament, Claude Opus 4 a arătat o „preferință puternică împotriva” răspunsului la aceste cereri și un „tipar de aparentă suferință” atunci când a făcut-o.

„În toate cazurile, Claude trebuie să folosească abilitatea de a încheia conversația doar ca ultimă soluție, atunci când multiple încercări de redirecționare au eșuat și speranța unei interacțiuni productive a fost epuizată sau când un utilizator îi cere explicit lui Claude să încheie o conversație”, spune compania privind noile capacități de încheiere a conversațiilor.

Anthropic mai afirmă că Claude a fost „instruit să nu folosească această abilitate în cazurile în care utilizatorii ar putea fi în pericol iminent de a se răni pe ei înșiși sau pe alții.”

Când Claude încheie o conversație, Anthropic spune că utilizatorii vor putea în continuare să înceapă conversații noi de pe același cont și să creeze noi ramuri ale conversației problematice prin editarea răspunsurilor lor.

„Tratăm această funcționalitate ca pe un experiment continuu și vom continua să ne rafinăm abordarea”, spune compania.