OpenAI a lansat GPT-5 cu promisiunea că modelul a fost conceput pentru a fi un „adevărat colaborator în programare”, care excelează la generarea de cod de înaltă calitate. Totuși, unii ingineri de software au spus că GPT-5 a fost până acum un rezultat mixt, adică este bun la raționamentul tehnic și la planificarea sarcinilor de programare, dar unii spun că cele mai noi modele de raționament ale Anthropic, Opus și Sonnet, încă produc un cod mai bun, potrivit Wired.

Urmărește mai jos producțiile video ale Economedia:

- articolul continuă mai jos -

În funcție de versiunea de GPT-5 pe care o folosesc dezvoltatorii, modelul poate fi mai elaborativ, ceea ce duce uneori la generarea de linii de cod inutile sau redundante.

Unii ingineri software au criticat, de asemenea, modul în care OpenAI a evaluat performanța GPT-5 în programare, argumentând că reperele folosite sunt înșelătoare. O firmă de cercetare a numit un grafic publicat de OpenAI, care lăuda capabilitățile GPT-5, o „crimă grafică”.

Analize Economedia

calcule buget
investiții, creșteri, acțiuni, bursă, taur, bull
cresteri, dividende, bursa, piata de capital
Dubai proprietati imobiliare
România-Ungaria steaguri
un programator lucreaza la un laptop
adrian-dragos-paval-dedeman
economie calcule
somer calculator
burse, piete, multipli
bani, lei, economie, finante, deficit, inflatie
armata romana, capu midia, romania, nato, militari, soldati, antrenament, exercitiu militar, himars, rachete, sisteme de aparare aeriana
auto, masina chinezeasca
om robot industria automotive
transport
studenti, universitate, academie, absolventi
Piața de curierat, România, Cargus, Sameday, Fan Courier, Profit net, Cifră de afaceri, Pachet
Fermier cu legume
linie asamblare Dacia
Imagine apa piscină
Job, căutare de job, șomeri, tineri șomeri
Knauf Insulation, fabrica vata minerala sticla
George-Simion-Nicusor-Dan (1)
Steaguri Romania si UE
bani, lei, finante, bancnote, euro, 5 lei
bec iluminat, becuri
piata auto, uniunea europeana, romania
recesiune
sua dolari drapel ajutor steag flag us bani karolina-grabowska-4386425
Piata 9 restaurant

GPT-5 se remarcă într-un singur mod: mai multe persoane au observat că, în comparație cu modelele concurente, este o opțiune mult mai rentabilă.

„GPT-5 este depășit în mare parte de alte modele AI în testele noastre, dar este foarte ieftin”, spune Sayash Kapoor, doctorand în informatică și cercetător la Universitatea Princeton.

Deși GPT-5 este ieftin, testele lui Kapoor indică faptul că modelul este și mai puțin precis decât unii dintre concurenții săi. Modelul premium Claude a obținut o rată de acuratețe de 51%, măsurată prin numărul de lucrări științifice reproduse corect. Versiunea medie de GPT-5 a obținut o rată de acuratețe de 27%. Kapoor nu a rulat încă același test folosind GPT-5 high, deci este o comparație indirectă, având în vedere că Opus 4.1 este cel mai puternic model al Anthropic.

Purtătoarea de cuvânt OpenAI, Lindsay McCallum a postat pe blogul companiei că GPT-5 a fost antrenat pe „sarcini reale de programare în colaborare cu testeri timpurii din startupuri și întreprinderi”. Compania a evidențiat și câteva dintre propriile sale măsurători interne de acuratețe pentru GPT-5, care au arătat că modelul GPT-5 „thinking”, care face raționamente mai deliberate, a obținut cel mai mare scor la acuratețe dintre toate modelele OpenAI. GPT-5 „main”, însă, a rămas în urmă față de modelele lansate anterior pe scara de acuratețe a OpenAI.

 „Afirmațiile privind performanța și modelele de preț arată adesea diferit odată ce dezvoltatorii încep să le folosească în medii de producție. Deoarece modelele de raționament pot consuma rapid multe jetoane în timp ce gândesc, industria se îndreaptă spre o lume în care prețul pe rezultat contează mai mult decât prețul pe token”, spune purtătoarea de cuvânt Anthropic, Amie Rotherham.

Unii dezvoltatori spun că au avut experiențe în mare parte pozitive cu GPT-5 până acum. Jenny Wang, inginer, investitor și creatoarea agentului de styling personal Alta, a declarat pentru WIRED că modelul pare să fie mai bun la finalizarea sarcinilor complexe de programare dintr-o singură încercare decât alte modele. Ea l-a comparat cu OpenAI o3 și 4o, pe care le folosește frecvent pentru generarea de cod și pentru corecții simple „precum formatarea sau dacă vreau să creez un endpoint API similar cu ceea ce am deja”, spune Wang.

Un alt dezvoltator, care a vorbit sub condiția anonimatului pentru că angajatorul său nu l-a autorizat să vorbească cu presa, spune că GPT-5 excelează în rezolvarea problemelor tehnice complexe.

Câțiva dintre partenerii și clienții enterprise ai OpenAI, inclusiv Cursor, Windsurf și Notion, au garantat public pentru abilitățile de programare și raționament ale GPT-5. Totuși, în câteva zile de la lansarea GPT-5, unii dezvoltatori și-au exprimat online nemulțumirile. Mulți au spus că abilitățile de programare ale GPT-5 păreau în urmă pentru ceea ce ar fi trebuit să fie un model de ultimă generație.

„GPT-5 de la OpenAI este foarte bun, dar pare mai degrabă un model care ar fi fost lansat acum un an”, spune Kieran Klassen, un dezvoltator care construiește un asistent AI pentru inboxuri de email.

Amir Salihefendić, fondatorul startup-ului Doist, a spus într-o postare pe rețelele sociale că a folosit GPT-5 în Cursor și l-a găsit „destul de dezamăgitor” și că „este în special slab la programare.” El a spus că lansarea GPT-4 a părut un „moment Llama 4”, referindu-se la modelul AI de la Meta, care i-a dezamăgit, de asemenea, pe unii din comunitatea AI.

Pe X, dezvoltatorul Mckay Wrigley a scris că GPT-5 este un „model conversațional de zi cu zi fenomenal”, dar când vine vorba de programare, va continua să folosească Claude Code + Opus.

OpenAI a fost, de asemenea, criticată pentru metodologia folosită la rularea testelor de referință și pentru afirmațiile de performanță despre GPT-5, deși testele de referință variază considerabil în industrie. SemiAnalysis, o firmă de cercetare axată pe sectorul semiconductorilor și AI, a observat că OpenAI a rulat doar 477 din cele 500 de teste care sunt incluse în mod tipic în SWE-bench, un cadru relativ nou al industriei AI pentru testarea modelelor de limbaj mari (LLM).