OpenAI a lansat luni seară, într-o conferință live, noua versiune a ChatGPT, GPT-4o, un update care aduce o schimbare de paradigmă și riscă să amenințe din ce în ce mai multe joburi, precum cele de traducători și de programatori.
Noul model, numit GPT-4o, este o actualizare a modelului anterior GPT-4 al companiei, care a fost lansat cu puțin peste un an în urmă.
Modelul va fi disponibil parțial gratis, ceea ce înseamnă că oricine va avea acces la cea mai avansată tehnologie OpenAI prin intermediul ChatGPT. Cel puțin momentan, compania pare să permită accesul gratis, pentru a putea antrena modelul cu ajutorul mai multor utilizatori. Nu este clar când va introduce compania un tarif pentru utilizare. Cu toate acestea, utilizatorii de ChatGPT gratuit vor avea un număr limitat de interacțiuni cu noul model GPT-4o înainte ca instrumentul să revină automat la vechiul model GPT-3.5. Utilizatorii care plătesc vor avea acces la un număr mai mare de mesaje cu cel mai recent model. Acești utilizatori vor avea, de asemenea, o limită de capacitate de cinci ori mai mare decât cea a utilizatorilor gratuiți.
Noua versiune va fi disponibilă în 50 de limbi și va fi disponibilă și în API, astfel încât dezvoltatorii să poată începe să construiască cu el.
OpenAI va lansa și o aplicație desktop ChatGPT cu capabilitățile GPT-4o, oferind utilizatorilor o altă platformă pentru a interacționa cu tehnologia companiei.
Tehnologia și caracteristicile actualizate urmează să fie implementate în ChatGPT în lunile următoare. Noul ChatGPT-4o urmează să fie lansat treptat în toată lumea în următoarele luni.
În România, momentan, serviciul nu este încă disponibil.
Cele mai importante funcții pe care le oferă noul ChatGPT-4o, pe scurt:
-
Traducere în timp real
La evenimentul live de lansare, dezvoltatorii ChatGPT-4o au testat live noile capacități de traducere în timp real ale chatbot-ului. În timp ce unul din interlocutori vorbea în italiană, ChatGPT-4o a tradus către celălalt, instant, în engleză, iar ulterior a tradus replica interlocutorului din engleză în italiană.
Traducere în timp real, demo live:
În acest context, luni, acțiunile unor companii care oferă servicii de învățare de limbi străine, precum DuoLingo, scădeau cu circa 3%.
-
Discuție audio care poate fi întreruptă
Noul Chatbot este mai rapid în răspunsuri audio decât modelele anterioare și a fost programat pentru a fi mai vorbăreț și, uneori, chiar cochet (flirtează) în răspunsurile sale.
Are un ritm de conversație mai ușor – nu a existat nicio întârziere între momentul în care i se adresa o întrebare și cel în care primea un răspuns.
De asemenea, el poate fi întrerupt pentru a putea adăuga ceva în conversație și a putut urma cursul noii conversații. Înainte continua să vorbească fără a putea înțelege când dorești să întrerupi conversația. Acest lucru îi adaugă mai multă naturalețe în vorbire, astfel încât să semene mai mult cu o conversație normală purtată în viața reală între două persoane.
-
Citește și analizează imagini
Noua versiune permite un mod video mult avansat.
De exemplu, într-un demo video live al reprezentanților OpenAI, modelul a fost pus să identifice ce vede atunci când este pornită camera. El a descris mediul înconjurător, cum să îmbrăcate persoanele prezente în imagini și a explicat ce activități poate face o persoană în acel mediu: un podcast.
Într-un alt demo, un utilizator a partajat imagini live către ChatGPT-4o cu o problemă de matematică, pentru care Chatbotul a venit cu sugestii de rezolvare, fără a spune răspunsul direct.
O altă problemă de matematică rezolvată în mod similar:
-
Identifică emoții
Noua versiune poate să identifice emoții din expresii vizuale, în timp ce „vede” pe modul video interlocutorul.
Într-un caz, a ascultat respirația unei persoane și l-a încurajat să se calmeze. „Nu ești un aspirator!”, a spus în glumă vocea feminină a ChatGPT (care sună remarcabil de asemănător cu cea a companionului digital cu voce de Scarlett Johansson din filmul „Her” din 2013).
ChatGPT a adoptat diferite tonuri emoționale în timpul conversației cu reprezentanții OpenAI și, uneori, a răspuns ca și cum ar fi trăit propriile sentimente. Atunci când un angajat OpenAI a spus că a vorbit despre cât de „util și uimitor” este chatbotul, acesta a răspuns în mod cochet, zâmbind „Oh, oprește-te, mă faci să roșesc”.
Într-un moment al demonstrației, ChatGPT a răspuns la salutul cercetătorului OpenAI, Barret Zoph, întrebând: „Cum pot să-ți înveselesc ziua de azi?”. Când Zoph i-a cerut chatbotului să se uite la un selfie cu el și să spună ce emoții manifesta, ChatGPT a răspuns: „Îmi voi pune pălăria de detectiv emoțional” și a spus cu căldură: „Se pare că te simți destul de fericit și vesel… orice s-ar întâmpla, se pare că ești într-o dispoziție grozavă”.
-
Identifică, analizează și poate rezolva probleme de cod
Într-unul dintre demo-urile live, ChatGPT-4o se „uită” la cod, descrie ce face acest cod, dar și anumite posibilități de modificare a acestui cod.
-
Analiză de date
Noua versiune poate ajuta utilizatorii să efectueze o analiză avansată a datelor prin încărcarea graficelor sau a codului înainte de a pune întrebări.
-
Variație de voce, cântat
Noul model oferă mai multe opțiuni de voce și, de asemenea, vocea sa poate varia, poate avea intonație, poate adopta diferite tonuri și poate cânta.
„Noul mod de voce (și video) este cea mai bună interfață de calculator pe care am folosit-o vreodată”, a declarat Sam Altman, CEO-ul OpenAI, într-o postare pe blog după anunț. „Se simte ca o inteligență artificială din filme; și este încă puțin surprinzător pentru mine că este reală. A ajunge la timpi de răspuns și expresivitate la nivel uman se dovedește a fi o mare schimbare”.
Două ChatGPT-4o poartă o conversație și se sincronizează să compună un cântec, pe loc și să îl cânte, alternativ:
-
Memorie
Mira Murati, directorul tehnologic al OpenAI, a declarat că versiunea actualizată a ChatGPT va avea acum și capacități de memorie, ceea ce înseamnă că poate învăța din conversațiile anterioare cu utilizatorii. De aceea, el va avea un sentiment de continuitate în toate conversațiile.
-
Puteți crea imagini cu text lizibil
Generarea de imagini cu text lizibil a fost mult timp un punct slab al inteligenței artificiale, dar GPT-4o pare mai capabil în această privință. Textul poate fi nu numai lizibil, ci și aranjat în moduri creative, cum ar fi paginile unei mașini de scris, un afiș de film sau folosind o tipografie poetică. De asemenea, se pare că se pricepe să emuleze scrisul de mână, până la punctul în care unele solicitări pot crea imagini care nu pot fi deosebite de cele produse de un om real.
Puteți chiar să îi cereți lui 4o să includă mâzgăleli pe margini.
Probleme
Noua versiune vine în contextul în care OpenAI încearcă să se mențină în fața concurenței tot mai mari în cursa înarmării AI. Rivalii, inclusiv Google și Meta, au lucrat pentru a construi modele lingvistice mari din ce în ce mai puternice care alimentează chatbots și pot fi folosite pentru a aduce tehnologia AI în diverse alte produse.
Există roboți de chat precum Grok al lui Elon Musk și Pi, de la co-fondatorul DeepMind, Mustafa Suleyman, care au dat prioritate „personalității” produselor lor, dar modul în care GPT-4o a gestionat fără probleme combinația de text, audio și imagini cu un răspuns instantaneu pare să pună OpenAI în fața concurenței.
Însă modelul nu este încă perfect – la un moment dat, a confundat omul zâmbitor cu o suprafață de lemn și a început să rezolve o ecuație care nu îi fusese încă prezentată. Acest lucru a demonstrat în mod neintenționat că mai este încă un drum de parcurs până când vor fi eliminate defecțiunile și halucinațiile care fac ca roboții de chat să fie nesiguri și potențial nesiguri.
Vocea lui GPT-4o putea să intervină în mod ciudat în timpul conversației. De asemenea, a părut să comenteze ținutele unuia dintre prezentatori, deși nu i s-a cerut acest lucru. Dar și-a revenit bine atunci când demonstranții i-au spus modelului că a greșit. Se pare că este capabil să răspundă rapid și util în mai multe medii pe care alte modele nu le-au îmbinat încă atât de eficient.
Dar ceea ce ne arată este direcția în care se îndreaptă OpenAI, care pare că intenționează ca GPT-4o să devină următoarea generație de asistenți digitali cu inteligență artificială, un fel de Siri turbo sau Hey, Google, care își amintește ce i s-a spus în trecut și poate interacționa dincolo de voce sau text, scrie BBC.
De asemenea, nu a fost menționat nici „prețul” pentru mediu al acestei tehnologii. Inteligența artificială este mai mare consumatoare de energie decât sarcinile de calcul tradiționale și, cu cât devine mai sofisticată, cu atât mai multă putere de calcul este necesară. În timpul lansării, nu s-a făcut nicio mențiune despre durabilitate.
Totodată, aceste demonstrații prezentate mai sus au fost demo-uri atent curatoriate. Va fi interesant de văzut cum GPT-4o se descurcă la scară cu milioanele de oameni care folosesc deja ChatGPT, pe măsură ce aceștia adoptă utilizarea noului model.