Modelele de inteligență artificială o3 și o4-mini recent lansate de OpenAI sunt de ultimă oră în multe privințe, dar noile modele încă au halucinații sau inventează lucruri – de fapt, au “halucinații” mai mari decât câteva dintre modelele mai vechi ale OpenAI, conform unei analize Techcrunch.com.
Urmărește mai jos producțiile video ale Economedia:
- articolul continuă mai jos -
Așa numitele halucinații (rezultate incorecte sau bizare care pot induce în eroare utilizatorii, n.red.) s-au dovedit a fi una dintre cele mai mari și mai dificile probleme de rezolvat în IA, afectând chiar și cele mai performante sisteme din prezent. Din punct de vedere istoric, fiecare model nou s-a îmbunătățit ușor la capitolul halucinații, halucinând mai puțin decât predecesorul său. Dar acesta nu pare să fie cazul pentru o3 și o4-mini, conform Techcrunch.
Potrivit testelor interne ale OpenAI, o3 și o4-mini, care sunt așa-numitele modele de raționament, halucinează mai des decât modelele de raționament anterioare ale companiei – o1, o1-mini și o3-mini – precum și decât modelele tradiționale „fără raționament” ale OpenAI, precum GPT-4o.
Iar creatorul ChatGPT nu știe de ce se întâmplă acest lucru.
În raportul său tehnic pentru o3 și o4-mini, OpenAI scrie că „este nevoie de mai multe cercetări” pentru a înțelege de ce halucinațiile se înrăutățesc pe măsură ce modelele de raționament cresc. O3 și o4-mini au performanțe mai bune în anumite domenii, inclusiv sarcini legate de codificare și matematică. Dar, deoarece acestea „fac mai multe afirmații în general”, sunt adesea conduse să facă „afirmații mai exacte, precum și afirmații mai inexacte / halucinate”, conform raportului.
OpenAI a constatat că o3 a avut halucinații ca răspuns la 33% din întrebările de pe PersonQA, punctul de referință intern al companiei pentru măsurarea preciziei cunoștințelor unui model despre oameni.
Aceasta reprezintă aproximativ dublul ratei de halucinații a modelelor de raționament anterioare ale OpenAI, o1 și o3-mini, care au obținut scoruri de 16% și, respectiv, 14,8%. O4-mini a avut rezultate și mai slabe la PersonQA – a avut halucinații în 48% din cazuri.
Testele efectuate de Transluce, un laborator non-profit de cercetare în domeniul inteligenței artificiale, au arătat, de asemenea, că o3 are tendința de a inventa acțiunile pe care le-a întreprins în procesul de obținere a răspunsurilor. Într-un exemplu, Transluce a observat o3 susținând că a rulat cod pe un MacBook Pro 2021 „în afara ChatGPT”, apoi a copiat numerele în răspunsul său. Deși o3 are acces la unele instrumente, nu poate face asta.
Sarah Schwettmann, co-fondator al Transluce, a adăugat că rata de halucinații a lui o3 îl poate face mai puțin util decât ar fi altfel.
Kian Katanforoosh, profesor adjunct la Stanford și CEO al startup-ului Workera, a declarat pentru TechCrunch că echipa sa testează deja o3 în fluxurile lor de lucru de codare și că au constatat că este cu un pas peste concurență.
Halucinațiile pot ajuta modelele să ajungă la idei interesante și să fie creative în „gândirea” lor, dar ele fac, de asemenea, ca unele modele să fie greu de vândut pentru întreprinderile de pe piețele în care acuratețea este primordială. De exemplu, o firmă de avocatură probabil că nu ar fi mulțumită de un model care introduce o mulțime de erori factuale în contractele cu clienții.
O abordare promițătoare pentru a spori acuratețea modelelor este de a le oferi capacități de căutare pe internet. GPT-4o de la OpenAI cu căutare pe internet atinge o precizie de 90% în SimpleQA, un alt criteriu de referință al OpenAI în materie de precizie. Potențial, căutarea ar putea îmbunătăți, de asemenea, ratele de halucinație ale modelelor de raționament – cel puțin în cazurile în care utilizatorii sunt dispuși să expună indicațiile unui furnizor de căutare terț.
Dacă extinderea modelelor de raționament continuă într-adevăr să agraveze halucinațiile, căutarea unei soluții va deveni cu atât mai urgentă.
„Abordarea halucinațiilor în toate modelele noastre este un domeniu de cercetare în curs de desfășurare și lucrăm continuu pentru a le îmbunătăți acuratețea și fiabilitatea”, a declarat purtătorul de cuvânt al OpenAI, Niko Felix, într-un e-mail trimis TechCrunch.
Articolul integral AICI