Techcrunch: Noile modele de inteligență artificială ale OpenAI au mai multe “halucinații”

Open AI imagine Sursa foto: Unsplash / Zac Wolff

Modelele de inteligență artificială o3 și o4-mini recent lansate de OpenAI sunt de ultimă oră în multe privințe, dar noile modele încă au halucinații sau inventează lucruri – de fapt, au “halucinații” mai mari decât câteva dintre modelele mai vechi ale OpenAI, conform unei analize Techcrunch.com.

Urmărește mai jos producțiile video ale Economedia:

- articolul continuă mai jos -

Așa numitele halucinații (rezultate incorecte sau bizare care pot induce în eroare utilizatorii, n.red.) s-au dovedit a fi una dintre cele mai mari și mai dificile probleme de rezolvat în IA, afectând chiar și cele mai performante sisteme din prezent. Din punct de vedere istoric, fiecare model nou s-a îmbunătățit ușor la capitolul halucinații, halucinând mai puțin decât predecesorul său. Dar acesta nu pare să fie cazul pentru o3 și o4-mini, conform Techcrunch.

Potrivit testelor interne ale OpenAI, o3 și o4-mini, care sunt așa-numitele modele de raționament, halucinează mai des decât modelele de raționament anterioare ale companiei – o1, o1-mini și o3-mini – precum și decât modelele tradiționale „fără raționament” ale OpenAI, precum GPT-4o.

Analize Economedia

sua dolari drapel ajutor steag flag us bani karolina-grabowska-4386425
recesiune
tineri programatori foto
Corinthia
criza de ouă din SUA
2265634-800x534
retea electrica - Transelectrica
digitalizare, calculator, cod, programare
statele unite, sua, washington, china, beijing, putere, geopolitica, razboi economic comercial, sanctiuni economice
antreprenoare, femeie, business, tech
tineri joburi IUF- The International University Fair
parc nufarul
economie razboi bani
romania germania
Concedieri scaderi economie
industrie forta de munca somaj industrial uzina fabrica manufactura muncitor muncitor necalificat
blindate, armata, militar
Bugetul familiei, bani
dambovita arena aci
afacere semnare contract pexels
șantier aeroport craiova
costuri, cladiri, birouri, angajati
software, calculator, IT
CV locuri de munca job
MixCollage-21-Dec-2024-07-15-PM-1798
economie 2024
grafic crestere dreamstime
tranzactii calcula fuziuni
locuinta constructii bricolaj
salariu, bani, lei

Iar creatorul ChatGPT nu știe de ce se întâmplă acest lucru.

În raportul său tehnic pentru o3 și o4-mini, OpenAI scrie că „este nevoie de mai multe cercetări” pentru a înțelege de ce halucinațiile se înrăutățesc pe măsură ce modelele de raționament cresc. O3 și o4-mini au performanțe mai bune în anumite domenii, inclusiv sarcini legate de codificare și matematică. Dar, deoarece acestea „fac mai multe afirmații în general”, sunt adesea conduse să facă „afirmații mai exacte, precum și afirmații mai inexacte / halucinate”, conform raportului.

OpenAI a constatat că o3 a avut halucinații ca răspuns la 33% din întrebările de pe PersonQA, punctul de referință intern al companiei pentru măsurarea preciziei cunoștințelor unui model despre oameni.
Aceasta reprezintă aproximativ dublul ratei de halucinații a modelelor de raționament anterioare ale OpenAI, o1 și o3-mini, care au obținut scoruri de 16% și, respectiv, 14,8%. O4-mini a avut rezultate și mai slabe la PersonQA – a avut halucinații în 48% din cazuri.

Testele efectuate de Transluce, un laborator non-profit de cercetare în domeniul inteligenței artificiale, au arătat, de asemenea, că o3 are tendința de a inventa acțiunile pe care le-a întreprins în procesul de obținere a răspunsurilor. Într-un exemplu, Transluce a observat o3 susținând că a rulat cod pe un MacBook Pro 2021 „în afara ChatGPT”, apoi a copiat numerele în răspunsul său. Deși o3 are acces la unele instrumente, nu poate face asta.

Sarah Schwettmann, co-fondator al Transluce, a adăugat că rata de halucinații a lui o3 îl poate face mai puțin util decât ar fi altfel.

Kian Katanforoosh, profesor adjunct la Stanford și CEO al startup-ului Workera, a declarat pentru TechCrunch că echipa sa testează deja o3 în fluxurile lor de lucru de codare și că au constatat că este cu un pas peste concurență.

Halucinațiile pot ajuta modelele să ajungă la idei interesante și să fie creative în „gândirea” lor, dar ele fac, de asemenea, ca unele modele să fie greu de vândut pentru întreprinderile de pe piețele în care acuratețea este primordială. De exemplu, o firmă de avocatură probabil că nu ar fi mulțumită de un model care introduce o mulțime de erori factuale în contractele cu clienții.

O abordare promițătoare pentru a spori acuratețea modelelor este de a le oferi capacități de căutare pe internet. GPT-4o de la OpenAI cu căutare pe internet atinge o precizie de 90% în SimpleQA, un alt criteriu de referință al OpenAI în materie de precizie. Potențial, căutarea ar putea îmbunătăți, de asemenea, ratele de halucinație ale modelelor de raționament – cel puțin în cazurile în care utilizatorii sunt dispuși să expună indicațiile unui furnizor de căutare terț.
Dacă extinderea modelelor de raționament continuă într-adevăr să agraveze halucinațiile, căutarea unei soluții va deveni cu atât mai urgentă.

„Abordarea halucinațiilor în toate modelele noastre este un domeniu de cercetare în curs de desfășurare și lucrăm continuu pentru a le îmbunătăți acuratețea și fiabilitatea”, a declarat purtătorul de cuvânt al OpenAI, Niko Felix, într-un e-mail trimis TechCrunch.

Articolul integral AICI

Comentarii

Pentru a posta un comentariu, trebuie să te Înregistrezi sau să te Autentifici.