Techcrunch: Noile modele de inteligență artificială ale OpenAI au mai multe "halucinații"

Modelele de inteligență artificială o3 și o4-mini recent lansate de OpenAI sunt de ultimă oră în multe privințe, dar noile modele încă au halucinații sau inventează lucruri – de fapt, au “halucinații” mai mari decât câteva dintre modelele mai vechi ale OpenAI, conform unei analize Techcrunch.com.

Urmărește mai jos producțiile video ale Economedia:
- articolul continuă mai jos -

Așa numitele halucinații (rezultate incorecte sau bizare care pot induce în eroare utilizatorii, n.red.) s-au dovedit a fi una dintre cele mai mari și mai dificile probleme de rezolvat în IA, afectând chiar și cele mai performante sisteme din prezent. Din punct de vedere istoric, fiecare model nou s-a îmbunătățit ușor la capitolul halucinații, halucinând mai puțin decât predecesorul său. Dar acesta nu pare să fie cazul pentru o3 și o4-mini, conform Techcrunch.

Potrivit testelor interne ale OpenAI, o3 și o4-mini, care sunt așa-numitele modele de raționament, halucinează mai des decât modelele de raționament anterioare ale companiei – o1, o1-mini și o3-mini – precum și decât modelele tradiționale „fără raționament” ale OpenAI, precum GPT-4o.

Analize Economedia

ANALIZĂ. Ce ar putea însemna majorarea capitalului social pentru firme: Măsură necesară, dar creșterea e prea bruscă. Noile înregistrări de firme s-ar putea reduce/ Cristian Bărcan, fondator REGnet: „Impactul ar fi resimțit mai ales de firmele mici, motorul economiei, care reprezintă peste 95% din totalul companiilor din România”

ANALIZĂ. Ce acțiuni de la Bursa de Valori București au „bătut” constant piața în ultimii cinci ani / Două companii din eșalonul doi se fac remarcate

investiții, creșteri, acțiuni, bursă, taur, bull

ANALIZĂ Ce companii de la bursa românească au oferit în ultimii cinci ani cele mai consistente randamente ale dividendelor / Cum se schimbă topul dacă luăm în calcul și evoluția acțiunilor

cresteri, dividende, bursa, piata de capital

Piața imobiliară din Dubai atrage românii, dar rămâne una de nișă / Este un recul pe piața din România, dar aceasta rămâne încă atractivă pentru investitori, spun agenții imobiliari/ Care este profilul investitorului român în imobiliarele din Dubai

ANALIZĂ Expansiunea discretă a Ungariei în România: companii și afaceriști apropiați de Viktor Orban cumpără business-uri românești

ANALIZĂ. Cei mai importanți angajatori IT din România au renunțat la sute de salariați într-un an. Compania care conducea topul din 2023 a rămas fără 1.000 de angajați în 2024

Imperiul Pavăl: de la un magazin modest în Bacău în 1992 la un gigant cu investiții de peste 20 de miliarde de lei în 2025 / De la bricolaj, imobiliare și construcții, la energie, agricultură, pharma și turism – ANALIZĂ Economedia

ANALIZĂ Economedia. Unde se va situa România în clasamentul european al taxării, după majorările anunțate de Guvern / Avertisment: Pierdem principalele avantaje și competitivitate, ce punem în loc?

ANALIZĂ Tablou în piața muncii: Rata șomajului a ajuns în primul trimestru al anului la cel mai ridicat nivel din 2020 încoace/ Numărul de persoane ocupate a scăzut cu aproximativ 323.000 în interval de un an. Ce urmează?

ANALIZĂ Bursa de la București, printre cele mai ieftine din regiune și cu dividende generoase / Ungaria ne-a depășit la randamentul dividendului și este chiar mai ieftină decât România

ANALIZĂ Băncile românești listate la bursă sunt mai ieftine în termeni de profitabilitate comparativ cu cele din regiune. La ce multipli se tranzacționează acțiunile BRD și Banca Transilvania comparativ cu bănci din Austria, Cehia, Croația, Grecia, Ungaria, Polonia și Slovacia

bani, lei, economie, finante, deficit, inflatie

ANALIZĂ Ce industrie de apărare are România. De la scandaluri, politizare și subfinanțare, la noul context european, care aduce finanțări uriașe de Apărare pentru țările UE

armata romana, capu midia, romania, nato, militari, soldati, antrenament, exercitiu militar, himars, rachete, sisteme de aparare aeriana

ANALIZĂ Economedia: Tot mai multe mașini chinezești, și noi și rulate, pe șosele românești

Analiză. Turbulențele din industria auto se văd din plin în România: Sute de concedieri anunțate în interval de numai câteva săptămâni de către companii active în acest sector în țara noastră

Analiză. Transportatorii români iau locul celor polonezi pe piețele europene, cu flote mari și șoferi gata să călătorească în întreaga UE / Provocări din cauza stagnării economice și a crizei fiscale, care crește taxe și reduce avantajul de cost

ANALIZĂ Se pregătește sezonul de admiteri. Ce taxe de studii percep universitățile și cât costă cazarea la cămine în marile centre din țară?

studenti, universitate, academie, absolventi

ANALIZĂ Cum se schimbă topul companiilor de curierat din România după ce Sameday a cumpărat Cargus / Primele 10 firme au afaceri de peste 5 miliarde de lei

Piața de curierat, România, Cargus, Sameday, Fan Courier, Profit net, Cifră de afaceri, Pachet

ANALIZĂ Produse românești în supermarketuri: Marile lanțuri de retail spun că au sute de parteneri locali. Care sunt produsele cu cea mai mare acoperire locală?

Analiză. Cum arată industria automotive din România, un sector marcat acum de turbulențe majore: Țara noastră are un număr mare de companii active, Germania e cel mai mare investitor străin/ Forța de muncă a scăzut, iar costurile sunt în creștere

Șantiere de vară: Piața piscinelor, în expansiune/ Cât costă un astfel de proiect?

ANALIZĂ Prăpastia dintre tinerii români și angajatori. De ce are România cea mai ridicată rată de șomeri până în 25 de ani din UE / Claudia Indreica, Psihoselect: „Companiile nu mai au timp să instruiască”

Job, căutare de job, șomeri, tineri șomeri

ANALIZĂ Primăvară cu fabrici noi: Care sunt companiile care au anunțat investiții în producție în România

Knauf Insulation, fabrica vata minerala sticla

ANALIZĂ Ce înseamnă procedura de suspendare a fondurilor UE dacă George Simion ajunge preşedinte / În cazul victoriei lui Nicuşor Dan există posibilitatea unei amânări a procedurii

ANALIZĂ De 9 Mai, ziua Europei. Cum a evoluat economia României, de 18 ani în “familia” UE: Salariile s-au triplat, PIB-ul pe cap de locuitor (PPP) a depășit Ungaria, țara noastră a primit peste 100 de miliarde de euro fonduri UE

ANALIZĂ. Care sunt efectele deprecierii leului și cine suferă

bani, lei, finante, bancnote, euro, 5 lei

ANALIZĂ Marele blackout din Spania și Portugalia. Cele două țări iberice plătesc prețul dezvoltării exagerate din regenerabile și insularizării rețelei / Cum stă România

ANALIZĂ Efervescență pe piața dealerilor auto din România: de la consolidări la intrări străine surpriză

GRAFIC Schimbare nemaivăzută în istoria comercială a SUA din ultimii 100 de ani. Analiză Romanian Economic Monitor: Majorarea agresivă a tarifelor vamale de către SUA va avea un impact major asupra tuturor economiilor implicate. Date despre relațiile comerciale România-SUA și posibilele efecte în țara noastră

Analiză „la cald”. Ce impact vor avea taxele vamale americane pentru România?

sua dolari drapel ajutor steag flag us bani karolina-grabowska-4386425

ANALIZĂ Val de restaurante, cofetării și cafenele noi în România. Apar și food-hall-urile/ Piața devine mai competitivă, iar specialiștii se așteaptă să apară noi concepte, inclusiv francize internaționale

Iar creatorul ChatGPT nu știe de ce se întâmplă acest lucru.

În raportul său tehnic pentru o3 și o4-mini, OpenAI scrie că „este nevoie de mai multe cercetări” pentru a înțelege de ce halucinațiile se înrăutățesc pe măsură ce modelele de raționament cresc. O3 și o4-mini au performanțe mai bune în anumite domenii, inclusiv sarcini legate de codificare și matematică. Dar, deoarece acestea „fac mai multe afirmații în general”, sunt adesea conduse să facă „afirmații mai exacte, precum și afirmații mai inexacte / halucinate”, conform raportului.

OpenAI a constatat că o3 a avut halucinații ca răspuns la 33% din întrebările de pe PersonQA, punctul de referință intern al companiei pentru măsurarea preciziei cunoștințelor unui model despre oameni.
Aceasta reprezintă aproximativ dublul ratei de halucinații a modelelor de raționament anterioare ale OpenAI, o1 și o3-mini, care au obținut scoruri de 16% și, respectiv, 14,8%. O4-mini a avut rezultate și mai slabe la PersonQA – a avut halucinații în 48% din cazuri.

Testele efectuate de Transluce, un laborator non-profit de cercetare în domeniul inteligenței artificiale, au arătat, de asemenea, că o3 are tendința de a inventa acțiunile pe care le-a întreprins în procesul de obținere a răspunsurilor. Într-un exemplu, Transluce a observat o3 susținând că a rulat cod pe un MacBook Pro 2021 „în afara ChatGPT”, apoi a copiat numerele în răspunsul său. Deși o3 are acces la unele instrumente, nu poate face asta.

Sarah Schwettmann, co-fondator al Transluce, a adăugat că rata de halucinații a lui o3 îl poate face mai puțin util decât ar fi altfel.

Kian Katanforoosh, profesor adjunct la Stanford și CEO al startup-ului Workera, a declarat pentru TechCrunch că echipa sa testează deja o3 în fluxurile lor de lucru de codare și că au constatat că este cu un pas peste concurență.

Halucinațiile pot ajuta modelele să ajungă la idei interesante și să fie creative în „gândirea” lor, dar ele fac, de asemenea, ca unele modele să fie greu de vândut pentru întreprinderile de pe piețele în care acuratețea este primordială. De exemplu, o firmă de avocatură probabil că nu ar fi mulțumită de un model care introduce o mulțime de erori factuale în contractele cu clienții.

O abordare promițătoare pentru a spori acuratețea modelelor este de a le oferi capacități de căutare pe internet. GPT-4o de la OpenAI cu căutare pe internet atinge o precizie de 90% în SimpleQA, un alt criteriu de referință al OpenAI în materie de precizie. Potențial, căutarea ar putea îmbunătăți, de asemenea, ratele de halucinație ale modelelor de raționament – cel puțin în cazurile în care utilizatorii sunt dispuși să expună indicațiile unui furnizor de căutare terț.
Dacă extinderea modelelor de raționament continuă într-adevăr să agraveze halucinațiile, căutarea unei soluții va deveni cu atât mai urgentă.

„Abordarea halucinațiilor în toate modelele noastre este un domeniu de cercetare în curs de desfășurare și lucrăm continuu pentru a le îmbunătăți acuratețea și fiabilitatea”, a declarat purtătorul de cuvânt al OpenAI, Niko Felix, într-un e-mail trimis TechCrunch.

Articolul integral AICI

open AI halucinatii, open AI modele rationament

Techcrunch: Noile modele de inteligență artificială ale OpenAI au mai multe “halucinații”

Urmărește mai jos producțiile video ale Economedia:

- articolul continuă mai jos -

Analize Economedia

By Redacția

Citește și

ANALIZĂ Expansiunea discretă a Ungariei în România: companii și afaceriști apropiați de Viktor Orban cumpără business-uri românești

Antreprenor cu valoare adăugată. Cum a ajuns o editură românească să-i pună pe influenceri și Verlaine pe aceeași copertă. Povestea antreprenorului care a reinventat ideea de carte

VIDEO Autostrada Transilvania. Avans bun pe șantierul secțiunii Suplacu de Barcău – Chiribiș, anunță șeful CNAIR / Care este stadiul lucrărilor

Top Gear, o lună de teste cu Dacia Bigster Hibrid / “În general, însă, este greu să nu fii impresionat”

VIDEO Autostrada Moldovei A7 Ploiești – Buzău. Moldova vrea Autostradă estimează că lotul 3 Pietroasele – Buzău va fi deschis pe 28 noiembrie

ANALIZĂ Expansiunea discretă a Ungariei în România: companii și afaceriști apropiați de Viktor Orban cumpără business-uri românești

Antreprenor cu valoare adăugată. Cum a ajuns o editură românească să-i pună pe influenceri și Verlaine pe aceeași copertă. Povestea antreprenorului care a reinventat ideea de carte

VIDEO Autostrada Transilvania. Avans bun pe șantierul secțiunii Suplacu de Barcău – Chiribiș, anunță șeful CNAIR / Care este stadiul lucrărilor

Top Gear, o lună de teste cu Dacia Bigster Hibrid / “În general, însă, este greu să nu fii impresionat”

VIDEO Autostrada Moldovei A7 Ploiești – Buzău. Moldova vrea Autostradă estimează că lotul 3 Pietroasele – Buzău va fi deschis pe 28 noiembrie