România lansează primul model de tip ChatGPT dedicat limbii române, antrenat pe milioane de documente / Modelul va putea fi accesat și folosit de oricine / Apel pentru colecții mari de date și resurse hardware

O echipă de cercetători români a creat un model de limbaj (LLM – „large language model”) dedicat limbii române pentru inteligența artificială de tip ChatGPT. Aceasta a fost antrenat pe milioane de documente în limba română, spre deosebire de alte modele antrenate anterior doar marginal în limba română, și va putea fi accesat și folosit de oricine.

Urmărește mai jos producțiile video ale Economedia:
- articolul continuă mai jos -

Deși este o tehnologie la care avem acces la scară largă de doar câțiva ani, mulți dintre noi am interacționat deja de foarte multe ori cu roboți conversaționali, precum ChatGPT (produs de OpenAI), Copilot (dezvoltat de Microsoft), Gemini (dezvoltat de Google) etc.

Însă, pentru limba română rezultatele sunt uneori imprecise, pentru că modelele pe care sunt instruite nu au fost expuse multor surse românești de date. Totodată, aceste genuri de unelte nu pot fi folosite în companii, deoarece accesul direct poate fi restricționat din rațiuni de securitate și confidențialitate. O soluție în aceste situații este implementarea unui model local aflat în infrastructura companiei. Aceste modele publice care pot fi folosite local sunt în general, însă, antrenate pe limba engleză sau folosind un număr redus de documente în limbile cu circulație mai scăzută.

Analize Economedia

ANALIZĂ Hidroelectrica a ajuns să vândă energia către clienții en-gros la un preț mai mare decât către clienții finali / O anomalie economică ce ridică semne de întrebare pentru investitori

ANALIZĂ Achizițiile majore de armament făcute sau planificate de România după invadarea Ucrainei de către Rusia în 2022: MLI-uri, sute de tancuri, nave și avioane „stealth” F-35

ANALIZĂ Sectorul utilităților de la bursa românească a performat mai bine decât indicii sectoriali din SUA, Germania și Franța, dar rămâne dependent de reglementări și volatilitate legislativă / „Sectorul utilităților din România nu mai este unul pur defensiv”

ANALIZĂ Ce companii din România caută angajați, în plin „sezon” de concedieri și strâns cureaua. Care sunt domeniile care oferă cele mai multe oportunități?

ANALIZĂ Fondurile de pensii private plasează aproape 70% din economiile românilor pentru bătrânețe în datoria publică, prin achiziția de titluri de stat la dobânzi care nu acoperă rata inflației

GRAFICE Analiză Roland Berger: Care este rolul României în tranziția Europei la o industrie a apărării pregătită să înfrunte provocările actuale și viitoare?

ANALIZĂ | 14 analiști locali și străini văd acțiunile Hidroelectrica la 113,88 de lei în următorul an, sub prețul din piață de 121,6 lei / Compania de stat este percepută ca ușor supraevaluată la nivelul actual

ANALIZĂ | Foarte mulți români angajați în București și Ilfov locuiesc de fapt în acte în alte județe

joburi, oameni, persoane, agitație, aglomeratie, locuri de muncă, muncă, angajatori, stradă

ANALIZĂ Investitorii plătesc mai mult pentru profiturile Petrom și Romgaz decât în cazul altor companii similare precum MOL, KMG, OMV sau Orlen / Romgaz ar putea oferi dividende mai mici investitorilor, având în vedere investițiile care necesită mult cash

ANALIZĂ Acțiuni vs. cifre: Cum au evoluat acțiunile marilor companii de la Bursa de Valori București față de rezultatele lor financiare în ultimii ani

bursa, investitii, indici, cresteri, scaderi, investitori

ANALIZĂ. Ce ar putea însemna majorarea capitalului social pentru firme: Măsură necesară, dar creșterea e prea bruscă. Noile înregistrări de firme s-ar putea reduce/ Cristian Bărcan, fondator REGnet: „Impactul ar fi resimțit mai ales de firmele mici, motorul economiei, care reprezintă peste 95% din totalul companiilor din România”

România bogată, România săracă: Hărțile țării, colorate în funcție de PIB și investiții străine/ Care sunt județele cele mai atractive și cine rămâne în urmă?

Biserica fortificată din Bierțan) de Kayle Kaupanger

ANALIZĂ | „Singura variantă ca eu să pot sta în București este să împart chiria” / Cum își gestionează tinerii bugetele în fața scumpirilor și noilor taxe

ANALIZĂ. Ce acțiuni de la Bursa de Valori București au „bătut” constant piața în ultimii cinci ani / Două companii din eșalonul doi se fac remarcate

investiții, creșteri, acțiuni, bursă, taur, bull

ANALIZĂ Ce companii de la bursa românească au oferit în ultimii cinci ani cele mai consistente randamente ale dividendelor / Cum se schimbă topul dacă luăm în calcul și evoluția acțiunilor

cresteri, dividende, bursa, piata de capital

Piața imobiliară din Dubai atrage românii, dar rămâne una de nișă / Este un recul pe piața din România, dar aceasta rămâne încă atractivă pentru investitori, spun agenții imobiliari/ Care este profilul investitorului român în imobiliarele din Dubai

ANALIZĂ Expansiunea discretă a Ungariei în România: companii și afaceriști apropiați de Viktor Orban cumpără business-uri românești

ANALIZĂ. Cei mai importanți angajatori IT din România au renunțat la sute de salariați într-un an. Compania care conducea topul din 2023 a rămas fără 1.000 de angajați în 2024

Imperiul Pavăl: de la un magazin modest în Bacău în 1992 la un gigant cu investiții de peste 20 de miliarde de lei în 2025 / De la bricolaj, imobiliare și construcții, la energie, agricultură, pharma și turism – ANALIZĂ Economedia

ANALIZĂ Economedia. Unde se va situa România în clasamentul european al taxării, după majorările anunțate de Guvern / Avertisment: Pierdem principalele avantaje și competitivitate, ce punem în loc?

ANALIZĂ Tablou în piața muncii: Rata șomajului a ajuns în primul trimestru al anului la cel mai ridicat nivel din 2020 încoace/ Numărul de persoane ocupate a scăzut cu aproximativ 323.000 în interval de un an. Ce urmează?

ANALIZĂ Bursa de la București, printre cele mai ieftine din regiune și cu dividende generoase / Ungaria ne-a depășit la randamentul dividendului și este chiar mai ieftină decât România

ANALIZĂ Băncile românești listate la bursă sunt mai ieftine în termeni de profitabilitate comparativ cu cele din regiune. La ce multipli se tranzacționează acțiunile BRD și Banca Transilvania comparativ cu bănci din Austria, Cehia, Croația, Grecia, Ungaria, Polonia și Slovacia

bani, lei, economie, finante, deficit, inflatie

ANALIZĂ Ce industrie de apărare are România. De la scandaluri, politizare și subfinanțare, la noul context european, care aduce finanțări uriașe de Apărare pentru țările UE

armata romana, capu midia, romania, nato, militari, soldati, antrenament, exercitiu militar, himars, rachete, sisteme de aparare aeriana

ANALIZĂ Economedia: Tot mai multe mașini chinezești, și noi și rulate, pe șosele românești

Analiză. Turbulențele din industria auto se văd din plin în România: Sute de concedieri anunțate în interval de numai câteva săptămâni de către companii active în acest sector în țara noastră

Analiză. Transportatorii români iau locul celor polonezi pe piețele europene, cu flote mari și șoferi gata să călătorească în întreaga UE / Provocări din cauza stagnării economice și a crizei fiscale, care crește taxe și reduce avantajul de cost

ANALIZĂ Se pregătește sezonul de admiteri. Ce taxe de studii percep universitățile și cât costă cazarea la cămine în marile centre din țară?

studenti, universitate, academie, absolventi

ANALIZĂ Cum se schimbă topul companiilor de curierat din România după ce Sameday a cumpărat Cargus / Primele 10 firme au afaceri de peste 5 miliarde de lei

Piața de curierat, România, Cargus, Sameday, Fan Courier, Profit net, Cifră de afaceri, Pachet

ANALIZĂ Produse românești în supermarketuri: Marile lanțuri de retail spun că au sute de parteneri locali. Care sunt produsele cu cea mai mare acoperire locală?

Modelul românesc lansat astăzi este adaptarea unui LLM public dezvoltat în principal pentru limba engleză. Însă acesta a fost expus la câteva milioane de documente în limba română, pentru a înțelege mai bine semnificația cuvintelor. Acest lucru e esențial pentru perfomanța unor astfel de modele în situații unde exprimarea cerinței sau a întrebării introduse de utilizator, cât și a răspunsului trebuie să fie în limba română.

„Câteva dintre exemplele de utilizare ale modelului românesc sunt: căutarea de informații în baza de cunoștințe a unei organizații, cu ghiduri și proceduri de lucru, sau roboți conversaționali pentru clienții companiilor sau ai instituțiilor care să îi ghideze în parcurgerea pașilor necesari pentru utilizarea unui produs sau serviciu. În ambele cazuri, angajații și/sau clienții economisesc timp în accesarea informației, beneficiind în multe situații și de îmbunătățirea calității acesteia”, a spus Alin Ștefănescu, directorul Departamentului de Informatică din cadrul Universității din București și vicepreședintele Institutului de Logică și Știința Datelor.

Modelul poate fi folosit pentru dezvoltarea unor unelte și platforme A.I. Astfel, modelul este „open source”, deci va putea fi accesat și folosit de oricine dorește să construiască instrumente bazate pe inteligența artificială.

Odată cu publicarea acestui LLM, inițiatorii proiectului lansează și comunitatea OpenLLM-Ro, care dorește să-i aducă împreună pe toți cei care vor să contribuie în diverse forme la dezvoltarea tehnologiilor A.I. pentru limba română.

Ambele proiecte sunt inițiate și derulate de către Politehnica București, Universitatea din București și Institutul de Logica și Știința Datelor, cu sprijinul BRD Groupe Société Générale. Partenerii academici au contribuit cu cercetători care au lucrat pro-bono și, în plus, Politehnica București a pus la dispoziție și puterea de calcul necesară antrenării modelului.

„Pentru ca mediul economic și/sau instituțional din România să poată folosi această nouă tehnologie atât de promițătoare, este nevoie de modele specializate care să fi întâlnit o mulțime de conversații și documente în limba română. Motivul este simplu: pentru a ne putea oferi informațiile de care avem nevoie. În BRD lucrăm în mod constant la soluții care să ne îmbunătățească procesele de lucru, folosind cele mai noi tehnologii care pot aduce valoare adăugată în primul rând clienților noștri. Însă înțelegem totodată că nevoile noastre sunt comune cu ale multor altor actori instituționali și ne-am asumat misiunea de a sprijini timpuriu inovația în domeniul inteligenței artificiale. Implicându-ne în peisajul extrem de animat al acesteia, putem ajuta ca cele mai noi tehnologii să aibă un impact pozitiv în societatea românească aproape în același ritm cu evoluțiile din domeniu la nivel internațional”, a declarat Horia Velicu, Head of Innovation Lab în cadrul BRD Groupe Société Générale.

Efortul de specializare a unui model dedicat unei limbi este frecvent coordonat de către comunitatea academică asociată limbii respective, exemple recente fiind din țări precum Franța, Germania, Spania, Finlanda, Bulgaria.

Resursele necesare sunt însă considerabile atât din punct de vedere al infrastructurii tehnice necesare (de exemplu, hardware dedicat, precum plăci grafice de mare putere) cât și în ce privește cercetătorii și programatorii experimentați. Este deci nevoie de o susținere pe scară largă și pe termen mediu și lung din partea multor actori-cheie ai societății: mediul economic, cel academic și nu în ultimul rând mediul guvernamental, prin programele dedicate dezvoltării tehnologiilor de Inteligență Artificială.

De aceea, dezvoltatorii acestui model lansează în același timp și comunitatea OpenLLM.ro. Aceasta își propune să încurajeze interacțiunea între diverși actori sau facilitatori ce doresc să contribuie la dezvoltarea acestei tehnologii pentru limba română și lansarea unor modele specializate pentru anumite domenii. Inițierea acestui dialog într-un mediu „open source” va accelera crearea unor modele mai performante, implementate în companiile sau instituțiile românești, ceea ce va rezulta într-un plus de productivitate per ansamblu a întregii societăți.

„Sperăm ca lansarea acestui model să fie doar începutul unui efort de lungă durată din care să rezulte LLM-uri mai bune pentru limba română. Deja am descoperit o metodă pe care vrem să o aplicăm altor modele lansate recent (Llama-3 și Mistral) și care au performanțe în general mai bune ca cel de la care am pornit (Llama-2). Totuși, pentru a avea modele performante pentru limba română avem nevoie de 2 tipuri de resurse: colecții de date mari și curatoriate, de calitate bună, precum și resurse hardware (în special, GPU-uri pentru antrenarea modelelor). Sperăm ca atât entitățile private, cât și cele publice să înțeleagă importanța dezvoltării modelelor mari de limbaj și multimodale (text-imagini) pentru limba română. Pe toți îi așteptăm să ni se alăture în cadrul inițiativei OpenLLM-Ro și a proiectelor de cercetare care o vor sprijini”, a declarat Traian Rebedea, conferențiar la Politehnica București și cercetător principal la NVIDIA, unul dintre coordonatorii tehnici ai inițiativei OpenLLM-Ro.

Raportul tehnic poate fi găsit AICI.

Modelul LLM poate fi descărcat de pe platforma Hugging Face.

Codul asociat modelului poate fi descărcat de pe GitHub.

Alte detalii despre proiect.

România lansează primul model de tip ChatGPT dedicat limbii române, antrenat pe milioane de documente / Modelul va putea fi accesat și folosit de oricine / Apel pentru colecții mari de date și resurse hardware

Urmărește mai jos producțiile video ale Economedia:

- articolul continuă mai jos -

Analize Economedia

By Redacția

Citește și

ANALIZĂ Expansiunea discretă a Ungariei în România: companii și afaceriști apropiați de Viktor Orban cumpără business-uri românești

Antreprenor cu valoare adăugată. Cum a ajuns o editură românească să-i pună pe influenceri și Verlaine pe aceeași copertă. Povestea antreprenorului care a reinventat ideea de carte

FOTO-VIDEO Autostrada Sibiu – Pitești. A fost finalizată turnarea betonului rutier în tunelul Curtea de Argeș de pe Lotul 4 Curtea de Argeș – Tigveni

FOTO-VIDEO Autostrada A0 Nord. Peste 760 de muncitori și 266 de utilaje mobilizate pe șantierul Lotului 1 / Secțiunea va fi dată în circulație în două etape

VIDEO Reabilitarea DN73 între Brașov și Fundata se apropie de final

ANALIZĂ Expansiunea discretă a Ungariei în România: companii și afaceriști apropiați de Viktor Orban cumpără business-uri românești

Antreprenor cu valoare adăugată. Cum a ajuns o editură românească să-i pună pe influenceri și Verlaine pe aceeași copertă. Povestea antreprenorului care a reinventat ideea de carte

FOTO-VIDEO Autostrada Sibiu – Pitești. A fost finalizată turnarea betonului rutier în tunelul Curtea de Argeș de pe Lotul 4 Curtea de Argeș – Tigveni

FOTO-VIDEO Autostrada A0 Nord. Peste 760 de muncitori și 266 de utilaje mobilizate pe șantierul Lotului 1 / Secțiunea va fi dată în circulație în două etape

VIDEO Reabilitarea DN73 între Brașov și Fundata se apropie de final