„Visul” de sute de mii de euro al unei firme românești de IT, cu un proiect tech pentru comunitatea surzilor: Traducătorul pentru comunicarea în limbajul semnelor, cu AI și holograme. Piedici, soluții și oportunități

limbajul semnelor computer pexels Foto: Pexels

„Datorită tehnologiei, acum nu avem bariere de comunicare”, ne spune reprezentantul Biroului pentru Studenți cu Dizabilități al uneia dintre cele mai mari universități din țară, UBB Cluj. Cu toate acestea, dintre zecile de mii de studenți din Cluj, anul acesta doar cinci sunt surzi, iar acesta e număr record în anii recenți, la o universitate care pune la dispoziție resurse (interpreți și tehnologie) pentru persoane cu dizabilități, semn că accesibilitatea tinerilor din această comunitate e încă o temă la care e de lucrat. Imaginați-vă acum viața de studenție – cursurile, examenele, socializarea, atunci când toate acestea trebuie să treacă prin „traducere”. Și mai departe: ce fac, în general, persoanele surde din România care au nevoie de asistență la ghișeul de la ANAF, la avocat, la magazin sau care, pur și simplu, trebuie să comunice cu un vecin? Desigur, există interpreții, mai ales pentru situațiile oficiale (dar numărul lor e limitat), iar tehnologia ajută mult, spun cei din comunitate; persoanele cu probleme de comunicare se pot folosi acum de telefoane, de apeluri video, de aplicațiile „text to voice”, deși încă există multe limitări. O asociație implicată în comunitate a lansat un „ride sharing” cu interpreți și o alta un dicționar. Și, de câteva luni, o firmă locală de IT conturează o soluție care să poată interpreta limbajul mimico-gestual și să îl transforme în text și mesaj audio, dar și invers – să poată să transforme un text scris în mesaj interpretat mimico-gestual, cu ajutorul inteligenței artificiale, a hologramelor și a telefoanelor. Care sunt provocările, piedicile, riscurile, dar și potențialele beneficii? E fezabil în perioada următoare un astfel de proiect? Ce soluții a adus, până acum, tehnologia, în viața persoanelor cu dificultăți de auz și ce ar mai putea face?

Firma românească Soft Tehnica ar vrea să dezvolte un „translator” pentru persoanele surde: o solutie care să poată interpreta limbajul mimico-gestual și să îl transforme în text și mesaj audio și invers. IT-iștii au dezvoltat deocamdat[ o soluție text to speech, care transformă textele în mesaje vocale. Și de aici a apărut ideea de a extinde aplicabilitatea și beneficiile soluției. Așadar, următoarea provocare: limbajul mimico-gestual și o soluție pentru comunitatea surzilor. Economedia a discutat cu cei din echipa Soft Tehnica despre ideea de proiect și i-am întrebat și pe reprezentanții comunității de surzi și pe interpreți dacă ar fi utilă  în piață o soluție care să poată interpreta limbajul mimico-gestual și să îl transforme în text, ce ar trebui ea să aducă nou, care sunt provocările și în ce măsură tehnologia ajută acum în viața surzilor din România.

Ce soluții tehnice există pe piața din România pentru persoanele cu deficiențe de auz?

Marian Pădure e lector universitar la Universitatea Babeș-Bolyai, în cadrul Departamentului de Psihopedagogie Specială, și responsabil de Biroul pentru Studenții cu Dizabilități al UBB. Printre domeniile sale de interes sunt tocmai tehnologiile de acces și suport destinate persoanelor cu dizabilităţi. „Nu există încă în România, din câte știu eu, o astfel de aplicație (care să traducă limbajul mimico-gestual în text) și e greu să faci asta. În primul rând, nu avem o uniformizare a limbajului gestural”, spune Pădure, care menționează că există studii pe această temă și unele aplicații în afara țării.

„Există în Occident o astfel de soluție, dar, tocmai pentru că nu avem această uniformizare a comunicării mimico-gestuale, nu putem lua o aplicație de acolo și să o folosim aici. Ce avem însă e recunoaștere a textului, voice recognition, live transcript de la Google – care pot fi utile și pentru persoanele surde. Pentru limbaj mimico gestual, există astfel de soluții doar pentru limba engleză și, din câte știu eu, au pornit de asemenea unele teste în statele arabe, dar nu avem o aplicație pentru toate limbile, deci nu putem lua soluțiile celor care au dezvoltat așa ceva și să le folosim. Avem bariere de natură lingvistică. Pe partea de tehnologie, metoda cea mai eficientă folosită de comunitate surzilor e acum platforma ”voci pentru mâini” (unde pot găsi un interpret disponibil, n.red.). De asemenea, sunt surzi care pot citi pe buze, iar telefonul e o soluție bună. De asemenea, mulți folosesc video conferințele”, spune lectorul universitar. Acesta menționează că UBB are cinci studenți surzi anul acesta, iar universitatea poate asigura interpret, dar dispune și de alte soluții tehnice, cum ar fi un microfon special, pentru un student care utilizează aparat auditiv.

„Noi îi incurajăm pe studenți să învețe, să comunice, să iasă în comunitate, să se descurce, adică să interacționeze cu colegii lor. Tehnologia e foarte eficientă – poți acum, de exemplu, foarte ușor, să scrii pe telefon. Datorită tehnologiei nu avem bariere de comunicare”, sintetizează Pădure.

Cât despre dezvoltarea noilor soluții… „Le doresc succes celor care vor să facă așa ceva, dar le va lua câțiva ani. Din cauza simbolurilor. Un exemplu simplu: într-un fel fac “Marian” la București, altfel la Cluj și altfel îl comunică un fost student de-al meu care acum e în Anglia. Apoi, sunt semne pentru acțiuni, simboluri gestuale. Da, o astfel de aplicație poate fi o soluție particulară pentru câțiva, e fiabilă. Ar putea rezolva de asemenea partea de comunicare în instituții, pentru că nu ai organigrama să angajezi interpret și nici destui interpreți în fiecare județ, nici atât de mulți solicitanți ca să justifici un post. Ar putea fi utilă surzilor, în primul rând, ar putea să comunice mai ușor cu noi, ar fi utilă și pentru noi, ca să comunicăm mai bine cu ei”, spune Pădure. O aplicație care să poată interpreta limbajul mimico-gestual și să îl transforme în text e greu de realizat din mai multe motive, printre care asocierea textului cu simbolul sau uniformizarea limbajului, însă evoluția Inteligenței Artificiale ar putea fi de folos în dezvoltarea unei astfel de soluții, mai spune lectorul universitar.

Acesta ne-a dat și exemple de tehnologie utilă surzilor, precum:

  • Live transcribe android

Live Transcribe & Sound Notifications face conversațiile de zi cu zi și sunetele din jur mai accesibile pentru persoanele surde și cu deficiențe de auz, folosind doar telefonul sau tableta Android. Puteți utiliza Live Transcribe pe dispozitivul Android pentru a captura discursul și sunetul și pentru a le vedea ca text pe ecran.

  • UNI de la Motion savvy

UNI este alcătuit din trei părți: un computer comprimat, o carcasă inteligentă special concepută și o aplicație mobilă. Carcasa inteligentă conține hardware de la Leap Motion și constă în câteva camere pentru a urmări locația mâinilor și a degetelor utilizatorului. Aplicația, care este alimentată de tabletă, traduce mișcările mâinilor și ale degetelor din limbajul semnelor în vorbire audibilă sau în text afișat pe ecran. La rândul său, aplicația poate traduce, de asemenea, cuvântul vorbit în text scris pentru ca persoana surdă să poată citi.

Pe piață se mai poate găsi, de asemenea,

  • Hand Talk – dezvoltatorii aplicației spun că aceasta traduce automat, atât textul, cât și mesajul audio în limbajul semnelor, util pentru trecerea din limba engleză în American Sign Language sau pentru portugheză în Libras (limbajul brazilian al semnelor). Utilizatorii pot, de asemenea, să revadă diferite semne sau chiar să învețe primele semne prin intermediul aplicației. Acestea se fac cu ajutorul lui Hugo, un avatar 3D care utilizează inteligență artificială.

Proiect local: O firmă de IT vrea să dezvolte o soluție pentru persoanele surde. Tema și provocările

Acesta este peisajul în care firma românească Soft Tehnica ar vrea să dezvolte un „translator” pentru persoanele surde din România: o solutie care să poată interpreta limbajul mimico-gestual și să îl transforme în text și mesaj audio și invers. IT-iștii au dezvoltat deja o soluție de tip text to speech (Read2Me), care transformă textul în mesaje vocale. Și de aici a apărut ideea de a extinde aplicabilitatea și beneficiile soluției. Așadar, următoarea oprire: limbajul mimico-gestual și o soluție pentru comunitatea surzilor.

„Aveam baza tehnică și ni s-a părut că am putea da mai multă valoare acestui modul, Read2Me, dacă ar avea și o diversificare în vizual, pentru surzi. De asemenea, există o directivă europeană în 2016 care obligă toate companiile de interes public să aibă zona de accesibilitate și atunci ni s-a părut normal să mergem în direcția aceasta. Ni s-a părut nouă că nu e suficient doar să ai această tranziție – din text în voce. Ne-am întrebat cum ar fi să facem mai mult și de aici am plecat cu proiectul acesta. În ideea aceasta de accesibilitate”, povestește Florian Bucă, CEO Soft Tehnica.

Soft Tehnica este o companie de dezvoltare softwarecare oferă soluţii de eficientizare a businessurilor, cu soluţii de gestiune pentru HoReCa & retail, soluţii pentru semnătură electronică, dar şi software pentru managementul afacerilor, aplicații cu module de text to speech, voice to text, modelare 3D, realitatea virtuală, realitate augmentată.

Echipa a început să tatoneze piața, dar și nevoile din comunitate și să abordeze persoane care cunosc limbajul semnelor și fără de care dezvoltarea soluției nu e posibilă – interpreții. Așa au aflat oamenii din zona tehnică și de afaceri că limbajul mimico gestural nu e unul universal, nici măcar la nivel național, iar provocările sunt mai multe decât s-ar fi conturat atunci când apăruse ideea.

„Există limbajul semnelor american, limbajul semnelor german și tot așa. Fiecare țară le are pe ale ei. Am aflat că și în România sunt mai multe regionalisme. Nu ne așteptam deloc la asta, dar e bine că am aflat dinainte să ne apucăm de dezvoltat, pentru că așa putem imagina o platformă care poate să fie adaptată local. Adică cumva să identificăm din ce zonă e cel care intră pe pe platformă și să-i aplicăm dialectul, regionalismul potrivit”, menționează Bucă.

Mai concret, ce ar face aplicația? Platforma ar funcționa, cu ajutorul mecanismelor de inteligență artificială, în felul următor: utilizatorul vorbește pe laptop, platforma „ia” vocea și o transformă în text, iar textul ar fi tradus în limbaj mimico-gestual; dar și invers: camera „vede” persoana care face semnele specifice și le transformă apoi în text, iar textul în voce, cu tonul potrivit. Soluția ar fi, adică, bidirecțională.

Pe lângă faptul că nu există o uniformizare a limbajului, mai sunt însă și alte provocări de natură lingvistică. „În acest limbaj nu există prepoziții, cuvinte de legătură. Apoi, din trei semne ți se poate exprima uneori o frază întreagă și atunci trebuie să găsim acele particularități astfel încât să știm, din AI, cum să completăm noi fraza, să ne dăm seama de sens, să putem completa. E ceva în genul în care lucrează acum AI-ul generativ, în care tu scrii o frază, o întrebare și, chiar dacă o scrii cu greșeli gramaticale sau fără unele cuvinte, sistemul înțelege contextul. Și noi avem acest limbaj, în limba română, care poate să ne ajute. Adică nu mergem în chatGPT, ci lucrăm cu produsul nostru, antrenat pe limba română. Adică avem acum fiecare componentă tehnică, dar nu avem încă dicționarul surzilor, ca să antrenăm sistemul. Avem până și costume cu senzori care captează practic mișcările pe care le face un om și se pot suprapune apoi cu un avatar. Avem tehnologie, costume, avem avatarul care poate să interpreteze. Practic, avem tehnologia care permite antrenarea, dar nu avem încă datele cu care să facem antrenamentul, adică avem nevoie de oameni care să vină să lucreze cu noi”, menționează CEO-ul firmei de IT.

Ar fi nevoie, așadar, de oameni. IT-iștii spun că deocamdată a fost dificil să găsească parteneri de lucru din comunitatea de surzi și interpreți, dar există o serie de contacte și s-ar putea contura și un parteneriat. „A trebuit să căutăm mult până să găsim”, spune Bucă.

Implicarea interpreților și a persoanelor surde care să participe în acest proiect e vitală însă pentru dezvoltarea sa, după cum admit inițiatorii ideii.

„Mai întâi, trebuie să colectăm gesturile (limbajului semnelor), apoi să le învățăm, apoi să ne învățăm noi robotul să le refacă și apoi să vedem că ceea ce vorbește robotul nostru e ce trebuie”, sintetizează Bucă. Așadar echipa tehnică are nevoie de interpreți specializați în limbajul mimico gestual, dar și de persoane surde, pentru a-i învăța pe programatori, dar și pentru a testa soluția.

Cât despre formula în care ar apărea aplicația, aceasta ar putea fi un site, cu o „căsuță” și un avatar care gesticulează și o aplicație pe mobil cu ajutorul căreia persoana care are nevoie să se filmeze. Aplicația i-ar capta gesturile, care ar fi apoi redate în format audio. Aceasta ar putea, de asemenea, să capteze sunetele (format audio) și să le redea apoi prin limbajul semnelor, cu ajutorul unei holograme. Ideea ar fi ca utilizatorul să poată să meargă cu această aplicație acolo unde are nevoie, mai ales în contextul în care persoanele surde se bazează deja foarte mult pe telefoane.

Ca adresabilitate, dezvoltatorii s-au gândit în primul rând la persoanele surde, pentru care aplicația ar fi gratuită, dar și la instituțiile publice, autorități sau orice companie interesată să integreze comunicarea cu persoanele surde (de la magazine la industria media sau de divertisment).

Urmează să se identifice finanțarea, iar în acest sens firma a depus un proiect la Universitatea Politehnică din București în cadrul Hubului Român de AI. Soft Tehnica estimează bugetul necesar la 1,5 milioane de euro, cu o finanțare proprie de 30%, iar ca termen, dezvoltarea soluției ar putea dura undeva la 24 de luni, conform calculelor actuale.

„Nu e cel mai mare proiect pe care l-am făcut noi, dar, din punctul de vedere a ce avem în derulare, de acum încolo acesta ar deveni principal. Adică noi nu mai avem niciun alt proiect de finanțat la care să lucrăm. Acest proiect ne-ar duce mai departe cu acest training pe care noi l-am început acum 3 ani de zile asistat de hologramă. Cumva ducem totul la alt nivel, adică mergem către o zonă nouă. Ar avea multe utilități. Gândește-te că ai putea să faci training unui om într-un magazin. Sunt persoane surde care lucrează în magazine. Ce ar fi să faci training-ul cu o hologramă care poate să-i spună exact ce are de făcut? Apoi, eu cred că le puteam deschide persoanelor surde și alte zone și alte posibilități de activități, de job-uri. Cred că deocamdată sunt destul de limitați”, spune Bucă.

„În primul rând, această soluție ar face mai bună viața a mii de români. Ar trebui ca persoanele surde să poată să comunice mult mai ușor cu oricine. În primul rând asta ar fi, pentru ei și familiilor lor. Dar se deschid o grămadă de oportunități”, concluzionează CEO-ul.

Perspectiva din comunitate. Ce spun interpreții despre ajutorul tehnolgiei, piedici și soluții utile?

„Orice formă de tehnologie are potențial de a ajuta”, ne spune, din start, Bogdan Anicescu, interpret mimico-gestual în cadrul Asociației Naționale a Surzilor din România (ANSR), cel care asigură adesea „traducerea” ședințelor de guvern și a asistat comunicarea de criză a autorităților din timpul pandemiei. Anicescu avertizează însă că persoanele surde sunt dependente de factorul uman, care nu e de neglijat. Acesta menționează că asociația pe care o reprezintă a dezvoltat o aplicație, pe care o numește un fel de „ride sharing”, cu interpreți, pe care persoanele surde sau instituțiile o pot folosi atunci când au nevoie de traducere. Anicescu subliniază că numărul de interpreți în fiecare județ e foarte limitat, astfel că, în situația în care o persoană surdă are nevoie de asistența unuia  pentru interacțiunea cu alte medii, acest sistem poate fi de ajutor.

Ar fi de folos o soluție care să poată interpreta limbajul mimico-gestual și să îl transforme în text ?

„O astfel de soluție ar fi utilă luând în considerare în primul rând dificultatea de a asigura servicii de interpretare în situațiile cele mai diverse, dificultate ce are la bază în primul rând numărul foarte redus de interpreți autorizați care există în acest moment în țara noastră. Un astfel de sistem poate asigura accesul facil al persoanei surde la un sistem alternativ la interpretarea realizată de un specialist. Discuția despre „utilitate versus practicabilitate” depinde foarte mult de avansurile tehnologiei în acest sens și de resursele umane și de timp investite”, spune Anicescu.

Ce ar trebui să aducă ea nou, ce funcții ar trebui să aibă, pentru a fi utilă comunității? „Ar trebui să se adreseze mai ales acelor persoane care nu au alte alternative viabile de comunicare scrisă la un nivel ridicat. Mai precis, sunt multe persoane surde care nu se exprimă foarte bine în scris și care pot înțelege scrisul la un anumit nivel de bază. Totodată, este riscant de a promova un astfel de sistem în situații oficiale sau foarte delicate – cum ar fi în cazul acordului pentru proceduri medicale de exemplu, sau audieri la poliție, unde e clar că interpretul „uman” nu va putea fi „înlocuit” prea curând. De asemenea, trebuie să se țină cont de revers – traducem din semne în scris, dar dacă vrem din oral sau din scris în semne, putem? Sau ne bazăm că persoana surdă va înțelege mesajele noastre scrise? Este încă dificil de spus la acest moment cât de util poate deveni acest sistem sau dacă are un caracter de experiment mai degrabă, întrucât ne referim la o limbă foarte „dinamică” la nivelul căreia utilizatorii au diferite moduri de exprimare, uneori radical diferite de la unii la alții. Sistemul ar trebui să „înțeleagă” acest lucru și să se adapteze”, subliniază interpretul.

Acesta menționează că în alte țări există prototipuri și spune că, deocamdată, în România există o alternativă la interpretarea „față în față” și anume interpretarea video la distanță, care permite interpretului să ofere servicii oriunde se află cât timp are acces la smartphone și internet stabil. ANSR are un astfel de sistem propriu, singurul din țara noastră – aplicația „Voci pentru Mâini”. Aceasta este „dependentă” de resursa umană, dar permite creșterea substanțială a numărului de servicii de interpretare, persoanele surde pot să își facă cont și se conectează apoi la el, după care trimit apeluri la nivel general, iar primul interpret disponibil intră în legătură directă cu beneficiarul.

În 2018, o aplicație de învățare a limbajului semnelor din România a fost dezvoltată de Asociația Națională a Interpreților Autorizați în Limbaj Mimico-Gestual (ANIALMG), care aduce un dicționar, cu mesaje video atașate.

Reprezentanții ANIALMG consideră că o astfel de soluție nouă – un „traducător” virtual pentru surzi – este „foarte departe de a fi realizabilă”, din mai multe motive. „În primul rând, limba semnelor române nu este suficient de standardizată și nici cercetată din punct de vedere lingvistic și gramatical pentru a se putea crea o astfel de aplicație. Al doilea motiv ar fi flexibilitatea și creativitatea caracteristice limbilor semnelor, care fac ca și pentru interpreții cu experiență înțelegerea acestei limbi să fie uneori anevoioasă. S-a propus de multe ori (din partea auzitorilor) o standardizare a limbii semnelor, însă din punctul nostru de vedere acest lucru încalcă dreptul comunității la controlul asupra propriei limbi. Dacă se va ajunge la o standardizare reală și acceptată de comunitatea surzilor, aceasta trebuie să vină din interiorul comunității, iar nu impusă de auzitori. Menționăm acest lucru pentru că este un subiect foarte sensibil în rândul surzilor”, au transmis reprezentanții asociației.

Aceștia menționează un prim pas necesar pentru a se putea ajunge la recunoașterea automată a limbii semnelor și transpunerea ei în text în limba română: „este necesar să se studieze în profunzime această limbă, pentru a se stabili care sunt regulile gramaticale după care să opereze un program automat de traducere”, spun reprezentanții asociației.

„Lipsa accesibilizării în limba semnelor în România este într-adevăr o problemă foarte gravă, însă domeniile în care surzii ar avea cea mai mare de interpretare sunt și cele în care este necesar un interpret autorizat și cu experiență: domeniul medical, educațional sau juridic, de exemplu”, mai transmit reprezentanții ANIALMG.

În ceea ce privește noile tehnologii, aceștia subliniază că apelurile video au ușurat viața surzilor. Apelul video este și o metodă foarte utilizată în prezent pentru interpretare la distanță.

Foto: Pexels

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *