Alex a învățat despre aromână la școală. După ce a auzit o prietenă de-ale mamei sale vorbind în aromână la telefon, a început să caute și mai multe despre această limbă, descoperind și altele în pericol de dispariție, din cauza lipsei măsurilor de conservare.

Elev în clasa a XII-a la Colegiul Național de Informatică Tudor Vianu din București și pasionat și de NLP (n.r. – „natural language processing”), adică procesarea limbajului natural prin metode computaționale, s-a întrebat ce ar putea face pentru a sprijini procesul de conservare a limbii aromâne. 

Conform istoricilor, aromânii erau împrăștiați prin Balcani încă din Evul Mediu. În România, sunt denumiți popular și români macedoneni, macedo-români sau macedono-vlahi. Numărul membrilor comunității este dificil de stabilit, din cauza căsătoriilor mixte și a folosirii rare a acestei limbi.

Alex a început să lucreze la traducător în ianuarie 2024 și l-a terminat în septembrie, așa că am stat de vorbă cu el, ca să înțelegem cum a decurs procesul și cum a reușit un elev de 17 ani să construiască un astfel de produs. 

Libertatea: Povestește-mi puțin despre cum te-ai hotărât să creezi traducătorul și ce te-a motivat să pornești proiectul. 

„Rușii se vor căi că l-au ascultat”. Oficialul Gazprom devenit luptător ucrainean are un mesaj pentru Putin
Recomandări
„Rușii se vor căi că l-au ascultat”. Oficialul Gazprom devenit luptător ucrainean are un mesaj pentru Putin

Alex Jerpelea: A început prin faptul că eu deja știam de aromână de la școală, dar nu știam că e în pericol de dispariție, că sunt foarte puține resurse digitale. În același timp eram și pasionat de domeniul care se numește „Natural Language Processing”, pe scurt NLP. Practic, orice fel de procesare a limbajului natural, uman, prin metode computaționale. 

Și apoi, am auzit, într-adevăr, conversația unei prietene de-ale mamei la telefon, fix atunci când studiam eu despre acest NLP și văzusem că există niște inițiative asemănătoare și în America pentru limba cherokee, care, iarăși, este într-o situație mult mai dificilă, dar acolo se și iau alte măsuri de conservare.

Alexandru Jerpelea, elevul de 17 ani care a creat primul traducător de aromână: „Suntem fericiți că am produs un așa entuziasm” | INTERVIU
Screenshot de pe AroTranslate

N-avea cum să-mi vină o asemenea idee dacă nu mai studiasem chestii similare și nu eram la curent cu subiectul. Nu mi-a venit instant, mi-a venit aflând ulterior acasă despre situația aromânilor, lucru care m-a îndemnat să studiez. Cred că mulți români au cunoscuți aromâni. 

Satan II, super-racheta lui Putin, a eșuat și a distrus poligonul de testare. Imagini din satelit
Recomandări
Satan II, super-racheta lui Putin, a eșuat și a distrus poligonul de testare. Imagini din satelit

– Părinții tăi cum au reacționat la inițiativa asta? Mai ales că ai și dus-o la bun sfârșit cu un așa rezultat.

 – Sunt mândri și mă bucur că m-au susținut, nu mi-au zis să mă las, că ar fi o prostie sau ceva.

– Care a fost primul pas în dezvoltarea traducătorului?

– Primul pas pentru a face un proiect de „machine translation” (n.r. – traducere automată) este să ai un set de date cu propoziții care să fie paralel traduse în ambele limbi între care vrei să faci un sistem de tradus. Iar acestea nu existau. 

E mai important decât inteligența artificială, decât orice tehnologii am folosit, care sunt oarecum standard, căci nu e spațiu foarte mare de creativitate.

De-abia prin luna mai, când eu eram la mijlocul proiectului, a apărut o publicație care a adunat vreo 3.000 de astfel de propoziții, ceea ce este foarte puțin. Deci primul pas a fost colectarea datelor.

Poți să fii foarte flexibil când cauți date. Eu, evident, sprijinit, am colectat tot felul de texte. De exemplu, sunt cărți de poezii consacrate comunității de aromâni, care sunt traduse bilingv, adică pe partea stângă a paginii ai în aromână și pe partea dreaptă în română. O tehnică pe care o poți aplica este să extragi texturi din imagine, să-ți dai seama cărui vers în aromână îi corespunde versul în română, să le împerechezi. Ăsta e un exemplu mai simplu. 

Mai avem cărți de proză sau articole jurnalistice, există presă în aromână. Dar cum îți dai seama dacă două titluri sunt similare, unul aromân și român pentru a împerechea articolele între ele, atunci când nu există o corespondență unu la unu între ele? Păi, cu alte date pe care le-am strâns, am antrenat alte modele care să-și dea seama de similaritatea semantică a două propoziții.

Cu aceeași tehnologie, apoi, când ai două articole, nu poți să le spargi în propoziții și să zici că prima e cu prima, a doua cu a doua. Că de multe ori traducerile se fac mai liber și traducătorul poate să aleagă să mai spargă o propoziție, să mai unească, să omită ceva. 

Și aici iarăși am aplicat tehnicii de NLP, folosind tot niște modele care transformă propoziții în vectori numerici, care reprezintă semnificația semantică, într-un mod oarecum ascuns. Și apoi, se compară propoziție cu propoziție. Pe scurt, am dezvoltat și unelte de aliniere a două articole, să zic așa, în cele două limbi.  

De asemenea, eu nu pot să antrenez traducătorul doar cu texte din Biblie, fiindcă toate traducerile apoi vor arăta ca o prelegere bisericească. Trebuie cumva să diversifici, să știi cum să faci încât să prinzi erori. 

– Ce a urmat după?

– Pasul ăsta a durat destul de mult. Textele sunt rare, sunt cărți pe care le găsești greu, scanate prost, așa că aici ne-a ajutat Comunitatea Aromânilor din România.

Și ziceam mai devreme că a făcut cineva un asemenea corpus deja prin mai, și anume domnul Sergiu Nisioi, profesor asociat la Universitatea București, din cadrul Centrului de Cercetare a Tehnologiilor de Limbaj Uman. 

L-am contactat să colaborăm. Am văzut că și el a început ceva asemănător și mi s-a părut interesant. Dar asta deja când eram mai avansat, căci el a făcut asta în luna mai, dar eu l-am descoperit prin iulie, când aveam deja un traducător și niște texte. 

După colectarea datelor, urmează experimentele cu tot felul de modele din industrie care deja au cunoștințe lingvistice, ca să zic așa, ca să putem exploata cum înțelege un model de inteligență artificială limbajul uman și să beneficieze astfel de „transfer learning” (n.r. – învățare prin transfer). 

Am antrenat în continuare modelele existente, pentru a incorpora si aromâna. Am și extins la limba engleză, deși noi aveam doar perechi, aromână-română, le-am tradus artificial și din română în engleză. Și acum aveam, practic, perechi de câte trei și puteam să înaintăm în toate cele șase direcții dintre cele trei limbi. 

Google și ChatGPT și-ar putea îmbunătăți traducerea în aromână

– Înțeleg că primul pas a fost, de fapt, și cel mai dificil, să aduni texte și propoziții.

– Cred că da, să fiu sincer. Pentru a doua parte, există mulți experți care o puteau face, inclusiv Google, însă n-a făcut asta până acum pentru că nu existau date pe așa ceva. Acum, că o să ne publicăm corpusul, este foarte posibil chiar ca Google sau o altă platformă să găsească și să „prindă” informațiile cu ajutorul „crawl”-erelor. Mai e posibil ca alte companii care dezvoltă „language models”, cum ar fi OpenAi cu ChatGPT, să ne preia corpusul. 

Și atunci o să vedem, poate la ChatGPT, capabilități mai sporite de a traduce aromâna. Noi am testat inclusiv asta în studiul nostru și am ajuns la concluzia că există ceva acolo. ChatGPT clar folosește noțiuni de bază de a traduce aromână, doar că mult mai slabe decât ce am făcut noi, din câte am experimentat cu metrici și chestii standard.

– Ce alte cunoștințe trebuie să ai ca să poți dezvolta un astfel de produs și ce ai învățat pe parcurs?

– Am căpătat foarte multe cunoștințe. Dacă m-aș apuca astăzi de acest proiect, ar fi ceva mai rapid. M-a ajutat backgroundul de olimpiade de informatică, dar și toată gândirea asta algoritmică te ajută în a aborda astfel de probleme. 

Apoi trebuie să înveți foarte multe lucruri de inteligență artificială. Trebuie să înțelegi cum funcționează aceste modele de limbaj care au luat acum lumea prin surprindere, să zic așa. Să înțelegi foarte multe chestii de statistică și de date. 

Apoi, ca să antrenăm modelele astea, așa ceva nu prea se face pe calculatorul personal, fiindcă sunt niște chestii destul de grele, trebuie să știi cum să operezi cu un server remote pentru antrenare pe plăci video puternice, care de obicei vin contra cost, dar aici am fost iar ajutați de domnul Sergiu Nisioi și institutul din spate. 

Apoi, am învățat foarte mult despre aromână, evident. Printre provocările principale intervine faptul că aromâna nu este absolut deloc standardizată și că fiecare vorbitor este cumva influențat de propria limbă. 

Adică un român din Grecia va vorbi mai grecizat, pe când un român din România va vorbi mai românizat. Ei au și niște subdialecte ale lor. Și aici apar diferențe. Noi am încercat să studiem cum apar dialectele astea, inclusiv în traducerile noastre. Nu prea am ajuns la o concluzie, din păcate. 

Apoi mai este grafia (n.r. – caracterul executării literelor în scris) în care se scria aromâna, căci nu este standardizată din punctul ăsta de vedere. Grecii o scriu cu litere grecești, cei din România o scriu cum se scrie și româna. 

Mulți alții o scriu cu o ortografie numită cunia, care folosește doar alfabetul englez. A trebuit să ne dăm seama cum facem conversia între grafiile astea, fiindcă de multe ori este ambiguă. Adică știu că pe litera „ș” o fac „sh”, dar „ã” îl fac „ă” sau „â”? Acolo se pierde o informație lingvistică. 

Nu există măsuri care să combată scăderea numărului de vorbitori de aromână 

– După ce ai dat drumul traducătorului, ai primit feedback din partea comunității de aromâni de la noi? A celor din străinătate?  

– Da, clar! Am fost bombardați de comunitate cu mesaje și suntem fericiți că am produs un așa entuziasm. Aromânii sunt foarte pasionați de limba și cultura lor și noi ne bucurăm că, prin asta, am putut să mai aducem niște atenție în jurul aromânei. Este studiat faptul că numărul de vorbitori scade dramatic, dar puține măsuri sunt luate. Cel mai mult lucrează ONG-urile, dar și ele fac cât pot.

Am primit mii de felicitări, iar mulți credeau că sunt aromân. Am fost contactați de foarte mulți oameni care vor să ne ajute și suntem foarte recunoscători pentru asta.

Programul, antrenat să traducă propoziții, nu cuvinte

– Din ce am înțeles, traducătorul are totuși niște limite.

– Da. Noi participăm și la o conferință academică, la „COLING 2025” de la Abu Dhabi, pentru care am pregătit și un corpus, validat nu doar automat, ci și de trei evaluatori umani, pe care i-am pus să adnoteze cu o metodologie destul de standard în industria asta de „machine translation”. 

Concluziile au fost că funcționează mai bine când se traduce spre o limbă mai bogată în resurse, adică e mai completă traducerea din aromână în română sau în engleză, decât invers.

O altă concluzie este că nu prea se pot traduce cuvinte. Adică nu recomandăm ca oamenii să folosească traducătorul nostru ca un dicționar, pentru că el a fost antrenat să traducă propoziții. 

La propozițiile mai complexe, mai lungi, sau care conțin neologisme, tendința este ori de românizare a textului, ori apar aberații. Aberațiile nu sunt excluse, sunt o problemă specifică, ele se mai numesc și „hallucinations”. Traducătorul e o unealtă și poate să aibă o influență la cum se dezvoltă limba, iar noi nu vrem ca aromâna să se românizeze din cauza noastră. Am menționat asta și pe site.

Notă: Am folosit termenul de „limbă” aromână și nu „dialect” deoarece în materialul de față nu disputăm statutul de limbă sau dialect (aromânii susținând statutul de limbă), ci punem accent pe faptul că există o nouă unealtă care ajută la conservarea aromânei.

Urmărește cel mai nou VIDEO

Google News Urmărește-ne pe Google News


Ați sesizat o eroare într-un articol din Libertatea? Ne puteți scrie pe adresa de email eroare@libertatea.ro

Comentarii (4)

XhX13   •   22.09.2024, 19:43

Bătrânii cu războaie eroi naționali de sacrificiu,face AI misto de voi!

XhX13   •   22.09.2024, 19:42

Tehnologia,le dă la cap la anumiți bătrâni ca nu știu ce au de vor războaie?!Si nu vad cum le pot duce!Hai bai inteligent artificial nu-ti mai bate joc de bătrâni acu!

XhX13   •   22.09.2024, 19:40

Yea man,yes cu ruși ai îmbătrânit!Ti-au asigurat o stabilitate o pensie un trai decent!Esti ***?

Acest comentariu a fost moderat pentru că nu respectă regulile site-ului.

Vezi toate comentariile (4)
Comentează

Loghează-te în contul tău pentru a adăuga comentarii și a te alătura dialogului.

Ploaie de drone ucrainene deasupra Rusiei. Câte au fost doborâte de forțele lui Putin
Știrileprotv.ro
Ploaie de drone ucrainene deasupra Rusiei. Câte au fost doborâte de forțele lui Putin
Cum arăta Matilda Pascal Cojocărița la începutul carierei. A câștigat Miss România în 1979, la 19 ani
Viva.ro
Cum arăta Matilda Pascal Cojocărița la începutul carierei. A câștigat Miss România în 1979, la 19 ani
Oana Roman și fiica ei, asortate la VIVA Influencers Party 2024: „Mă uit la ea și nu îmi vine să cred că e deja domnișoară”. Cum s-au îmbrăcat vedetele la petrecerea cu tematică siciliană
Libertateapentrufemei.ro
Oana Roman și fiica ei, asortate la VIVA Influencers Party 2024: „Mă uit la ea și nu îmi vine să cred că e deja domnișoară”. Cum s-au îmbrăcat vedetele la petrecerea cu tematică siciliană
Ele sunt zodiile care își schimbă viața în septembrie. Apar bani mulți în calea lor, câștiguri fabuloase și măriri de salariu
FANATIK.RO
Ele sunt zodiile care își schimbă viața în septembrie. Apar bani mulți în calea lor, câștiguri fabuloase și măriri de salariu
Gigi Becali a făcut praf un jucător, apoi s-a răzgândit și a criticat arbitrajul » Ce arată imaginile de la cel mai încins moment al jocului
GSP.RO
Gigi Becali a făcut praf un jucător, apoi s-a răzgândit și a criticat arbitrajul » Ce arată imaginile de la cel mai încins moment al jocului
Medicamentele care te pot lăsa fără carnet. Zeci de mii de români le iau și se urcă la volan. Sunt incompatibile cu șofatul. „Vor fi tratați precum consumatorii de droguri”
FANATIK.RO
Medicamentele care te pot lăsa fără carnet. Zeci de mii de români le iau și se urcă la volan. Sunt incompatibile cu șofatul. „Vor fi tratați precum consumatorii de droguri”
'Era ritual, când se trezea dimineața'. Larisa, fosta soție a lui Alin Oprea, a făcut publice detalii intime din mariajul lor de 24 de ani
Unica.ro
'Era ritual, când se trezea dimineața'. Larisa, fosta soție a lui Alin Oprea, a făcut publice detalii intime din mariajul lor de 24 de ani
S-a aflat cum a ajuns la Dinamo autocarul pe care l-a folosit şi FCSB, după ce fanii "câinilor" au izbucnit! Prima explicaţie: "Este adevărat" | FOTO
Orangesport.ro
S-a aflat cum a ajuns la Dinamo autocarul pe care l-a folosit şi FCSB, după ce fanii "câinilor" au izbucnit! Prima explicaţie: "Este adevărat" | FOTO
EXCLUSIV. Mărturia vatmanului implicat în accidentul în care murit un angajat SPP: "Mama plânge întruna. Nu am avut nicio șansă să îl evit"
Observatornews.ro
EXCLUSIV. Mărturia vatmanului implicat în accidentul în care murit un angajat SPP: "Mama plânge întruna. Nu am avut nicio șansă să îl evit"
Horoscop 22 septembrie 2024. Gemenii au șansa de a regândi anumite planuri, intenții și aspirații, ca să le aducă mai aproape de ceea ce pot face
HOROSCOP
Horoscop 22 septembrie 2024. Gemenii au șansa de a regândi anumite planuri, intenții și aspirații, ca să le aducă mai aproape de ceea ce pot face

Știri mondene

Știri România

RECOMANDĂRI