Google Meet a dezvoltat o nouă funcționalitate de traducere vocală în timp real, realizată în colaborare cu echipele DeepMind și Research. Această tehnologie permite comunicarea între persoane care vorbesc limbi diferite, folosind propria voce a fiecărui utilizator.
Traducerea instantanee: cum funcționează?
Funcția numită Speech Translation transformă conversațiile între vorbitori de limbi diferite, generând traducerea aproape instantaneu, în tonul vocii originale a utilizatorului. Fredric Lindstrom, liderul echipei de inginerie audio pentru Meet, explică că scopul este eliminarea barierelor lingvistice, fie că este vorba despre planificarea unei vacanțe sau comunicarea cu familia. În prezent, tehnologia suportă limbile italiană, portugheză, germană și franceză.
Accelerația dezvoltării datorită inteligenței artificiale
Deși inițial echipa estima că dezvoltarea acestei funcții va dura cinci ani, colaborarea cu DeepMind și folosirea modelelor AI avansate au redus timpul la doar doi ani. „Pe măsură ce AI evoluează, progresele se realizează mult mai rapid”, a adăugat Fredric.
Inovații tehnologice și eliminarea întârzierilor
Până acum, traducerea vocală se realiza printr-un proces în trei pași: transcrierea, traducerea textului și reconversia în vorbire, ceea ce implica întârzieri semnificative și o voce uniformă, fără elementele distinctive ale vorbitorului. Huib Kleinhout, responsabil cu calitatea audio, a subliniat că noile modele mari de limbaj permit acum traducerea directă în audio, aproape instantaneu, eliminând aceste probleme.
Provocări și adaptări
Dezvoltarea acestei funcții a fost influențată de diverse dificultăți, precum accentele diverse, zgomotul de fond sau condițiile rețelei. Echipele Google Meet și DeepMind au testat și ajustat modelele cu ajutorul lingviștilor și experților în limbi străine pentru a asigura o traducere corectă și nuanțată.
Perspectiva viitoare asupra traducerilor cu AI
Deși în prezent traducerile sunt destul de literale, ceea ce uneori poate genera interpretări haioase, Fredric și Huib sunt încrezători că actualizările viitoare vor permite captarea tonului, ironiei și a altor subtilități ale limbajului. „Acum au o limbă comună și pot conversa fără bariere”, a concluzionat Fredric.
Impact social profund
Fredric Lindstrom a relatat povești emoționante despre utilizatori care, grație acestei funcții, au reușit să comunice cu rude sau prieteni din alte țări sau generații. „Este foarte satisfăcător să auzi cum oameni care nu au putut să-și vorbească niciodată cu bunicii, acum pot face acest lucru”, a spus el.