Imaginați-vă că urmăriți un documentar înregistrat inițial în coreeană și dublat perfect în limba engleză, dar nu de o echipă de actori de voce care au petrecut săptămâni întregi într-un studio, ci de un pipeline AI care a finalizat totul în doar câteva ore. Aceasta nu este o promisiune dintr-un viitor îndepărtat; ea prinde contur chiar acum, iar ingineria din spatele acestui proces este mai complexă și mai fascinantă decât ar părea la prima vedere. În iunie 2025, RWS a achiziționat drepturile de proprietate intelectuală ale Papercup, un start-up londonez specializat în dublare AI, integrând tehnologia de voce sintetică bazată pe emoții în platformele Language Weaver și Trados. Rezultatul este o soluție hibridă de dublare, concepută să funcționeze la nivel enterprise, în care intervenția umană rămâne parte din proces. La RWS, lucrăm tocmai la această problemă: construim și îmbunătățim încontinuu acele sisteme care fac dublarea bazată pe AI posibilă la scară largă.
Dublarea, numită și localizare audio, este procesul prin care sunetul original dintr-un videoclip este înlocuit cu o nouă înregistrare în altă limbă. Este diferită de subtitrare, acolo unde textul apare pe ecran în timp ce sunetul original este redat în continuare. Prin dublare, ascultăm conținutul în propria noastră limbă, ceea ce ne îmbunătățește semnificativ înțelegerea și gradul de implicare, în special când vine vorba de conținut educațional, traininguri corporative sau divertisment pe platforme de streaming.
Dublarea convențională este extrem de costisitoare. Pentru fiecare limbă-țintă e nevoie de actori de voce profesioniști, un studio de înregistrare, un regizor, multiple încercări de înregistrare pentru a obține tonul și sincronizarea potrivite, precum și de o echipă de post-producție care să prelucreze și să mixeze sunetul. Dacă aplicăm acest proces la zece, douăzeci sau chiar treizeci de limbi, costurile devin prohibitive pentru majoritatea creatorilor de conținut. Dublarea AI schimbă fundamental această ecuație.
Tehnologiile AI care fac dublarea posibilă s-au maturizat rapid în ultimii ani. Trei domenii se află acum în centrul oricărui pipeline modern de dublare:
ASR (Automatic Speech Recognition) sau recunoașterea automată a vorbirii este tehnologia care transcrie vorbirea în text. Dat fiind un videoclip original în germană, un sistem ASR produce o transcriere cuvânt cu cuvânt, cu marcaje temporale precise care indică momentul rostirii fiecărui cuvânt. Calitatea acestui proces influențează direct tot ceea ce urmează.
MT (Machine Translation) sau traducerea automată preia transcrierea-sursă și produce un scenariu (script) tradus în limba-țintă. Acesta este un domeniu relativ matur, deși nuanțele, expresiile idiomatice și contextul cultural rămân provocări reale.
TTS (Text-to-Speech) sau sinteza vocală transformă textul tradus înapoi în conținut audio. Aici au loc cele mai importante inovații în momentul de față. Sistemele moderne TTS pot genera voci expresive, naturale și controlabile, ajustând viteza, tonul și intonația la cerere.
Dincolo de acești trei piloni, în procesul de dublare mai intervin și alte forme de procesare AI: voice conversion (modificarea unei voci pentru a suna identic cu o alta), lip reanimation (ajustarea mișcărilor buzelor vorbitorului în videoclipuri pentru a se potrivi cu noul conținut audio) și diverse modele de îmbunătățire audio pentru eliminarea zgomotului de fundal și creșterea calității.
Aceasta este provocarea fundamentală care face dublarea AI cu adevărat dificilă: o propoziție tradusă nu are aproape niciodată aceeași lungime precum cea originală. O propoziție rostită în patru secunde în engleză ar putea dura șase secunde în germană sau trei secunde în japoneză. Totuși, în videoclipul dublat, sunetul trebuie să se încadreze în același interval de timp ca originalul; în caz contrar, va părea desincronizat față de vorbitorul de pe ecran.
Numim această problemă timestamp fitting și o abordăm în trei etape:
Prima etapă este adaptarea traducerii: ajustarea scenariului tradus astfel încât să se încadreze în intervalul de timp disponibil, înainte ca vreun conținut audio să fie generat. Aceasta poate însemna alegerea unui sinonim mai scurt sau mai lung sau reformularea unei fraze. Un lingvist sau un model AI poate face acest lucru, dar există anumite constrângeri. Modificările prea creative pot afecta înțelesul și naturalețea discursului, astfel încât această etapă corectează doar anumite desincronizări.
A doua etapă are loc în momentul generării conținutului. Atunci când trimitem un text către o platformă de sinteză vocală (TTS), putem transmite indicații referitoare la ritmul de vorbire dorit. Majoritatea API-urilor moderne TTS expun un parametru de speed sau suportă SSML (Speech Synthesis Markup Language), un standard de marcare care permite adnotarea textului cu instrucțiuni de prozodie, asemănător cu modul în care HTML adnotează structura. Calculând raportul dintre intervalul de timp disponibil și durata estimată a discursului sintetizat, putem cere sistemului TTS să vorbească puțin mai rapid sau mai lent.
A treia etapă se numește time-stretching în post-procesare: odată ce conținutul audio este generat, folosim biblioteci de procesare audio pentru a comprima sau a extinde programatic forma de undă astfel încât să se potrivească exact duratei-țintă. Acesta este mecanismul cel mai precis, dar și cel mai fragil. Există limite clare în ceea ce privește comprimarea sau extinderea vorbirii, iar depășirea acestora duce la un sunet robotic sau distorsionat.
Un videoclip dublat sună mai bine atunci când vocea dublată seamănă cu cea a vorbitorului original. O voce autoritară și profundă din videoclipul-sursă nu ar trebui înlocuită cu o voce subțire și pițigăiată în limba-țintă.
Acest proces se numește voice matching. Abordarea noastră folosește conceptul de speaker embeddings, adică reprezentări matematice ale caracteristicilor unei voci, produse de modele ML antrenate pe colecții mari de date de vorbire. Comparând embeddingul vorbitorului original cu embeddingurile vocilor disponibile în sistemul nostru TTS, putem găsi cea mai apropiată potrivire acustică. Similitudinea este calculată folosind cosine similarity, o tehnică standard pentru compararea vectorilor în spații de mari dimensiuni.
Aici, există anumite constrângeri de natură etică și juridică. Nu facem voice cloning, adică nu antrenăm un model pentru a reproduce vocea unei persoane reale, fără a obține consimțământul explicit al acelei persoane și drepturile de utilizare aferente. Legislația precum EU AI Act impune cerințe din ce în ce mai stricte privind utilizarea vocilor reale. Prin urmare, abordarea noastră este una de voice matching, nu de voice cloning: găsim o voce existentă care este asemănătoare din punct de vedere acustic, în loc să sintetizăm una nouă folosind înregistrări cu vorbitorul original.
Unul dintre aspectele distinctive ale activității în domeniul dublării AI în prezent este ritmul în care se schimbă lucrurile. Evaluăm modele și furnizori noi aproape săptămânal. În acest context, întâlnim:
Furnizori de recunoaștere automată a vorbirii (ASR): servicii de transcriere bazate pe cloud, cu acuratețe variabilă în funcție de limbi și accente.
Furnizori de sinteză vocală (TTS): de la API-uri generale de sinteză vocală până la sisteme mai specializate și expresive, optimizate pentru anumite limbi sau întrebuințări.
Voci și modele deținute exclusiv de RWS: voci dezvoltate intern și modele optimizate, care ne oferă un control mai mare asupra calității și a consistenței.
Modele de voice conversion: sisteme care pot modifica caracteristicile acustice ale vorbirii sintetizate pentru a se potrivi mai bine cu un profil vocal țintă.
Modele de îmbunătățire audio: pentru reducerea zgomotului de fundal, eliminarea acusticii de cameră și normalizarea volumului.
Fiecare dintre aceste categorii evoluează rapid. Un model TTS care era de ultimă generație acum șase luni poate fi deja depășit de o versiune mai nouă. Practica noastră de inginerie a trebuit să se adapteze corespunzător: în loc să depindem în mod rigid de anumiți furnizori, construim niveluri de abstractizare care ne permit să înlocuim componentele pe măsură ce domeniul evoluează.
Merită să clarificăm un lucru: dublarea AI nu elimină expertiza umană din proces. RWS oferă un spectru larg de servicii de dublare, iar combinația potrivită între AI și implicarea umană depinde de tipul de conținut și de cerințele de calitate.
Pentru anumite tipuri de conținut, cum ar fi trainingurile corporative, un pipeline AI complet automatizat produce rezultate suficient de bune și este semnificativ mai rentabil decât dublarea tradițională în studio. Pentru un alt tip de conținut, cum ar fi un documentar premium, un film sau un material în care vocea brandului este esențială, lingviștii, actorii de voce și specialiștii în post-procesare continuă să joace un rol important. Inteligența artificială accelerează și scalează procesul, în timp ce expertiza umană se asigură că aceasta respectă toate cerințele.
Observăm acest tipar în întreaga industrie. Cele mai eficiente întrebuințări ale inteligenței artificiale în media nu înlocuiesc măiestria umană, ci reprezintă instrumente care elimină blocajele costisitoare și repetitive, astfel încât oamenii cu experiență să se poată concentra pe acele aspecte ale muncii care necesită cu adevărat expertiza lor.
Dublarea AI se află la intersecția dintre știința vorbirii, machine learning, ingineria audio și producția media. Problemele de inginerie, de la timestamp fitting și voice matching până la transferul de prozodie și conformitatea juridică sunt complexe și în continuă evoluție. Ne aflăm într-o etapă timpurie, dar de rapidă maturizare a acestei tehnologii, iar echipele care construiesc aceste sisteme navighează într-un peisaj în care instrumentele se schimbă mai repede decât în majoritatea domeniilor software.
Domeniul se mișcă într-un ritm accelerat, iar provocările sunt complexe. Dacă până acum nu ați acordat atenție dublării AI, este timpul să o faceți.
de Ovidiu Mățan
de Laura Dioşan , Andrei Olar , Mózes Császár