Stiilisiirdamine

Stiilisiirdamiseks on kasutatud Tensorflow-põhist CycleGANi mudelit (Gao, 2019; Gao jt, 2019). See on mitteparalleelne emotsionaalse kõne siirdamise mudel, mille treenimiseks pole vaja paarisandmeid, transkriptsioone ega ajalist joondamist. See võimaldab stiiliga seotud kõneomaduste ülekandmist, säilitades samal ajal kõneleja identiteedi ja teksti sisu. Rahuldava kvaliteediga mudelite treenimiseks piisab suhteliselt väikestest korpustest. Ülevaade erinevatel korpustel mudelite treenimise tulelmustest on avaldatud ja saadaval Githubis (Pajupuu, 2022).

Siinsete stiilisiirdamise mudelite treenimiseks kasutati 120 nais- ja 120 meesnäitleja rahulikus ja energilises stiilis loetud reklaame, mis pärinevad Orbital Vox Stuudiod andmebaasist (wav 44,1 kHz, 16 bit, stereo, keskmine reklaami pikkus 20 sekundit). Mudelid treeniti naishäälte jaoks ja meeshäälte jaoks eraldi.

Energilise stiili siirdaja meeshäälele

Energilise stiili siirdaja naishäälele

Kirjandus

Gao, J. (2019). Emotional Speech Conversion Using Nonparallel Data. https://github.com/bottlecapper/EmoCycleGAN

Gao, J., Chakraborty, D., Tembine, H., and Olaleye, O. (2019). Nonparallel emotional speech conversion. Proc. Interspeech 2019, 2858–62. doi: 10.21437/Interspeech.2019-2878

Pajupuu, J. (2022). Samples of Speech Style Transfer for Estonian. https://github.com/pajupuujh/CycleGAN