Mokslininkai iš Šanchajaus Jiao Tong universiteto ir Kembridžo universiteto sukūrė F5-TTS – visiškai neautoregresyvią teksto į kalbą sistemą, pagrįstą srauto suderinimu su difuzijos transformatoriumi (DiT). Kitaip tariant, tai gali būti kol kas geriausias AI teksto į kalbą generatorius.


Šis modelis buvo apmokytas naudojant viešą 100 000 valandų daugiakalbių duomenų rinkinį, ir, kaip girdite demonstracinėse versijose, „Fairytaler Fakes Fluent and Faithful“ kalba su srauto suderinimu (F5-TTS) pasižymi itin natūralia, išraiškinga nulinio šūvio galimybe, sklandžiu kodo perjungimu. , taip pat greičio kontrolės efektyvumą.

F5-TTS AI teksto į kalbą generatorius

Nereikalaujant sudėtingų konstrukcijų, tokių kaip trukmės modelis, teksto kodavimo priemonė ir fonemų derinimas, teksto įvestis tiesiog užpildoma užpildo žetonais, kurių ilgis yra toks pat kaip įvesties kalba, o tada triukšmo slopinimas atliekamas kalbai generuoti, o tai iš pradžių buvo įrodyta E2. TTS“, – sakė tyrėjai.