Mokslininkai iš Šanchajaus Jiao Tong universiteto ir Kembridžo universiteto sukūrė F5-TTS – visiškai neautoregresyvią teksto į kalbą sistemą, pagrįstą srauto suderinimu su difuzijos transformatoriumi (DiT). Kitaip tariant, tai gali būti kol kas geriausias AI teksto į kalbą generatorius.
Šis modelis buvo apmokytas naudojant viešą 100 000 valandų daugiakalbių duomenų rinkinį, ir, kaip girdite demonstracinėse versijose, „Fairytaler Fakes Fluent and Faithful“ kalba su srauto suderinimu (F5-TTS) pasižymi itin natūralia, išraiškinga nulinio šūvio galimybe, sklandžiu kodo perjungimu. , taip pat greičio kontrolės efektyvumą.

Nereikalaujant sudėtingų konstrukcijų, tokių kaip trukmės modelis, teksto kodavimo priemonė ir fonemų derinimas, teksto įvestis tiesiog užpildoma užpildo žetonais, kurių ilgis yra toks pat kaip įvesties kalba, o tada triukšmo slopinimas atliekamas kalbai generuoti, o tai iš pradžių buvo įrodyta E2. TTS“, – sakė tyrėjai.