Nový fenomén text to speech
Shutterstock.com

Od fonémů k přirozenému hlasu. Na jakém principu funguje systém text to speech?

Moderní systémy dnes dokážou proměnit text v přirozeně znějící hlas, který často nerozeznáte od skutečného člověka. Jak ale TTS přesně funguje?

 

Předzpracování textu. Cesta od písmen k fonémům

Prvním krokem TTS je analýza textu. Systém nejprve rozdělí větu na fonémy, což jsou základní jednotky výslovnosti. Nejde jen o jednoduché „čtení nahlas“, AI model musí rozpoznat, kde udělat pauzu, jak interpretovat interpunkci a zda například tečka znamená konec věty nebo zkratku.

Moderní systémy proto využívají jazykové modely, které vyhodnocují gramatiku i kontext. Díky tomu dokážou rozlišit správnou intonaci například v otázkách nebo při čtení složitějších textů, kde je důležité zachovat logickou strukturu vět.

Generování melodií hlasu

Dalším krokem je prosodie, tedy „melodie hlasu“. Modely jako Tacotron 2 (Google), využívající architekturu seq2seq (sequence-to-sequence) nebo FastSpeech (Microsoft), dokážou na základě textu navrhnout optimální tempo, rytmus a intonaci.

Vytvoření zvukové vlny

Poslední fáze je syntéza zvukové vlny. Systémy jako WaveNet (DeepMind) nebo HiFi-GAN převedou fonetický zápis a prosodii na skutečný zvuk. Díky generativním modelům je výsledný hlas přirozený, s minimem šumu a s bohatou dynamikou. Na rozdíl od starších TTS systémů, které zněly strojově, dokáže moderní syntéza napodobit jemné nuance řeči.

Kde se TTS využívá?

  • Audioknihy – automatizované čtení knih s možností volby hlasu nebo tempa.
  • Hlasoví asistenti – Siri, Alexa či Google Assistant využívají TTS pro komunikaci.
  • Navigace a informační systémy – dopravní hlášení, čtení zpráv pro zrakově postižené.
  • Překladače – simultánní převod přeloženého textu do hlasové podoby.

 

TIP: Zkuste si poslechnout audioknihu Svět levného dopaminu, kterou celou namluvila umělá inteligence, nikoliv syntetickým hlasem, ale hlasem přímo autorů knihy.

Co jste o TTS možná nevěděli

První syntetický hlas vznikl už v roce 1961.
Vědci z Bell Labs tehdy vyvinuli program, který zpíval „Daisy Bell“. Tento moment inspiroval i legendární scénu v Kubrickově filmu 2001: Vesmírná odysea, kde počítač HAL zpívá stejnou píseň.

WaveNet od DeepMind znamenal revoluci.
Když v roce 2016 přišla společnost DeepMind s modelem WaveNet, kvalita syntetického hlasu se skokově zlepšila. Byl to první model, který dokázal generovat přirozený zvuk.

TTS pomáhá lidem se zdravotními problémy.
Díky klonování hlasu si například pacienti s ALS mohou uchovat svůj vlastní hlas, i když ztratí schopnost mluvit.

Hlas jako nástroj marketingu.
Firmy začínají využívat unikátní syntetické hlasy jako součást své značky, například pro zákaznickou podporu, podcasty nebo automatizované kampaně.

TTS dokáže divy, zároveň ale roste význam etických otázek, jako je zneužití klonovaných hlasů pro deepfake audio.

Obří osamělé planety mohou vytvářet vlastní planetární systémy

Podle nového výzkumu obří volně se pohybující planety mají potenciál vytvářet vlastní miniaturní planetární systémy …