Text-to-Speech

Text-to-Speech

Text-to-Speech (TTS) consiste basicamente em sintetizar fala, ou seja, transformar texto em áudio. Ao se utilizar Deep Learning é possível sintetizar a fala o mais próximo possível da fala humana. Portanto, esqueça aquela voz monótona, robotizada, típica de falas sintetizadas. Com Deep Learning a voz sintetizada é praticamente idêntica à fala humana, com todas as características de prosódia da fala original.


Atualmente, Tacotron-2 é o modelo estado-da-arte para síntese da fala. Trata-se da segunda versão da Tacotron, um modelo desenvolvido pelo Google e que possui uma arquitetura seq2seq, o qual recebe como entrada o texto e produz como saída um espectrograma em escala mel. Nosso trabalho, intitulado "TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian Portuguese" realiza um estudo comparativo da Tacotron-2 e outros modelos para síntese da fala em português brasileiro, também disponibilizando um dataset para treinamento.

Frase: Ouviram do ipiranga às margens plácidas de um povo heróico o brado retumbante.

Frase: Minha terra tem palmeiras onde canta o sabiá, as aves que aqui gorjeiam não gorjeiam como lá.

Frase: Amor é fogo que arde sem se ver é ferida que dói e não se sente é um contentamento descontente é dor que desatina sem doer.

Frase: E agora José? A festa acabou, a luz apagou, o povo sumiu, a noite esfriou, e agora José?

Frase: Vou-me embora pra Pasárgada, Lá sou amigo do rei, Lá tenho a mulher que eu quero, Na cama que escolherei!

Frase: Olha que coisa mais linda, mais cheia de graça. É ela menina, que vem e que passa. Num doce balanço a caminho do mar.

Frase: Na natureza nada se perde, nada se cria, tudo se transforma.

Frase: Água mole em pedra dura, tanto bate até que fura.

Frase: Mais vale um pássaro na mão do que cem voando.