Text-to-Speech (TTS) consiste basicamente em sintetizar fala, ou seja, transformar texto em áudio. Ao se utilizar Deep Learning é possível sintetizar a fala o mais próximo possível da fala humana. Portanto, esqueça aquela voz monótona, robotizada, típica de falas sintetizadas. Com Deep Learning a voz sintetizada é praticamente idêntica à fala humana, com todas as características de prosódia da fala original.
Atualmente, Tacotron-2 é o modelo estado-da-arte para síntese da fala. Trata-se da segunda versão da Tacotron, um modelo desenvolvido pelo Google e que possui uma arquitetura seq2seq, o qual recebe como entrada o texto e produz como saída um espectrograma em escala mel. Nosso trabalho, intitulado "TTS-Portuguese Corpus: a corpus for speech synthesis in Brazilian Portuguese" realiza um estudo comparativo da Tacotron-2 e outros modelos para síntese da fala em português brasileiro, também disponibilizando um dataset para treinamento.
Frase: Ouviram do ipiranga às margens plácidas de um povo heróico o brado retumbante.
Frase: Minha terra tem palmeiras onde canta o sabiá, as aves que aqui gorjeiam não gorjeiam como lá.
Frase: Amor é fogo que arde sem se ver é ferida que dói e não se sente é um contentamento descontente é dor que desatina sem doer.
Frase: E agora José? A festa acabou, a luz apagou, o povo sumiu, a noite esfriou, e agora José?
Frase: Vou-me embora pra Pasárgada, Lá sou amigo do rei, Lá tenho a mulher que eu quero, Na cama que escolherei!
Frase: Olha que coisa mais linda, mais cheia de graça. É ela menina, que vem e que passa. Num doce balanço a caminho do mar.
Frase: Na natureza nada se perde, nada se cria, tudo se transforma.
Frase: Água mole em pedra dura, tanto bate até que fura.
Frase: Mais vale um pássaro na mão do que cem voando.