Projetos

Text-to-Speech (TTS) consiste basicamente em sintetizar fala, ou seja, transformar texto em áudio. Ao se utilizar Deep Learning é possível sintetizar a fala o mais próximo possível da fala humana. Portanto, esqueça aquela voz monótona, robotizada, típica de falas sintetizadas. Com Deep Learning a voz sintetizada é praticamente idêntica à fala humana, com todas as características de prosódia da fala original.

Saiba mais...

Speech-to-Text (STT) refere-se a transcrição da fala, ou seja, transformar áudio em texto. As técnicas tradicionais utilizavam modelos estatísticos, como os Modelos Ocultos de Markov (Hidden Markov Models - HMMs). As técnicas baseadas em Deep Learning possuem uma acurácia muito maior, necessitando, em contrapartida, de uma grande quantidade de dados para treinamento dos modelos.

Saiba mais...


Wav2Lip é uma rede neural que adapta o vídeo com uma face, sincronizando os lábios com o áudio da fala diferente do original. Trata-se de uma tecnologia que utiliza diversos modelos baseados em redes neurais de última geração para sincronizar os lábios humanos na gravação de vídeo com uma faixa de áudio. É a tecnologia utilizada para gerar Deep Fakes.

Saiba mais...