um projeto sobre processamento da fala
Esta página visa divulgar o projeto Mr. Falante, o qual é um projeto pessoal sobre processamento da fala em português brasileiro. Este projeto visa pesquisar, desenvolver e treinar modelos baseados em Deep Learning (DL) para processamento da fala. Dentre esses projetos, destacam-se modelos para síntese da fala (em inglês Text-to-Speech - TTS), transcrição da fala (em inglês Speech-to-Text - STT), reconhecimento de locutor (em inglês Speaker Recognition), diarização de locutor (em inglês Speaker Diarization), Denoisers, Upsampling e etc.
Inteligência Artificial (IA) pode ser vista como a capacidade de uma máquina para reproduzir competências de forma semelhante à humana. Envolve o desenvolvimento de sistemas que podem aprender de forma autônoma, reconhecendo padrões e gerando percepções sem serem explicitamente programados para isso. Diferente da programação tradicional, modelos baseados em IA aprendem a extrair padrões a partir de exemplos, ou seja, dados. Modelos baseados em DL necessitam de uma grande quantidade de dados, aprendendo com a experiência, e assim poder a realizar tarefas como nós humanos.
Redes Neurais são modelos computacionais inspirados no cérebro humano.
Modelos para transcrição da fala (STT) baseados em redes neurais artificiais são o estado-da-arte.
A ferramenta Wav2Lip utiliza redes neurais artificiais para sincronização labial em vídeos.
Modelos para síntese da fala (TTS) baseados em deep learning apresentam resultados semelhantes à fala humana.
Entre em contato pelo e-mail mrfalante(a)gmail.com para saber mais sobre o projeto.