Pesquisa e Inovação: SpeechTera Ltda: desenvolvimento de recursos computacionais para tecnologias de fala

Processo:	15/21900-5
Modalidade de apoio:	Bolsas no Brasil - Pesquisa Inovativa em Pequenas Empresas - PIPE
Data de Início da vigência:	01 de setembro de 2015
Data de Término da vigência:	31 de maio de 2016
Área de conhecimento:	Interdisciplinar

Pesquisador responsável:	Vanessa Marquiafável Serrani
Beneficiário:	Vanessa Marquiafável Serrani

Empresa:	SpeechTera Desenvolvimento de Programas para Computadores Ltda

Vinculado ao auxílio:	14/21750-0 - Speech Tera Ltda: desenvolvimento de recursos computacionais para tecnologias de fala, AP.PIPE


Assunto(s):	Fala Síntese de fala Processamento de linguagem natural Aprendizado computacional Português do Brasil
Palavra(s)-Chave do Pesquisador:	Aprendizado de Máquina \| Inteligência Artificial \| processamento de fala \| Processamento de Linguagem Natural \| Reconhecimento Automático de Fala \| síntese de fala \| Processamento de Fala
Resumo Este projeto visa à criação de recursos computacionais para o desenvolvimento de tecnologias de fala, voltadas para o Português Brasileiro (Português Brasileiro). Com o desenvolvimento de algoritmos robustos para tratar bases de dados de fala, aplicações envolvendo reconhecimento ou síntese de fala, respectivamente, ASR (do inglês Automatic Speech Recognition) e TTS (do inglês Text-to-Speech), têm ganhado mais espaço em nosso cotidiano e se tornado cada vez mais precisas. No entanto, apesar de o Português Brasileiro ser a sexta língua mais falada no mundo, os recursos disponíveis para desenvolver tecnologias de fala para esse idioma ainda são escassos: há poucas bases de dados, conversores grafema-fonema e modelos acústicos ou de pronúncia. Este projeto busca, justamente, atuar nessa lacuna. Nosso propósito é desenvolver recursos computacionais de modo a incitar o desenvolvimento de tecnologias de fala para o Português Brasileiro, na indústria e na academia. Propõe-se a elaboração de quatro tipos de produtos: i) corpora de fala; ii) modelos acústicos; iii) modelos de pronúncia e iv) conversores grafema-fonema. Sobre os corpora de fala, propomos métodos de coleta e anotação de dados baseada em crawling e crowd-sourcing, que possibilitarão o desenvolvimento de recursos de fala a preços mais competitivos e acessíveis que os existentes atualmente no mercado. Técnicas do estado da arte serão empregadas na elaboração dos modelos acústicos, a exemplo de Deep Neural Networks; e dos conversores grafema-fonema, como modelos híbridos, baseados em regras manuais e aprendizado de máquina (SVM, CART, MARS). O modelo de negócio proposto centra-se em uma abordagem Business-to-Business (B2B), voltada para empresas de Tecnologia da Informação, processamento de fala e processamento de linguagem natural, pensando, especialmente, no nicho de start-ups. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itens Menos itens
TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itens Menos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

URL curto