Busca avançada
Ano de início
Entree

Classificação dos sentimentos pela voz nos atendimentos ao cliente em tempo real

Processo: 20/05820-0
Linha de fomento:Auxílio à Pesquisa - Pesquisa Inovativa em Pequenas Empresas - PIPE
Vigência: 01 de abril de 2021 - 31 de dezembro de 2021
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Gabriele Bellini
Beneficiário:Gabriele Bellini
Empresa:Tectra Soluções Integradas em Comunicação Ltda
CNAE: Desenvolvimento e licenciamento de programas de computador não-customizáveis
Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet
Município: São Paulo
Pesquisadores principais:Erikson Júlio de Aguiar
Assunto(s):Aprendizado computacional  Plataforma (computação)  Inteligência artificial  Bases de conhecimento  Reconhecimento da fala  Reconhecimento de voz  Reconhecimento de padrões  Serviço de atendimento ao consumidor  Telemarketing 

Resumo

Este projeto consiste em uma plataforma de análise de atendimento telefônico capaz de identificar as emoções dos usuários em tempo real, algo inédito no mercado de língua portuguesa e ainda incipiente nos mercados de língua inglesa. O produto destina-se a empresas de call center ou aquelas com alto volume de atendimento ao cliente em canais de comunicação via voz, tais como bancos, seguradoras, empresas de telecomunicação etc. Apesar das grandes mudanças que a era digital traz para a maneira como as empresas interagem com seus clientes, o contato por voz continua sendo um importante meio de comunicação entre as duas partes. O atendimento via telefone, por exemplo, é uma forma mais íntima de que as empresas dispõem para interagir com seus clientes, de forma que se possa criar um relacionamento coeso entre fornecedor e consumidor. O mercado de call centers atualmente emprega mais de 1,4 milhões de pessoas no Brasil, com um faturamento no ano de 2018 de R$ 51,8 bilhões. Em 2019, o crescimento do setor foi estimado em 5,6% com relação ao ano anterior. Atualmente, uma maneira que as empresas empregam para avaliar o nível de satisfação dos seus clientes é destinar uma equipe para ouvir as gravações das ligações telefônicas, realizando uma análise amostral delas. No entanto, este método pode tornar-se ineficiente, dependendo da quantidade de ligações. Para auxiliar esse processo, a empresa Neomove desenvolveu a plataforma K.A.R.L.A. (Knowledgeable Audio Recognition Learning Algorithm), que realiza a transcrição e classificação das gravações do atendimento telefônico. A plataforma K.A.R.L.A. baseia-se na análise semântica da transcrição dos áudios, possibilitando a identificação de ligações em que o cliente demostra insatisfação com o atendimento, fornecendo, assim, uma pré-seleção das gravações que precisam ser analisadas mais detalhadamente. Porém, faz-se necessária uma ferramenta capaz de analisar as gravações de forma automática e em tempo real, fornecendo informações relevantes sobre o conteúdo do atendimento. Diante disso, a ferramenta aqui proposta visa identificar o nível de satisfação do usuário em um sistema de atendimento ao cliente por meio do reconhecimento de padrões de voz. Estudos sobre o discurso emocional confirmam que existe uma estreita correlação entre a fala e a emoção. Os sinais da voz na fala humana são uma maneira rápida e fácil de entender a comunicação, os quais são considerados de grande importância em um sistema de reconhecimento de emoções pela voz (Speech Emotion Recognition - SER). Além dos indícios sintáticos e semânticos que a fala transmite, os estados emocionais e físicos humanos podem ser reconhecidos a partir do processamento do sinal de voz. Os sistemas SER são capazes de transformar dados de sinais de fala em informações relacionadas aos sentimentos dos indivíduos em situações particulares, por exemplo, as reações dos clientes aos serviços de telemarketing. Assim, é possível fazer uso de padrões de fala para o reconhecimento automático do estado emocional dos seres humanos. Para isso, serão extraídas as características Mel-frequency cepstral coefficients (MFCCs) dos áudios, que são as características mais comuns em aplicações de análise de voz. Estas características são baseadas no ceptro e inspiradas na maneira como o ouvido humano responde a estímulos sonoros, uma vez que as frequências do espectro são em escala mel, não lineares, com gradação que procura imitar a percepção auditiva humana. Adicionalmente, os recursos de prosódia também serão realizados para a integrar o modelo proposto, uma vez que tais recursos compreendem a sonoridade, a tremulação e a afinação da voz no discurso humano. Por fim, ao integrar ao sistema K.A.R.L.A. a análise de emoções pela frequência da voz, busca-se melhorar o processo de classificação de emoções nas ligações de atendimento ao cliente, obtendo, dessa forma, informações consistentes e em tempo real sobre a qualidade do serviço. (AU)