| Processo: | 17/06495-2 |
| Modalidade de apoio: | Bolsas no Brasil - Iniciação Científica |
| Data de Início da vigência: | 01 de junho de 2017 |
| Data de Término da vigência: | 31 de maio de 2018 |
| Área de conhecimento: | Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação |
| Pesquisador responsável: | Tiago Agostinho de Almeida |
| Beneficiário: | Pedro Reis Pires |
| Instituição Sede: | Centro de Ciências em Gestão e Tecnologia (CCGT). Universidade Federal de São Carlos (UFSCAR). Campus de Sorocaba. Sorocaba , SP, Brasil |
| Assunto(s): | Aprendizado computacional Processamento de linguagem natural Inteligência artificial Semântica |
| Palavra(s)-Chave do Pesquisador: | Aprendizado de Máquina | Categorização de texto | Processamento de Linguagem Natural | Inteligência Artificial |
Resumo O problema de classificar mensagens de texto vem se tornando cada vez mais difícil com o aumento do uso de dispositivos móveis para acessar a Internet, que faz com que as mensagens trocadas contenham cada vez mais gírias, abreviações e erros de escrita. O tradicional uso de bag-of-words em classificação de texto traz uma série de deficiências que se agravam quando as mensagens são curtas e ruidosas. Uma das soluções mais adotadas para contornar esses problemas faz uso de técnicas como normalização léxica das palavras e indexação semântica. Essas soluções, contudo, têm a desvantagem de serem dependentes da língua e exigirem constante manutenção, sendo que novas palavras surgem frequentemente. Este trabalho investiga o uso de representação vetorial distribuída de texto como alternativa ao bag-of-words, em problemas de classificação de mensagens curtas e ruidosas. Nessas representações, palavras semanticamente mais similares entre si são representadas por vetores mais próximos em um espaço n-dimensional. A hipótese deste projeto de pesquisa é que, por preservar a similaridade semântica entre as palavras, o uso dessas representações contorna muitas das deficiências relacionadas ao uso de bag-of-words, e pode proporcionar um desempenho superior. Por serem geradas por métodos não supervisionados, essas representações tem ainda a vantagem de não necessitar de dicionários. Dado que existem diferentes algoritmos para gerar a representação vetorial distribuída, este trabalho investigará qual proporciona o melhor desempenho na tarefa de categorização e se, de fato, para o cenário avaliado, essa representação pode oferecer desempenho superior à tradicional bag-of-words. | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |