Busca avançada
Ano de início
Entree

Representação vetorial distribuída de texto aplicada na classificação de mensagens curtas e ruidosas

Processo: 17/06495-2
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de junho de 2017
Data de Término da vigência: 31 de maio de 2018
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Tiago Agostinho de Almeida
Beneficiário:Pedro Reis Pires
Instituição Sede: Centro de Ciências em Gestão e Tecnologia (CCGT). Universidade Federal de São Carlos (UFSCAR). Campus de Sorocaba. Sorocaba , SP, Brasil
Assunto(s):Aprendizado computacional   Processamento de linguagem natural   Inteligência artificial   Semântica
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | Categorização de texto | Processamento de Linguagem Natural | Inteligência Artificial

Resumo

O problema de classificar mensagens de texto vem se tornando cada vez mais difícil com o aumento do uso de dispositivos móveis para acessar a Internet, que faz com que as mensagens trocadas contenham cada vez mais gírias, abreviações e erros de escrita. O tradicional uso de bag-of-words em classificação de texto traz uma série de deficiências que se agravam quando as mensagens são curtas e ruidosas. Uma das soluções mais adotadas para contornar esses problemas faz uso de técnicas como normalização léxica das palavras e indexação semântica. Essas soluções, contudo, têm a desvantagem de serem dependentes da língua e exigirem constante manutenção, sendo que novas palavras surgem frequentemente. Este trabalho investiga o uso de representação vetorial distribuída de texto como alternativa ao bag-of-words, em problemas de classificação de mensagens curtas e ruidosas. Nessas representações, palavras semanticamente mais similares entre si são representadas por vetores mais próximos em um espaço n-dimensional. A hipótese deste projeto de pesquisa é que, por preservar a similaridade semântica entre as palavras, o uso dessas representações contorna muitas das deficiências relacionadas ao uso de bag-of-words, e pode proporcionar um desempenho superior. Por serem geradas por métodos não supervisionados, essas representações têm ainda a vantagem de não necessitar de dicionários. Dado que existem diferentes algoritmos para gerar a representação vetorial distribuída, este trabalho investigará qual proporciona o melhor desempenho na tarefa de categorização e se, de fato, para o cenário avaliado, essa representação pode oferecer desempenho superior à tradicional bag-of-words. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
LOCHTER, JOHANNES, V; PIRES, PEDRO R.; BOSSOLANI, CARLOS; YAMAKAMI, AKEBO; ALMEIDA, TIAGO A.; IEEE. Evaluating the impact of corpora used to train distributed text representation models for noisy and short texts. 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), v. N/A, p. 8-pg., . (17/06495-2, 17/09387-6)