Bolsa 17/06495-2 - Aprendizado computacional, Processamento de linguagem natural

Processo:	17/06495-2
Modalidade de apoio:	Bolsas no Brasil - Iniciação Científica
Data de Início da vigência:	01 de junho de 2017
Data de Término da vigência:	31 de maio de 2018
Área de conhecimento:	Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação

Pesquisador responsável:	Tiago Agostinho de Almeida
Beneficiário:	Pedro Reis Pires

Instituição Sede:	Centro de Ciências em Gestão e Tecnologia (CCGT). Universidade Federal de São Carlos (UFSCAR). Campus de Sorocaba. Sorocaba , SP, Brasil

Assunto(s):	Aprendizado computacional Processamento de linguagem natural Inteligência artificial Semântica
Palavra(s)-Chave do Pesquisador:	Aprendizado de Máquina \| Categorização de texto \| Processamento de Linguagem Natural \| Inteligência Artificial
Resumo O problema de classificar mensagens de texto vem se tornando cada vez mais difícil com o aumento do uso de dispositivos móveis para acessar a Internet, que faz com que as mensagens trocadas contenham cada vez mais gírias, abreviações e erros de escrita. O tradicional uso de bag-of-words em classificação de texto traz uma série de deficiências que se agravam quando as mensagens são curtas e ruidosas. Uma das soluções mais adotadas para contornar esses problemas faz uso de técnicas como normalização léxica das palavras e indexação semântica. Essas soluções, contudo, têm a desvantagem de serem dependentes da língua e exigirem constante manutenção, sendo que novas palavras surgem frequentemente. Este trabalho investiga o uso de representação vetorial distribuída de texto como alternativa ao bag-of-words, em problemas de classificação de mensagens curtas e ruidosas. Nessas representações, palavras semanticamente mais similares entre si são representadas por vetores mais próximos em um espaço n-dimensional. A hipótese deste projeto de pesquisa é que, por preservar a similaridade semântica entre as palavras, o uso dessas representações contorna muitas das deficiências relacionadas ao uso de bag-of-words, e pode proporcionar um desempenho superior. Por serem geradas por métodos não supervisionados, essas representações têm ainda a vantagem de não necessitar de dicionários. Dado que existem diferentes algoritmos para gerar a representação vetorial distribuída, este trabalho investigará qual proporciona o melhor desempenho na tarefa de categorização e se, de fato, para o cenário avaliado, essa representação pode oferecer desempenho superior à tradicional bag-of-words. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itens Menos itens
TITULO

Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itens Menos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas

(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)

LOCHTER, JOHANNES, V; PIRES, PEDRO R.; BOSSOLANI, CARLOS; YAMAKAMI, AKEBO; ALMEIDA, TIAGO A.; IEEE. Evaluating the impact of corpora used to train distributed text representation models for noisy and short texts. 2018 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), v. N/A, p. 8-pg., 2018-01-01. (17/06495-2, 17/09387-6)

URL curto