| Processo: | 25/26300-8 |
| Modalidade de apoio: | Bolsas no Brasil - Iniciação Científica |
| Data de Início da vigência: | 01 de fevereiro de 2026 |
| Data de Término da vigência: | 31 de janeiro de 2027 |
| Área de conhecimento: | Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação |
| Pesquisador responsável: | Fabricio Aparecido Breve |
| Beneficiário: | Gabriel Trevisoli Rodrigues |
| Instituição Sede: | Instituto de Geociências e Ciências Exatas (IGCE). Universidade Estadual Paulista (UNESP). Campus de Rio Claro. Rio Claro , SP, Brasil |
| Assunto(s): | Aprendizado semissupervisionado Classificação de textos Aprendizado computacional |
| Palavra(s)-Chave do Pesquisador: | Aprendizado Semi-supervisionado | Classificação de Textos | Competição e Cooperação Entre Partículas | Aprendizado de Máquina |
Resumo O crescimento das redes sociais ampliou a comunicação global, mas também facilitou a disseminação de discursos de ódio e conteúdos ofensivos. A detecção automática desses textos é um desafio, pois a maioria dos sistemas atuais utiliza rótulos binários, simplificando excessivamente a complexidade do fenômeno. Este projeto propõe um modelo mais refinado de classificação textual em três categorias: (i) mensagens saudáveis, (ii) linguagem ofensiva não odiosa e (iii) discurso de ódio. Para isso, será utilizado o método de Competição e Cooperação entre Partículas (CCP), um algoritmo de aprendizado semissupervisionado baseado em grafos, adequado para cenários com poucos dados rotulados. As mensagens serão extraídas de dois conjuntos de dados - Hate Speech and Offensive Language (inglês) e A Hierarchically-Labeled Portuguese Hate Speech Dataset (português) - e representadas por embeddings obtidos a partir dos modelos BERT e RoBERTa. A partir desses vetores, serão construídos grafos com conexões por similaridade, nos quais o CCP será aplicado para propagar rótulos a partir de uma pequena fração de exemplos anotados. O desempenho será avaliado por métricas como acurácia, F1-score, matriz de confusão e validação cruzada, sendo comparado ao algoritmo Label Propagation. Espera-se que os resultados viabilizem classificações mais precisas e úteis para moderação de conteúdo e prevenção de discursos odiosos, contribuindo para ambientes digitais mais seguros e respeitosos. (AU) | |
| Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa: | |
| Mais itensMenos itens | |
| TITULO | |
| Matéria(s) publicada(s) em Outras Mídias ( ): | |
| Mais itensMenos itens | |
| VEICULO: TITULO (DATA) | |
| VEICULO: TITULO (DATA) | |