Busca avançada
Ano de início
Entree

Detecção de novidade em fluxos contínuos de dados multirrótulo

Processo: 22/02981-8
Modalidade de apoio:Auxílio à Pesquisa - Projeto Inicial
Data de Início da vigência: 01 de fevereiro de 2023
Data de Término da vigência: 31 de janeiro de 2028
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Ricardo Cerri
Beneficiário:Ricardo Cerri
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Pesquisadores associados:Diego Furtado Silva ; Elaine Ribeiro de Faria Paiva ; João Manuel Portela da Gama ; Márcio Porto Basgalupp
Auxílio(s) vinculado(s):24/19234-6 - Aprendizado de Máquina Automático para Classificação Multirrótulo, AP.R SPRINT
Bolsa(s) vinculada(s):24/15875-7 - Investigação de Metodologias de Avaliação para Problemas de Classificação Multirrótulo em Fluxos Contínuos de Dados, BP.MS
23/08406-8 - Comitês de classificadores para detecção de novidade em fluxos contínuos de dados multirrótulo, BP.DD
Assunto(s):Aprendizado computacional  Classificação multirrótulo  Análise em fluxo contínuo  Análise de dados 
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | Classificacao Multirrotulo | Detecção de Novidade | fluxos contínuos de dados | Aprendizado de Máquina

Resumo

Fluxos contínuos de dados (FCDs) são sequências de dados de tamanho ilimitado, geradas de forma contínua, não-estacionária, e em muitos casos, em alta velocidade. Por esse fluxo ser potencialmente infinito, os dados não podem ser armazenados em memória, obrigando um exemplo a ser processado uma única vez e descartado. Várias aplicações do mundo real geram grandes quantidades de dados em um fluxo contínuo, e a tendência é que com a evolução da Tecnologia da Informação, mais dados sejam gerados e coletados constantemente. Exemplos dessas aplicações são coleta de dados a partir de sensores, geração de medições durante monitoramentos de redes e análise de postagens em redes sociais. Isso evidencia a relevância e a necessidade do desenvolvimento de algoritmos capazes de extrair conhecimento relevante desses dados. Dentre as tarefas envolvendo FCDs, a classificação é uma das mais importantes, objetivando rotular exemplos ainda não vistos, e que chegam constantemente junto ao fluxo. Dentro desse cenário, um grande desafio é a detecção de novidade, representada por mudanças de conceito e evoluções de conceito. Na mudança de conceito, a distribuição que gera os dados muda ao longo do tempo, o que significa que as distribuições que representam as classes mudam. Na evolução de conceito, novas distribuições surgem ao longo do tempo, o que significa o surgimento de novas classes no fluxo de dados. Apesar de existirem diversos métodos para a classificação de FCDs, a maioria deles não considera o fato dos exemplos do fluxo poderem ser rotulados em mais de uma classe simultaneamente, e também consideram que as classes dos exemplos são sempre disponibilizadas junto com os exemplos no fluxo, um cenário muitas vezes irreal. Dessa forma, a investigação de métodos de classificação que sejam capazes de lidar com tais cenários multirrótulo desafiadores é essencial. Nesse contexto, este projeto de pesquisa tem como objetivo principal propor novas estratégias de classificação multirrótulo em FCD. Além da detecção de evoluções de conceito e mudanças de conceito, há outras restrições e características que devem ser consideradas para o desenvolvimento de novas estratégias, e que tornam a tarefa difícil e desafiadora. Entre elas estão a necessidade de se considerar respostas em tempo real, memória limitada, passagem única pelos dados, detecção de conceitos recorrentes, detecção de ruídos e outliers, latência infinita de rótulos, e detecção de várias mudanças e evoluções de conceito simultâneas. Os métodos propostos serão executados em conjuntos de dados sintéticos e reais, e comparados com outros métodos da literatura. Os resultados serão divulgados em periódicos e eventos, e os códigos e dados gerados disponibilizados publicamente. Espera-se que os resultados da pesquisa tragam impactos e avanços significantes para as áreas de classificação de fluxos contínuo de dados e aprendizado multirrótulo. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
DEL VALLE, ALINE MARQUES; MANTOVANI, RAFAEL GOMES; CERRI, RICARDO. A systematic literature review on AutoML for multi-target learning tasks. ARTIFICIAL INTELLIGENCE REVIEW, v. N/A, p. 40-pg., . (22/02981-8)
ILIDIO, PEDRO; ALVES, ANDRE; CERRI, RICARDO. Fast Bipartite Forests for Semi-supervised Interaction Prediction. 39TH ANNUAL ACM SYMPOSIUM ON APPLIED COMPUTING, SAC 2024, v. N/A, p. 8-pg., . (22/02981-8)