Busca avançada
Ano de início
Entree

Classificação em fluxo de dados: lidando com anomalias, novidades e escassez de dados rotulados

Processo: 17/00219-3
Linha de fomento:Auxílio à Pesquisa - Regular
Vigência: 01 de junho de 2017 - 30 de novembro de 2019
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:João Roberto Bertini Junior
Beneficiário:João Roberto Bertini Junior
Instituição-sede: Faculdade de Tecnologia (FT). Universidade Estadual de Campinas (UNICAMP). Limeira , SP, Brasil
Assunto(s):Aprendizado computacional  Fluxo de dados  Classificação de dados  Classificação hierárquica multirrótulo  Algoritmos 

Resumo

Técnicas tradicionais de aprendizado de máquina aplicadas à classificação de dados baseiam-se essencialmente na premissa de que a distribuição dos dados é estacionária ao longo do tempo. No entanto, recentes avanços em hardware e software têm permitido a aquisição de enormes volumes de dados e de maneira contínua. Esse fenômeno deu origem a uma nova variedade de aplicações que necessitam processar um fluxo ininterrupto de dados em alta velocidade. Nesse cenário, raramente tal premissa é satisfeita; a distribuição dos dados é frequentemente alterada ao longo do tempo, e o fluxo contínuo dos dados implica em altos custos com processamento e memória. A classificação automática em domínios de dados com distribuição não estacionária somente é viável mediante a atualização constante do classificador, o que demanda dados rotulados referentes à nova distribuição. No entanto, no contexto de fluxo de dados, o processo de rotulagem torna-se recorrente e associa altos custos à aplicação. Além da atualização constante, a autonomia do classificador depende de mecanismos para diferenciar novidades - ou novo conhecimento que deve ser incorporado ao modelo - de anomalias - ou dados irrelevantes que devem ser descartados. Todavia, apenas recentemente e de forma muito restrita, esses problemas têm sido considerados. Este projeto, portanto, visa a contribuir com a pesquisa de algoritmos de classificação em fluxo de dados, focando nos problemas de escassez de dados rotulados e de detecção de novidades. O projeto considera aplicações reais e, como resultado, espera-se desenvolver métodos que possibilitem maximizar a autonomia do sistema classificador e minimizar a necessidade de dados rotulados. (AU)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
BERTINI JUNIOR, JOAO ROBERTO; NICOLETTI, MARIA DO CARMO. An iterative boosting-based ensemble for streaming data classification. Information Fusion, v. 45, p. 66-78, JAN 2019. Citações Web of Science: 4.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.
Mapa da distribuição dos acessos desta página
Para ver o sumário de acessos desta página, clique aqui.