Busca avançada
Ano de início
Entree

Classificação em fluxo de dados: lidando com anomalias, novidades e escassez de dados rotulados

Processo: 17/00219-3
Modalidade de apoio:Auxílio à Pesquisa - Regular
Data de Início da vigência: 01 de junho de 2017
Data de Término da vigência: 30 de novembro de 2019
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:João Roberto Bertini Junior
Beneficiário:João Roberto Bertini Junior
Instituição Sede: Faculdade de Tecnologia (FT). Universidade Estadual de Campinas (UNICAMP). Limeira , SP, Brasil
Assunto(s):Aprendizado computacional  Fluxo de dados  Classificação de dados  Classificação hierárquica multirrótulo  Algoritmos 
Palavra(s)-Chave do Pesquisador:Aprendizado Ativo | Aprendizado Semissupervisionado | Classificação em fluxo de dados | Detecção de novidades | Mudança de conceito | Inteligência Artificial / Aprendizado de Máquina

Resumo

Técnicas tradicionais de aprendizado de máquina aplicadas à classificação de dados baseiam-se essencialmente na premissa de que a distribuição dos dados é estacionária ao longo do tempo. No entanto, recentes avanços em hardware e software têm permitido a aquisição de enormes volumes de dados e de maneira contínua. Esse fenômeno deu origem a uma nova variedade de aplicações que necessitam processar um fluxo ininterrupto de dados em alta velocidade. Nesse cenário, raramente tal premissa é satisfeita; a distribuição dos dados é frequentemente alterada ao longo do tempo, e o fluxo contínuo dos dados implica em altos custos com processamento e memória. A classificação automática em domínios de dados com distribuição não estacionária somente é viável mediante a atualização constante do classificador, o que demanda dados rotulados referentes à nova distribuição. No entanto, no contexto de fluxo de dados, o processo de rotulagem torna-se recorrente e associa altos custos à aplicação. Além da atualização constante, a autonomia do classificador depende de mecanismos para diferenciar novidades - ou novo conhecimento que deve ser incorporado ao modelo - de anomalias - ou dados irrelevantes que devem ser descartados. Todavia, apenas recentemente e de forma muito restrita, esses problemas têm sido considerados. Este projeto, portanto, visa a contribuir com a pesquisa de algoritmos de classificação em fluxo de dados, focando nos problemas de escassez de dados rotulados e de detecção de novidades. O projeto considera aplicações reais e, como resultado, espera-se desenvolver métodos que possibilitem maximizar a autonomia do sistema classificador e minimizar a necessidade de dados rotulados. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (4)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
BERTINI JUNIOR, JOAO ROBERTO; FUNCIA, MEI ABE; SANTOS, ANTONIO ALBERTO S.; SCHIOZER, DENIS J.; IEEE. A comparison of machine learning algorithms as surrogate model for net present value prediction from wells arrangement data. 2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), v. N/A, p. 8-pg., . (17/00219-3)
JUNIOR, JOAO ROBERTO BERTINI. Graph embedded rules for explainable predictions in data streams. NEURAL NETWORKS, v. 129, p. 174-192, . (17/00219-3)
BERTINI JUNIOR, JOAO ROBERTO; NICOLETTI, MARIA DO CARMO. An iterative boosting-based ensemble for streaming data classification. Information Fusion, v. 45, p. 66-78, . (17/00219-3)
BUENO, ANDRES; COELHO, GUILHERME PALERMO; BERTINI JUNIOR, JOAO ROBERTO. Dynamic ensemble mechanisms to improve particulate matter forecasting. APPLIED SOFT COMPUTING, v. 91, . (17/00219-3)