Busca avançada
Ano de início
Entree

Detecção de Contexto Não-Supervisionada em Fluxos de Dados para Classificação

Processo: 17/22896-7
Linha de fomento:Bolsas no Brasil - Doutorado
Vigência (Início): 01 de agosto de 2018
Vigência (Término): 31 de março de 2020
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Elaine Parros Machado de Sousa
Beneficiário:Denis Moreira dos Reis
Instituição-sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Inteligência computacional   Aprendizado computacional

Resumo

Aprender a partir de fluxos de dados com latência de verificação extrema constitui uma tarefa desafiadora. Latência de verificação extrema significa que nenhum rótulo verdadeiro é disponibilizado após o modelo de classificação ser posto em uso prático. Portanto, um classificador deve detectar e se adaptar às mudanças de conceito, na ausência de informações sobre a classe correta das instâncias observadas.Essa perspectiva é muito diferente da observada na maioria das abordagens supervisionadas, em Aprendizado em Fluxo de Dados. Frequentemente, a literatura assume total disponibilidade de exemplos rotulados, mesmo durante o uso prático do modelo de classificação. Como resultado, detectores de mudança de conceito são capazes de usar o desempenho de classificação real do modelo para observar mudanças na distribuição dos exemplos, além de poderem se atualizar de maneira supervisionada.Entretanto, muitas aplicações reais são intrinsecamente pertencentes ao cenário de latência de verificação extrema. Como um exemplo motivador, há um sensor que classifica insetos em espécies de acordo com características de suas batidas de asas. Tal sensor é a chave para vigilância escalável e em tempo real de insetos voadores, tais quais pestes agrícolas e vetores de doença.Tal sensor pode ter de lidar com mudanças de conceito e latência de verificação extrema. Apesar de ser possível coletar dados rotulados em laboratório, a obtenção de rótulos em campo, onde o sensor é de fato utilizado, é uma tarefa custosa e não escalável. De todo modo, o classificador teria de lidar com mudanças de conceito, uma vez que condições do ambiente como temperatura, umidade e pressão atmosférica, além de outros fatores, influenciam o comportamento dos insetos.Observa-se que, em geral, apesar de um grupo grande de fatores latentes causarem mudanças de conceito, há um subgrupo menor de variáveis que são responsáveis pela maior parte das mudanças. Uma vez identificadas, dados podem ser coletados em laboratório com controle destas variáveis.Além disso, mudanças de conceito são frequentemente recorrentes. Isso significa que um grupo de fatores latentes podem ser agrupados em um número discreto e relativamente pequeno de contextos. Mudanças nos fatores latentes causam a intercalação dos diferentes contextos ao longo do tempo, levando à recorrência.Há aplicações reais que condizem com essas premissas. Como exemplo o sensor mencionado, apesar de muitas diferentes condições influenciarem o comportamento de insetos, incluindo fatores que são difíceis de serem mensurados, como a disponibilidade de água e comida, a temperatura é a variável que afeta mais fortemente dados sobre batida de asas. Em laboratório, câmaras especializadas podem controlar a temperatura artificialmente. Portanto, é possível obter dados rotulados para diferentes condições de temperatura em abundância, em laboratório.Este projeto de pesquisa procura identificar as circunstâncias nas quais é possível identificar qual é o contexto atual, dentre um número conhecido e finito de contextos bem definidos, a partir de um conjunto limitado e não rotulado de dados, e prover métodos para tal identificação. Adicionalmente, procura lidar com o surgimento de novos contextos: aqueles que não são minimamente similares a nenhum dos contextos previamente conhecidos.

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SOUZA, VINICIUS M. A.; DOS REIS, DENIS M.; MALETZKE, ANDRE G.; BATISTA, GUSTAVO E. A. P. A. Challenges in benchmarking stream learning algorithms with real-world data. DATA MINING AND KNOWLEDGE DISCOVERY, JUL 2020. Citações Web of Science: 0.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.