Busca avançada
Ano de início
Entree

Detecção de Contexto Não-Supervisionada em Fluxos de Dados para Classificação

Processo: 17/22896-7
Modalidade de apoio:Bolsas no Brasil - Doutorado
Data de Início da vigência: 01 de agosto de 2018
Data de Término da vigência: 31 de março de 2020
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Elaine Parros Machado de Sousa
Beneficiário:Denis Moreira dos Reis
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Inteligência computacional   Aprendizado computacional
Palavra(s)-Chave do Pesquisador:Aprendizado de Máquina | Detecção de Contexto | Detecção Não-Supervisionada | fluxos de dados | Mudança de conceito | Mudança de Contexto | Inteligência Computacional

Resumo

Aprender a partir de fluxos de dados com latência de verificação extrema constitui uma tarefa desafiadora. Latência de verificação extrema significa que nenhum rótulo verdadeiro é disponibilizado após o modelo de classificação ser posto em uso prático. Portanto, um classificador deve detectar e se adaptar às mudanças de conceito, na ausência de informações sobre a classe correta das instâncias observadas.Essa perspectiva é muito diferente da observada na maioria das abordagens supervisionadas, em Aprendizado em Fluxo de Dados. Frequentemente, a literatura assume total disponibilidade de exemplos rotulados, mesmo durante o uso prático do modelo de classificação. Como resultado, detectores de mudança de conceito são capazes de usar o desempenho de classificação real do modelo para observar mudanças na distribuição dos exemplos, além de poderem se atualizar de maneira supervisionada.Entretanto, muitas aplicações reais são intrinsecamente pertencentes ao cenário de latência de verificação extrema. Como um exemplo motivador, há um sensor que classifica insetos em espécies de acordo com características de suas batidas de asas. Tal sensor é a chave para vigilância escalável e em tempo real de insetos voadores, tais quais pestes agrícolas e vetores de doença.Tal sensor pode ter de lidar com mudanças de conceito e latência de verificação extrema. Apesar de ser possível coletar dados rotulados em laboratório, a obtenção de rótulos em campo, onde o sensor é de fato utilizado, é uma tarefa custosa e não escalável. De todo modo, o classificador teria de lidar com mudanças de conceito, uma vez que condições do ambiente como temperatura, umidade e pressão atmosférica, além de outros fatores, influenciam o comportamento dos insetos.Observa-se que, em geral, apesar de um grupo grande de fatores latentes causarem mudanças de conceito, há um subgrupo menor de variáveis que são responsáveis pela maior parte das mudanças. Uma vez identificadas, dados podem ser coletados em laboratório com controle destas variáveis.Além disso, mudanças de conceito são frequentemente recorrentes. Isso significa que um grupo de fatores latentes podem ser agrupados em um número discreto e relativamente pequeno de contextos. Mudanças nos fatores latentes causam a intercalação dos diferentes contextos ao longo do tempo, levando à recorrência.Há aplicações reais que condizem com essas premissas. Como exemplo o sensor mencionado, apesar de muitas diferentes condições influenciarem o comportamento de insetos, incluindo fatores que são difíceis de serem mensurados, como a disponibilidade de água e comida, a temperatura é a variável que afeta mais fortemente dados sobre batida de asas. Em laboratório, câmaras especializadas podem controlar a temperatura artificialmente. Portanto, é possível obter dados rotulados para diferentes condições de temperatura em abundância, em laboratório.Este projeto de pesquisa procura identificar as circunstâncias nas quais é possível identificar qual é o contexto atual, dentre um número conhecido e finito de contextos bem definidos, a partir de um conjunto limitado e não rotulado de dados, e prover métodos para tal identificação. Adicionalmente, procura lidar com o surgimento de novos contextos: aqueles que não são minimamente similares a nenhum dos contextos previamente conhecidos.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas (4)
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
SOUZA, VINICIUS M. A.; DOS REIS, DENIS M.; MALETZKE, ANDRE G.; BATISTA, GUSTAVO E. A. P. A.. Challenges in benchmarking stream learning algorithms with real-world data. DATA MINING AND KNOWLEDGE DISCOVERY, . (16/04986-6, 17/22896-7, 18/05859-3)
MALETZKE, ANDRE; DOS REIS, DENIS; CHERMAN, EVERTON; BATISTA, GUSTAVO; AAAI. DyS: A Framework for Mixture Models in Quantification. THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE / THIRTY-FIRST INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE / NINTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE, v. N/A, p. 9-pg., . (16/04986-6, 17/22896-7)
MALETZKE, ANDRE; HASSAN, WAQAR; DOS REIS, DENIS; BATISTA, GUSTAVO; BESSIERE, C. The Importance of the Test Set Size in Quantification Assessment. PROCEEDINGS OF THE TWENTY-NINTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, v. N/A, p. 7-pg., . (17/22896-7)
SOUZA, VINICIUS M. A.; DOS REIS, DENIS M.; MALETZKE, ANDRE G.; BATISTA, GUSTAVO E. A. P. A.. Challenges in benchmarking stream learning algorithms with real-world data. DATA MINING AND KNOWLEDGE DISCOVERY, v. 34, n. 6, p. 54-pg., . (17/22896-7, 16/04986-6, 18/05859-3)
Publicações acadêmicas
(Referências obtidas automaticamente das Instituições de Ensino e Pesquisa do Estado de São Paulo)
REIS, Denis Moreira dos. Distribuições não estacionárias e imprevisíveis em classificação e quantificação. 2020. Tese de Doutorado - Universidade de São Paulo (USP). Instituto de Ciências Matemáticas e de Computação (ICMC/SB) São Carlos.