Resumo
Fluxos contínuos de dados (FCDs) são sequências de dados de tamanho ilimitado, geradas de forma contínua, não-estacionária, e em muitos casos, em alta velocidade. Por esse fluxo ser potencialmente infinito, os dados não podem ser armazenados em memória, obrigando um exemplo a ser processado uma única vez e descartado. Várias aplicações do mundo real geram grandes quantidades de dados em um fluxo contínuo, e a tendência é que com a evolução da Tecnologia da Informação, mais dados sejam gerados e coletados constantemente. Exemplos dessas aplicações são coleta de dados a partir de sensores, geração de medições durante monitoramentos de redes e análise de postagens em redes sociais. Isso evidencia a relevância e a necessidade do desenvolvimento de algoritmos capazes de extrair conhecimento relevante desses dados. Dentre as tarefas envolvendo FCDs, a classificação é uma das mais importantes, objetivando rotular exemplos ainda não vistos, e que chegam constantemente junto ao fluxo. Dentro desse cenário, um grande desafio é a detecção de novidade, representada por mudanças de conceito e evoluções de conceito. Na mudança de conceito, a distribuição que gera os dados muda ao longo do tempo, o que significa que as distribuições que representam as classes mudam. Na evolução de conceito, novas distribuições surgem ao longo do tempo, o que significa o surgimento de novas classes no fluxo de dados. Apesar de existirem diversos métodos para a classificação de FCDs, a maioria deles não considera o fato dos exemplos do fluxo poderem ser rotulados em mais de uma classe simultaneamente, e também consideram que as classes dos exemplos são sempre disponibilizadas junto com os exemplos no fluxo, um cenário muitas vezes irreal. Dessa forma, a investigação de métodos de classificação que sejam capazes de lidar com tais cenários multirrótulo desafiadores é essencial. Nesse contexto, este projeto de pesquisa tem como objetivo principal propor novas estratégias de classificação multirrótulo em FCD. Além da detecção de evoluções de conceito e mudanças de conceito, há outras restrições e características que devem ser consideradas para o desenvolvimento de novas estratégias, e que tornam a tarefa difícil e desafiadora. Entre elas estão a necessidade de se considerar respostas em tempo real, memória limitada, passagem única pelos dados, detecção de conceitos recorrentes, detecção de ruídos e outliers, latência infinita de rótulos, e detecção de várias mudanças e evoluções de conceito simultâneas. Os métodos propostos serão executados em conjuntos de dados sintéticos e reais, e comparados com outros métodos da literatura. Os resultados serão divulgados em periódicos e eventos, e os códigos e dados gerados disponibilizados publicamente. Espera-se que os resultados da pesquisa tragam impactos e avanços significantes para as áreas de classificação de fluxos contínuo de dados e aprendizado multirrótulo. (AU)
| Matéria(s) publicada(s) na Agência FAPESP sobre o auxílio: |
| Mais itensMenos itens |
| TITULO |
| Matéria(s) publicada(s) em Outras Mídias ( ): |
| Mais itensMenos itens |
| VEICULO: TITULO (DATA) |
| VEICULO: TITULO (DATA) |