Busca avançada
Ano de início
Entree

Agrupamento de fluxos contínuos de dados de alta dimensionalidade

Processo: 13/04453-0
Modalidade de apoio:Bolsas no Brasil - Pós-Doutorado
Vigência (Início): 01 de novembro de 2013
Vigência (Término): 25 de março de 2016
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação
Pesquisador responsável:Rodrigo Fernandes de Mello
Beneficiário:Cássio Martini Martins Pereira
Instituição Sede: Instituto de Ciências Matemáticas e de Computação (ICMC). Universidade de São Paulo (USP). São Carlos , SP, Brasil
Assunto(s):Aprendizado computacional
Palavra(s)-Chave do Pesquisador:Agrupamento | alta dimensão | fluxos contínuos de dados | maldição da dimensionalidade | Aprendizado de Máquina

Resumo

Em 2009, a Sociedade Brasileira de Computação (SBC) se reuniu para estipular os grandes desafios da computação no Brasil com perspectivas para 2020. Um dos desafios apontados foi "como aumentar a nossa capacidade de extrair informações relevantes sobre os fluxos de dados". Uma das subáreas mais atrativas da mineração em fluxos de dados é a de agrupamento, pois não requer a supervisão de um especialista sobre cada exemplo. Tradicionalmente, experimentos científicos dos mais diversos ramos acadêmicos produzem bases de dados com muitos atributos, dificultando sua análise. Contudo, na maioria das vezes, os grupos buscados nessas bases encontram-se em um subespaço, ou variedade, de baixa dimensão, contida no espaço original de alta dimensionalidade. Esse problema, denominado maldição da dimensionalidade, tem limitado o sucesso de muitas técnicas de aprendizado de máquina. Poucos trabalhos na área de agrupamento em fluxos de dados voltaram-se para o cenário de alta dimensionalidade. Todos eles, até o momento, empregam a noção de variância para determinar a relevância das dimensões do fluxo, dado um limiar fixo estipulado a priori pelo usuário. Isso impõe uma forte limitação, dada a natureza volátil de fluxos de dados. Este projeto visa o estudo e a proposta de medidas de quantificação de informação para determinar a relevância de dimensões no cenário de agrupamento em fluxos de dados de alta dimensionalidade. Essa medidas não sofrem dos problemas da variância, já que se baseiam nas probabilidades dos dados e não em sua escala. Além disso, este projeto visa a proposta de mecanismos para a adaptação de parâmetros referentes à determinação da relevância de dimensões, algo essencial dada a natureza volátil de fluxos de dados. Espera-se que com os resultados deste projeto seja possível encontrar grupos em cenários não abordados pelas técnicas atuais.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Matéria(s) publicada(s) em Outras Mídias (0 total):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
PEREIRA, CASSIO M. M.; DE MELLO, RODRIGO F.. PTS: Projected Topological Stream clustering algorithm. Neurocomputing, v. 180, n. SI, p. 16-26, . (13/04453-0, 14/13323-5)
PEREIRA, CASSIO M. M.; DE MELLO, RODRIGO F.. Persistent homology for time series and spatial data clustering. EXPERT SYSTEMS WITH APPLICATIONS, v. 42, n. 15-16, p. 6026-6038, . (13/04453-0, 14/13323-5)

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.