Busca avançada
Ano de início
Entree

Analisando a diversidade de repositórios públicos de dados em aprendizado de máquina para meta-aprendizado

Processo: 19/20328-7
Linha de fomento:Bolsas no Exterior - Pesquisa
Vigência (Início): 29 de julho de 2022
Vigência (Término): 29 de janeiro de 2023
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Ana Carolina Lorena
Beneficiário:Ana Carolina Lorena
Anfitrião: Kate Smith-Miles
Instituição-sede: Divisão de Ciência da Computação (IEC). Instituto Tecnológico de Aeronáutica (ITA). Ministério da Defesa (Brasil). São José dos Campos , SP, Brasil
Local de pesquisa: University of Melbourne, Austrália  
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Assunto(s):Inteligência computacional   Aprendizado computacional   Repositórios

Resumo

As áreas de meta-aprendizado (Meta-learning, MtL) e aprendizado de máquina automático (Automated Machine Learning, AutoML) surgiram nos últimos anos com soluções bem-sucedidas para facilitar o uso das técnicas de aprendizado de máquina (AM) por usuários com pouco conhecimento em AM. Geralmente, as soluções MtL e AutoML aproveitam o conhecimento de problemas para os quais as soluções são conhecidas, reunidos em repositórios públicos. Um repositório popular é o OpenML, que também reporta os resultados preditivos alcançados por vários algoritmos de AM em experimentos de benchmark, uma informação muito rica para estudos de MtL e AutoML. No entanto, a maioria desses estudos realiza uma seleção ad-hoc dos conjuntos de dados a serem empregados no desenvolvimento de suas soluções. Isso pode impedir uma seleção apropriada de conjuntos de dados diversos e desafiadores e introduzir algum viés no processo de seleção dos conjuntos de dados. Com base na experiência anterior da pesquisadora no estudo da complexidade dos problemas de classificação e regressão sob uma perspectiva orientada a dados, pretendemos realizar uma análise dos repositórios de benchmark de AM existentes, que é tripla: (i) entender e caracterizar a diversidade de tais repositórios, especificamente para fins de MtL; (ii) enriquecer os repositórios através da geração de conjuntos de dados sintéticos que abrangem propriedades distintas daquelas já existentes; e (iii) construir uma ferramenta capaz de recomendar um conjuntos de dados que atendam aos objetivos dopesquisador de MtL. Para tanto, esperamos unir conceitos da literatura recente relacionada amedidas de complexidade de problemas de classificação e regressão, do lado da proponente, e, da análise por espaço de instâncias de problemas de AM supervisionados, do lado da supervisora. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Matéria(s) publicada(s) em Outras Mídias (0 total):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)

Publicações científicas
(Referências obtidas automaticamente do Web of Science e do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores)
MUNOZ, MARIO ANDRES; YAN, TAO; LEAL, MATHEUS R.; SMITH-MILES, KATE; LORENA, ANA CAROLINA; PAPPA, GISELE L.; RODRIGUES, ROMULO MADUREIRA. An Instance Space Analysis of Regression Problems. ACM TRANSACTIONS ON KNOWLEDGE DISCOVERY FROM DATA, v. 15, n. 2 APR 2021. Citações Web of Science: 0.

Por favor, reporte erros na lista de publicações científicas escrevendo para: cdi@fapesp.br.