Busca avançada
Ano de início
Entree

Analisando a diversidade de repositórios públicos de dados em aprendizado de máquina para meta-aprendizado

Processo: 19/20328-7
Linha de fomento:Bolsas no Exterior - Pesquisa
Vigência (Início): 29 de julho de 2020
Vigência (Término): 29 de janeiro de 2021
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Ana Carolina Lorena
Beneficiário:Ana Carolina Lorena
Anfitrião: Kate Smith-Miles
Instituição-sede: Divisão de Ciência da Computação (IEC). Instituto Tecnológico de Aeronáutica (ITA). Ministério da Defesa (Brasil). São José dos Campos , SP, Brasil
Local de pesquisa : University of Melbourne, Austrália  
Vinculado ao auxílio:13/07375-0 - CeMEAI - Centro de Ciências Matemáticas Aplicadas à Indústria, AP.CEPID
Assunto(s):Inteligência computacional   Aprendizado computacional

Resumo

As áreas de meta-aprendizado (Meta-learning, MtL) e aprendizado de máquina automático (Automated Machine Learning, AutoML) surgiram nos últimos anos com soluções bem-sucedidas para facilitar o uso das técnicas de aprendizado de máquina (AM) por usuários com pouco conhecimento em AM. Geralmente, as soluções MtL e AutoML aproveitam o conhecimento de problemas para os quais as soluções são conhecidas, reunidos em repositórios públicos. Um repositório popular é o OpenML, que também reporta os resultados preditivos alcançados por vários algoritmos de AM em experimentos de benchmark, uma informação muito rica para estudos de MtL e AutoML. No entanto, a maioria desses estudos realiza uma seleção ad-hoc dos conjuntos de dados a serem empregados no desenvolvimento de suas soluções. Isso pode impedir uma seleção apropriada de conjuntos de dados diversos e desafiadores e introduzir algum viés no processo de seleção dos conjuntos de dados. Com base na experiência anterior da pesquisadora no estudo da complexidade dos problemas de classificação e regressão sob uma perspectiva orientada a dados, pretendemos realizar uma análise dos repositórios de benchmark de AM existentes, que é tripla: (i) entender e caracterizar a diversidade de tais repositórios, especificamente para fins de MtL; (ii) enriquecer os repositórios através da geração de conjuntos de dados sintéticos que abrangem propriedades distintas daquelas já existentes; e (iii) construir uma ferramenta capaz de recomendar um conjuntos de dados que atendam aos objetivos dopesquisador de MtL. Para tanto, esperamos unir conceitos da literatura recente relacionada amedidas de complexidade de problemas de classificação e regressão, do lado da proponente, e, da análise por espaço de instâncias de problemas de AM supervisionados, do lado da supervisora.