Busca avançada
Ano de início
Entree

Análise de diferentes representações de datasets não estruturados para extração de meta-features

Processo: 25/10215-1
Modalidade de apoio:Bolsas no Brasil - Iniciação Científica
Data de Início da vigência: 01 de julho de 2025
Data de Término da vigência: 30 de junho de 2026
Área de conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Metodologia e Técnicas da Computação
Pesquisador responsável:Ana Carolina Lorena
Beneficiário:Douglas Bergamim Fernandes
Instituição Sede: Divisão de Ciência da Computação (IEC). Instituto Tecnológico de Aeronáutica (ITA). Ministério da Defesa (Brasil). São José dos Campos , SP, Brasil
Vinculado ao auxílio:21/06870-3 - Além da seleção de algoritmos: meta-aprendizado para análise e entendimento de dados e algoritmos, AP.JP2
Assunto(s):Aprendizado computacional
Palavra(s)-Chave do Pesquisador:Análise de meta dados | machine learning | Meta-data | Meta-features | meta-learning | Unstructured datasets | Meta-Learning

Resumo

O uso crescente de técnicas de Aprendizado de Máquina (ML) em áreas como visão computacional e processamento de linguagem natural tem intensificado a demanda por métodos capazes de lidar com dados não estruturados, como imagens e textos. Esses dados frequentemente apresentam alta dimensionalidade e carregam grande quantidade de informação, o que torna complexa e custosa a tarefa de identificar quais algoritmos de ML são mais adequados para cada situação. Nesse cenário, o Meta-aprendizado (MtL) surge como uma abordagem capaz de auxiliar no processo de escolha da técnica mais apropriada, ao investigar quais características intrínsecas dos conjuntos de dados estão relacionadas ao desempenho dos algoritmos. No entanto, a maioria das meta-características disponíveis na literatura foi desenvolvida para dados estruturados em formato tabular, o que limita sua aplicação em contextos mais modernos. Para contornar essa limitação, estudos anteriores demonstraram que é possível representar dados como imagens e textos por meio de embeddings - vetores numéricos obtidos a partir de redes neurais profundas pré-treinadas -, tornando-os compatíveis com ferramentas de extração de meta-características. Cada arquitetura de rede gera uma representação distinta, refletindo diferentes aspectos dos dados originais. Este projeto propõe investigar o quão úteis diferentes representações embutidas são na extração de meta-características padrão em conjuntos de dados não estruturados. A biblioteca PyMFE (Python Meta-Feature Extractor) já fornece uma implementação em Python para a extração de meta-características de conjuntos de dados, mas sua aplicação se restringe a dados no formato atributo-valor. Serão utilizados conjuntos públicos como CIFAR-10 e CIFAR-100, e os experimentos buscarão avaliar o impacto da escolha do embedding na qualidade das meta-características extraídas Espera-se, com isso, contribuir para a ampliação da aplicabilidade do Meta-learning frente às demandas atuais do Aprendizado de Máquina. (AU)

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)