Busca avançada
Ano de início
Entree
(Referência obtida automaticamente do SciELO, por meio da informação sobre o financiamento pela FAPESP e o número do processo correspondente, incluída na publicação pelos autores.)

Classificação Morfológica de Galáxias em Conjuntos de Dados Desbalanceados

Texto completo
Autor(es):
P. IANISHI [1] ; R. IZBICKI [2]
Número total de Autores: 2
Afiliação do(s) autor(es):
[1] Universidade Federal de São Carlos. Departamento de Estatística - Brasil
[2] Universidade Federal de São Carlos. Departamento de Estatística - Brasil
Número total de Afiliações: 2
Tipo de documento: Artigo Científico
Fonte: TEMA (São Carlos); v. 18, n. 1, p. 155-172, 2017-04-00.
Resumo

RESUMO Galáxias podem possuir diferentes morfologias, as quais são importantes fontes de informação para o entendimento da evolução do universo. O Cosmic Assembly Near-infrared Deep Extragalactic Legacy Survey (CANDELS) é um levantamento de milhares de imagens de galáxias distantes da Terra. Por não ser possível classificar todas essas imagens manualmente para descobrir suas respectivas morfologias, o desenvolvimento de classificadores automáticos precisos para tal tarefa é de extrema importância. Infelizmente, técnicas de predição tradicionais possuem baixo poder preditivo quando o conjunto de dados possui um forte desbalanceamento, ou seja, quando uma das classes da variável resposta é demasiadamente mais frequente do que as demais. Assim, este trabalho tem por objetivo estudar três abordagens que levam em conta a falta de balanceamento dos dados para o levantamento CANDELS e compará-los com os métodos usuais no problema de classificação de galáxias regulares e galáxias merger. Para comparar os diferentes métodos, diversas medidas de qualidade de métodos preditivos foram utilizadas. Mostramos que, para o caso de classificação de galáxias merger, as melhores predições foram provenientes das abordagens de sobreamostragem e mudança de corte. Para o caso de galáxias regulares, a importância de considerar o desbalanceamento foi menor, pois essa classe não possui um desbalanceamento tão forte quando comparada com a classe de galáxias merger. Além disso, mostramos que os classificadores obtidos via diferentes métodos de classificação (árvores de classificação, florestas aleatórias e regressão logística penalizada) levam a predições muito parecidas, o que indica que melhores predições só podem ser obtidas por meio da inclusão de novas estatísticas-resumo com base nas imagens ou por meio de bancos de dados maiores. (AU)

Processo FAPESP: 14/25302-2 - Uma abordagem flexível para a estimação de uma densidade condicional em problemas com alta dimensionalidade
Beneficiário:Rafael Izbicki
Modalidade de apoio: Auxílio à Pesquisa - Regular