Busca avançada
Ano de início
Entree

Extensão a métodos de estimação de parâmetros e seleção de modelos em regressão sobre dados composicionais

Processo: 12/04788-9
Linha de fomento:Auxílio à Pesquisa - Regular
Vigência: 01 de junho de 2012 - 30 de novembro de 2014
Área do conhecimento:Ciências Exatas e da Terra - Probabilidade e Estatística - Estatística
Pesquisador responsável:Marcelo de Souza Lauretto
Beneficiário:Marcelo de Souza Lauretto
Instituição-sede: Escola de Artes, Ciências e Humanidades (EACH). Universidade de São Paulo (USP). São Paulo , SP, Brasil
Assunto(s):Dados composicionais  Distribuição de Dirichlet  Análise de regressão e de correlação  Análise multivariada  Testes de hipóteses 

Resumo

Dados composicionais consistem em vetores cujos componentes são proporções ou percentuais de um certo total, e surgem com grande frequência em diversas áreas. Seu espaço amostral é o Simplex, com características bastante distintas do Espaço Euclidiano. Assim, métodos de regressão construídos para dados não restritos fornecem frequentemente inferências inadequadas quando aplicados sobre dados composicionais. Uma das abordagens para regressão sobre dados composicionais é o modelo de regressão Dirichlet, no qual se considera que o vetor resposta segue uma distribuição Dirichlet D(a_1, a_2, ..., a_D). Dado um vetor de covariáveis x = (x_1, x_2, ..., x_C), um modelo de regressão é obtido de forma imediata, ao considerar-se cada parâmetro a_j como uma função positiva de x. Dessa forma, obtém-se uma distribuição Dirichlet condicional em x. O caso mais simples dessa família é o da função de ligação uniforme, em que cada parâmetro a_j é descrito por uma combinação linear das covariáveis, a_j(x) = b_1*x_1 + b_2*x_2 + ... + b_C*x_C. Um método atualmente descrito para estimação dos coeficientes por máxima verossimilhança possui uma etapa preliminar probabilística (baseada em reamostragem) para encontrar um ponto inicial na região viável. Todavia, esse método é bastante instável numericamente, e não garante que seja encontrada uma solução. Em um trabalho recentemente aceito para publicação e resultante de dissertação de mestrado orientada pelo proponente, foi apresentada uma nova abordagem para estimação dos coeficientes considerando o caso linear. O método de otimização proposto utiliza uma abordagem de regularização que introduz variáveis artificiais para a busca de soluções iniciais viáveis. Experimentos numéricos mostraram grande superioridade de nosso método em relação ao descrito na literatura, tanto em termos de robustez como em termos de performance computacional. Ainda naquele trabalho, foi proposta uma abordagem para teste de nulidade dos parâmetros, baseada no teste Full Bayesian Significance Test (FBST). Embora a implementação do teste tenha apresentado desempenho satisfatório nos experimentos numéricos, percebemos que há ainda a possibilidade de melhorar a convergência da integração numérica. Para isso, será necessário pesquisar, implementar e testar alguns métodos de simulação Monte Carlo. Motivados pelos bons resultados já obtidos, neste projeto de pesquisa propomos continuar nossas contribuições no campo da análise de dados composicionais via regressão Dirichlet. Nossos especiais interesses serão o estudo de funções de ligação mais complexas, métodos de estimação de parâmetros numericamente robustos baseados em regularização, e seleção de modelos baseada no FBST. (AU)