Distribuições de Probabilidade: uma vantagem da abordagem de Seleção de Modelos
Sheina Koffler
- Pós-Graduação em Ecologia, Instituto de Biociências - USP
- sheina.koffler@usp.br
A modelagem estatística vem ganhando cada vez mais espaço nos estudos em ecologia e é cada vez mais frequente lermos artigos com termos como “generalized linear models”, “likelihood” ou “AIC”. Neste ensaio pretendo abordar algumas vantagens do uso da Seleção de Modelos por Verossimilhança em relação à Estatística Clássica (Frequentista) para realização de inferência. Particularmente, discutirei a importância de assumirmos diferentes distribuições de probabilidades, ao final, dando um exemplo de pesquisa para ilustrar.
Podemos destacar como pontos divergentes entre a inferência por seleção de modelos e a inferência frequentista:
1) O número de hipóteses a serem contrastadas
Na inferência frequentista, uma hipótese alternativa é contrastada com a hipótese nula (ou seja, o modelo sem o efeito em teste) e avaliamos a probabilidade de aceitarmos a hipótese nula. Vale ressaltar que a hipótese de interesse só é aceita dado que a hipótese nula seja rejeitada (Johnson and Omland 2004), de forma que a hipótese alternativa não é diretamente testada. Já na inferência por seleção de modelos, um conjunto de hipóteses pode ser comparado ao mesmo tempo (Hilborn 1997). Isso configura uma vantagem, visto que em muitos estudos é mais interessante comparar diferentes hipóteses concorrentes sobre um mesmo processo.
2) Método empregado no teste de hipótese
Para rejeitar hipóteses na inferência frequentista, calcula-se uma probabilidade teórica para a rejeição da hipótese, dado que os dados fossem coletados repetidas vezes de uma população infinita. Encontra-se implícita nessa definição que a inferência é feita em relação ao espaço amostral (população), que, no entanto, não é conhecido. Isso contrasta com a seleção de modelos, pois segundo esse método, as hipóteses são contrastadas a luz dos dados, dos quais temos real conhecimento. Dessa forma, é comparado o suporte relativo que os dados dão a cada modelo (Johnson and Omland 2004) e ao final, teremos a força de evidência a cada modelo sendo testada (Batista 2009). Trata-se de uma forma intuitiva que, por ser realizada a partir dos dados, não depende de suposições sobre o espaço amostral (a não ser a distribuição de probabilidades que tenha gerado os dados).
3) Distribuições de probabilidades empregadas
Em grande parte dos testes estatísticos frequentistas, assume-se que os dados coletados tenham sido gerados a partir de uma distribuição normal. Porém, na maior parte dos casos, essa premissa não é observada nos dados coletados. Nesse caso, dois caminhos podem ser escolhidos: (a) rumar para um teste não-paramétrico, que por sua vez também apresenta algumas premissas, (b) realizar transformações dos dados a fim de obter uma distribuição normal. No entanto, caso a análise aceite diferentes distribuições de probabilidade, como ocorre na construção de modelos, podemos escolher ou testar diferentes distribuições para um melhor ajuste dos nossos dados e, assim, realizar a inferência.
Transformação dos dados para distribuição normal: por que não?
Diversos métodos de transformação dos dados estão disponíveis (p. ex. raiz quadrada, log, valor inverso, logito, arco-seno da raiz quadrada) e é possível verificar empiricamente qual o melhor método para seu conjunto de dados. Esse procedimento nem sempre é simples (alguns manuais sugerem que você peça ajuda a um estatístico!) e em muitos livros de didáticos, não são discutidos eventuais problemas das transformações (Osborne, 2002). As transformações mudam a escala da medida dos valores, geralmente aumentando a escala de forma mais acentuada para os valores menores (lado esquerdo da distribuição), a fim de normalizar a distribuição (Osborne, 2002) (Fig. 1). Porém, essa mudança gera valores diferentes e a interpretação pode ser dificultada (Fig. 2).
Figura 1. (Acima) Densidade de probabilidade para valores observados (simulados a partir de uma distribuição exponencial conhecida) e seu respectivo gráfico quantil-quantil para inspeção de normalidade (a linha indica os valores esperados para uma distribuição normal). (Abaixo) Densidade de probabilidade para valores transformados para log e o respectivo gráfico quantil-quantil, indicando que houve uma grande aproximação à normalidade.
Figura 2. Relação entre valores observados e valores transformados para log, referentes à figura 1. Observa-se uma grande mudança da escala, além de uma relação curvilínea que prejudica a interpretação dos valores no resultado da análise.
Seleção de Modelos por Verossimilhança: plasticidade de distribuições de probabilidades
Como exposto acima, nem sempre a transformação dos dados para normalização é uma boa estratégia a ser implementada. Além disso, nos estudos de ecologia e evolução, as variáveis frequentemente seguem outras distribuições, como binária (presença ou ausência, sucesso reprodutivo), proporções (razão sexual, taxas de mortalidade) ou contagens (número de plântulas, tamanho da ninhada) (Bolker et al. 2009). Assim, inserir o tipo de distribuição de probabilidades na análise pode ser favorável, pois remete ao processo que gerou o conjunto de dados. Nesse contexto, a construção de modelos é favorável, pois na função de verossimilhança é necessário especificar a distribuição de probabilidades (Bolker 2008) (para saber mais sobre a função de verossimilhança, consulte Batista (2009)).
Um exemplo prático
Em meu mestrado, estudei a produção de machos em uma abelha social nativa. A pergunta do projeto foi se a produção de machos seria influenciada pela quantidade de alimento estocada na colônia. Para isso, realizei um experimento em que a quantidade de alimento foi manipulada nas colônias (tratamento A: aumento do estoque, tratamento B: redução do estoque, controle: ausência de mudança no estoque). Durante três meses após a manipulação, verifiquei a proporção de machos em relação a operárias produzidos em cada ninho. Como o estoque variou ao longo dos três meses, pois as abelhas continuavam coletando alimento, quantifiquei a quantidade de mel e pólen estocados ao longo do tempo. Minha variável de interesse era a proporção de machos produzidos, que variava de 0 a 1. Para analisar, recorri a testes estatísticos frequentistas. Porém, como minha variável era uma proporção, transformei os valores para log. Não encontrei uma diferença estatística entre os tratamentos, porém com uma análise de correlação, verifiquei que a proporção de machos estava relacionada com a quantidade de pólen estocada ao longo do tempo.
Recentemente, refiz as análises desse estudo, com uma abordagem de seleção de modelos. Foi realizado um modelo linear generalizado, em que inclui o efeito do tratamento experimental e da quantidade de mel e pólen estocados durante o experimento. Dessa forma, poderia distinguir o efeito do tratamento realizado da resposta das abelhas pela coleta de mais alimento, sobre a produção de machos. A variável de interesse foi o número de machos e de operárias (e não a proporção de machos já calculada), de forma que cada indivíduo foi analisado e categorizado em “macho” ou “operária”. Como esses dados seguem uma repetição de ensaios Bernoulli, a distribuição de probabilidades determinada foi “binomial”, com uma função de ligação “logito”. Essa função faz com que o parâmetro da distribuição binomial “p” (ou seja, a probabilidade de o indivíduo ser macho ou operária) varie de forma linear com os preditores do modelo. Os resultados preliminares encontram-se na tabela 1 (para detalhes do procedimento de seleção de modelos, consulte Burnham and Anderson (2002)). Verifiquei assim que os melhores modelos (com menor AIC e dAIC < 2) incluem (1) a quantidade de mel e pólen estocados durante o experimento ou (2) o tratamento experimental e o pólen estocado. Como o dAIC entre os dois melhores modelos é menor que dois, verifiquei que os dois modelos são igualmente plausíveis. Assim, verifica-se que o pólen estocado é uma variável de alta influência na produção de machos, visto que está presente nos dois melhores modelos. Resultado similar foi encontrado na análise frequentista, porém nela descartamos qualquer efeito do tratamento experimental e foi necessário realizar duas análises separadamente.
Tabela 1. Sumário dos resultados da seleção de modelos para o experimento sobre proporção de machos produzidos em relação à quantidade de alimento disponível. Os modelos construídos referem-se a modelos mistos, em que a identidade da colônia foi inserida como fator aleatório. No entanto, essa questão não é o foco do ensaio e não será discutida.
Como vantagens dessa análise, destaco: uso da distribuição de probabilidades adequada ao conjunto de dados coletado e análise de múltiplas hipóteses conjuntamente. Utilizando a distribuição binomial, modelei a probabilidade de produzir-se machos, mas incluindo na análise os números absolutos de machos e operárias, o que não estava incluso na análise frequentista, em que apenas a proporção transformada foi fornecida.
Referências bibliográficas:
Batista, J. 2009. Verossimilhança e Máxima Verossimilhança. Material de estudo que acompanha aula sobre o tema. Centro de Métodos Quantitativos (http://cmq. esalq. usp. br/), Departamento de Ciências Florestais, Escola Superior de Agricultura” Luiz de Queiroz”, Universidade de São Paulo. Campus Piracicaba.
Bolker, B. M. 2008. Ecological models and data in R, Princeton University Press.
Bolker, B. M., M. E. Brooks, C. J. Clark, S. W. Geange, J. R. Poulsen, M. H. H. Stevens, and J.-S. S. White. 2009. Generalized linear mixed models: a practical guide for ecology and evolution. Trends in ecology & evolution 24: 127-135.
Burnham, K. P., and D. R. Anderson. 2002. Model selection and multimodel inference: a practical information-theoretic approach, Springer.
Hilborn, R. 1997. The ecological detective: confronting models with data, vol. 28, Princeton Unive rsity Press.
Johnson, J. B., and K. S. Omland. 2004. Model selection in ecology and evolution. Trends in ecology & evolution 19: 101-108.
Osborne, Jason (2002). Notes on the use of data transformations. Practical Assessment, Research & Evaluation, 8(6). <http://PAREonline.net/getvn.asp?v=8&n=6> Acesso em 24 de outubro de 2014.
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Koffler, S. 2014. Distribuições de Probabilidade: uma vantagem da abordagem de Seleção de Modelos. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.