Como a abordagem pela verossimilhança se 'ajusta' melhor aos dados ecológicos do que a frequentista

Mario José Marques-Azevedo

Pós-Graduação em Ecologia, UNICAMP
mariojosebr [at] yahoo [dot] com [dot] br

Uma (muito) breve introdução das abordagens frequentista e por verossimilhança

Nossos cérebros são ávidos por padrões¹⁾. Procuramos padrões em quase tudo que observamos, não que padrões sejam apenas abstrações humanas. De fato, padrões ocorrem na natureza e não obstante, descrever e explicar padrões é um dos principais objetivos em várias ciências, entre elas a ecologia. Para explicar tais padrões propomos processos ou mecanismos que podem resultar nesses padrões. Avançarmos no conhecimento do sistema ao qual propomos os mecanismos utilizando técnicas para testarmos essas hipóteses²⁾ e escolher entre elas (Lewin-Koh et al., 2004).

Como não sabemos, na grade maioria das vezes, qual o verdadeiro mecanismo que resultou em um padrão de interesse, precisamos lançar mão de técnicas que nos permite estabelecer uma certa probabilidade ao observado. Para isso, precisamos traduzir nossas hipóteses em descrições quantitativas via modelos³⁾ (Hilborn and Mangel, 1997). Como toda descrição de padrões é a descrição da variação (Levin, 1992) e essa variação pode ser devido ao processo de mensuração ou intrínseco do próprio sistema (Bolker, 2008), modelos estatísticos permitem estabelecer uma probabilidade às observações que realizamos considerando a variação que pode conter no sistema (Lewin-Koh et al., 2004).

Podemos, de uma maneira bem geral, separar as abordagens de avaliação das hipóteses em abordagem frequentista e da verossimilhança. A abordagem frequentista confronta os dados com uma única hipótese (dita nula), procurando qual o suporte encontrado nos dados para a hipótese (considerada verdadeira), ou seja, dado que a hipótese nula é verdadeira, repetindo-se infinitas vezes os experimento, com que frequência encontraríamos valores iguais ou mais extremos que os observados? Nessa abordagem, hipóteses são falseadas, mas nunca aceitas⁴⁾. Outra característica é que o espaço amostral é importante e a amostra resulta de uma distribuição conhecida, no caso da maioria das análises estatísticas⁵⁾ a Gaussiana. Na abordagem da verossimilhança confrontam-se várias hipóteses com os dados e testamos as hipóteses umas com as outras para definir um grau de plausibilidade ou verossimilhança das hipóteses dado os dados. Nesse caso as hipóteses são ranqueadas de acordo com sua plausibilidade e não precisamos considerar o espaço amostral, inferimos sobre os dados. Uma característica muito importante da abordagem por verissimilhança é que as hipóteses devem ser cuidadosamente explicitadas pois a plausibilidade de cada hipótese é relativa às outras, não necessariamente a mais verdadeira⁶⁾.

Frequentemente na ciência procuramos descrever mecanismos para explicar padrões. Por meio do método científico, propomos explicações concorrentes para um padrão e lançamos mão de técnicas estatística para escolher qual ou quais das hipóteses são mais prováveis, considerando a variabilidade dos dados. Uma vez que frequentemente não podemos realizar amostragens inúmeras vezes e que tudo que temos em mão são nossos dados, a abordagem por verossimilhança apresenta um grande potencial à realidade ecológica.

Distribuição de probabilidades e função de verossimilhança

Um ensaio⁷⁾ (trail) pode ter vários resultados, por exemplo: um bebê ser menino ou menina ou uma planta ter de zero a milhares de sementes (Otto and Day, 2007). Uma variável aleatória $X$ (maiúsculo) pode ter vários resultados, no caso dos nascimentos $X = 'menino'$ ou $X = 'menina'$, e esses possíveis resultados podem ser definidos como $x$ (minúsculo). Como um resultado pode ter mais chances de ocorrer do que outros, podemos escrever a probabilidade da variável aleatória de um dado valor como $P(X = x)$ ou $P(x)$. A probabilidade de um evento pode ser pensada como a frequência e/ou chance de tal evento ocorrer (Otto and Day, 2007) e as diferentes probabilidades associada às possíveis observações da variável aleatória descrevem a distribuição de probabilidades. Uma função de distribuição de probabilidade $f(x)$ associa um valor de probabilidade para cada uma das observação ($f(x) = P(X = x)$).

A probabilidade de uma data observação está condicionada à uma função (modelo probabilístico) ou parâmetros da função que descreve uma distribuição de probabilidade: $f(x) = P(X = x | \theta)$, ou seja, sendo $\theta$ um modelo verdadeiro ou o conjunto de valores dos parâmetros de um modelo conhecido, $X=x$ tem probabilidade $P$ de acordo com a função de probabilidade $f(x)$. Quando temos mais de uma observação, podemos recorrer à uma das propriedades da probabilidade: a probabilidade das observações é o produtório das probabilidades de cada observação: $P(X = \{x_{1}, x_{2}, \dots, x_{n}\} | \theta) = \prod_{i=1}^n P(X = x_{i} | \theta)$. A verossimilhança é proporcional à probabilidade, porém agora o modelo (ou os parâmetros deste) é condicionados aos dados ($P(X = x | \theta) \propto \mathcal{L}(\theta | X = x)$). Ou seja, a função de verossimilhança utiliza a mesma $f(x)$ para atribuir valores de plausibilidade⁸⁾ para diferentes $\theta$ dado os dados. A partir da função de verossimilhança podemos obter o estimador de máxima verossimilhança (MLE - sigla do termo em inglês maximum likelihood estimate) que é o modelo ou a combinação de valores de parâmetros de um modelo que torna máxima a função de verossimilhança ($\hat{\theta}$). Como o produto das observações pode resultar em valores muito baixo, utiliza-se o logaritmo natural da função de verossimilhança: $ln(\mathcal{L}(\theta | X = x)) = L(\theta | X = x)$ do qual a expressão para múltiplas observações pode ser descrita como $L(\theta | X = \{x_{1}, x_{2}, \dots, x_{n}\}) = \sum_{i=1}^n L(\theta | X = x_{i})$. Uma outra representação mais comum é o negativo do logaritmo natural da função de verossimilhança ($-L(\theta | X = x)$) ou log-verossimilhança negativa. Neste caso, o MLE é o estimador que minimiza a função de log-verossimilhança negativa.

Seleção de modelos e inferência por verossimilhança

Os modelos probabilísticos são as ferramentas pelas quais retiramos evidências estatísticas dos dados (Royall, 2004). Suponha duas hipóteses $H_{A}$ e $H_{B}$ que fornecem probabilidades para uma variável aleatória $P_{A}(X)$ e $P_{B}(X)$, respectivamente. Segundo a Lei da Verossimilhança, $P_{A}(X)$ é evidência para $H_{A}$ sobre $H_{B}$ somente se $P_{A}(X) > P_{B}(X)$, sendo que a razão da verossimilhança $P_{A}(X)/P_{B}(X)$ mede a força dessa evidência. Na maioria das vezes possuímos hipótese(s) traduzida(s) em vários $\theta$ (modelos ou valores de parâmetros para um modelo) dos quais obtemos o MLE ($\hat{\theta}$) de cada para posteriormente arbitrar sobre qual o melhor $\hat{\theta}$ para nossos dados. Arbitrar entre o melhor $\hat{\theta}$ é dizer que tal modelo ou valor de parâmetros para um modelo é a descrição mais próxima (dentre os $\hat{\theta}$ propostos) da verdadeira informação dos nossos dados. Essa ideia de distanciamento ou perda de informação do modelo real juntamente com a função de verossimilhança estão presentes no critério de informação de Akaike (AIC – sigla do termo em inglês Akaike Information Criteria) (Burnham and Anderson, 2002). Este estimador informa a perda de informação de um modelo proposto para o modelo hipotético verdadeiro ponderando pelo viés causado pelo número de parâmetros do modelo por meio da expressão: $-2L(\hat{\theta} | X = x) + 2K$, onde $L(\hat{\theta})$ é o estimador de máxima verossimilhança de um modelo proposto e $K$ é o número de parâmetros desse modelo. Uma vez que a razão de verossimilhança não considera que um modelo com muitos parâmetros descreva melhor os dados, a utilização do AIC para arbitrar entre os modelos é essencial.

Com a função de verossimilhança dos modelos e uma ferramenta para seleção dos mesmos, podemos inferir sobre nossos dados. A inferência pela verossimilhança é baseada na Lei da Verossimilhança (descrita acima) e o Princípio da Verossimilhança. Neste princípio, uma vez que aceita-se que a função de verossimilhança caracteriza completamente a evidência contida nos dados, duas hipóteses são equivalentes se possuem a mesma função de verossimilhança (Royall, 2004). A inferência por verossimilhança é baseada nos dados e utiliza-se da função de verossimilhança, que caracteriza a evidências, para arbitrar entre a hipótese mais plausível, considerando as hipóteses propostas. Diferentemente da estatística frequentista em que um p-valor é fornecido como evidência do que poderíamos observar se repetíssemos a amostragem, a inferência por verossimilhança nos permite inferir a partir dos dados que temos por meio da função de verossimilhança, que é a descrição da evidências dos dados. Um valor mínimo para a razão de verossimilhança de 8 ou aproximadamente 2 (logaritmo natural de 8) para a razão da log-verossimilhança, foi estabelecido para discriminar entre hipóteses diferentes (Royall, 2004).

Seleção de modelos e inferência por verossimilhança em estudos de comunidades ecológicas

Essa abordagem por verossimilhança (seleção de modelos e inferência) é uma ferramenta importante para dados ecológicos. Frequentemente temos várias hipóteses de como um sistema pode funcionar e confrontar os dados com apenas um modelo nulo, de ausência de efeito, como feito na abordagem frequentista, não é muito explicativo. Em estudos de comunidades ecológicas, raras vezes podemos controlar efeitos de alguma variável. Tudo que temos são a composição atual de espécies e variáveis abióticas contemporâneas para inferirmos processos históricos, como montagem de comunidades. Dessa maneira, a seleção de modelos permite encontrar um modelo, dentro dos modelos propostos, que descreve os dados de maneira mais plausível.

Em meu projeto de doutorado, procuro entender como comunidades arbóreas são estruturadas. Especificamente estou trabalhando com um gradiente de disponibilidade de nutrientes no solo e, juntamente com informações funcionais e filogenéticas, procuro entender macroecologicamente se posso inferir um processo de filtro ambiental. Como possuo variáveis ambientais, além de considerar as relações filogenéticas e espaciais, a seleção de modelos irá permitir selecionar o modelo mais plausível e por meio da inferência por verossimilhança discutir o(s) modelo(s) selecionado(s).

Considerações finais

Uma característica muito importante da abordagem por verossimilhança é a necessidade de se ter modelos concorrentes bem fundamentados. A seleção de modelos irá apresentar o melhor modelo, dentre os concorrentes, como o mais plausível, o que não significa que é o melhor modelo. Essa abordagem é relativa aos modelos concorrentes e tudo o que inferimos é a partir dos dados que temos. Essa ideia está em sincronia com o método científico: testar múltiplas hipóteses e chegar a conclusões a partir das observações.

Esse ensaio teve como objetivo descrever em linhas bem gerais as ideias de seleção de modelos e inferência pela abordagem da verossimilhança. Por isso preferi não abordar algumas derivações de expressões. Obviamente há muito mais detalhes a se explorar para a compreensão mais detalhada do assunto. Essa abordagem, nova na ecologia, embora desenvolvida há tempo, é promissora e precisa de consciência de todos os passos, para não repetirmos alguns equívocos que cometemos ao usar a abordagem frequentista. Não que esta última esteja errada ou que não deva ser mais utilizada, mas precisamos de consciência do que podemos fazemos. Para mais informações sobre toda essa discussão, as referências utilizadas nesse ensaio são um ponto de partida.

Referências bibliográficas

Bolker, B.M., 2008. Ecological models and data in R. Princeton University Press, Princeton, N.J.

Burnham, K.P., Anderson, D.R., 2002. Model selection and multimodel inference: a practical information-theoretic approach, 2nd ed. Springer, New York.

Hilborn, R., Mangel, M., 1997. The ecological detective: confronting models with data, Monographs in population biology. Princeton University Press, Princeton, NJ.

Levin, S.A., 1992. The problem of pattern and scale in ecology: the Robert H. MacArthur award lecture. Ecology 73, 1943–1967. doi:10.2307/1941447

Lewin-Koh, N., Taper, M.L., Lele, S.R., 2004. A brief tour of statistical concepts, in: Taper, M.L., Lele, S.R. (Eds.), The Nature of Scientific Evidence: Statistical, Philosophical, and Empirical Considerations. University of Chicago Press, Chicago, pp. 119–152.

Otto, S.P., Day, T., 2007. A biologist’s guide to mathematical modeling in ecology and evolution. Princeton University Press, Princeton.

Royall, R., 2004. The likelihood paradigm for statistical evidence, in: Taper, M.L., Lele, S.R. (Eds.), The Nature of Scientific Evidence: Statistical, Philosophical, and Empirical Considerations. University of Chicago Press, Chicago, pp. 119–152.

Taper, M.L., Lele, S.R. (Eds.), 2004. The nature of scientific evidence: statistical, philosophical, and empirical considerations. University of Chicago Press, Chicago.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Marques-Azevedo, M.J. 2014. Como a abordagem pela verossimilhança se 'ajusta' melhor aos dados ecológicos do que a frequentista. In: Prado, P.I. & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

¹⁾

Merriam-Webster: maneira regular ou repetida em que algo acontece ou é feito

²⁾

Descrições de como o mundo pode funcionar (Hilborn and Mangel, 1997)

³⁾

representação física ou matemática de um sistema (Levin, 1992)

⁴⁾

não se aceita a hipótese nula, apenas discute-se que não há evidências para falseá-la

⁵⁾

ANOVA, regressão, teste t, etc

⁶⁾

o real modelo que descreve os dados

⁷⁾

processo de geração dos dados

⁸⁾

a integração de todos os possíveis valores dos parâmetros do modelo não integram 1, por isso a função de verossimilhança não atribui probabilidades (Lewin-Koh et al., 2004)