Aplicação da seleção de modelos em estudos de ecologia de comunidades

Liliana Piatti

* Programa de Pós-Graduação em Ecologia - Instituto de Biociências/USP * lilianapiatti@gmail.com

Na ciência atual o conhecimento é produzido através de contínua formulação e teste de hipóteses, que são refutadas ou comprovadas de acordo com a observação de dados ou da realização de experimentos (Hilborn & Mangel 1997). A estatística é a ferramenta utilizada para dar forças às observações e generalizações oriundas dos dados e às inferências feitas a partir delas (Lewin-Koh et al. 2004). Dentre as diferentes escolas estatísticas mais empregadas nas ciências naturais, a escola frequentista foi a mais desenvolvida e utilizada no último século (Anderson et al. 2000). Nesse paradigma, a hipótese da ocorrência de um dado fenômeno ou relação é testada contra uma hipótese que maneja os dados para expressar o resultado esperado quando há ausência do fenômeno de interesse (hipótese nula). A baixa probabilidade de encontrar observações iguais ou mais extremas aos dados coletados considerando a ausência do fenômeno é o que faz com que a hipótese nula seja rejeitada e seja reconhecida a importância do fenômeno de interesse. Atualmente, outras escolas estatísticas têm se comprovado bastante úteis e poderosas em estudos ecológicos, e entre elas podemos destacar as que se valem de estimativas de verossimilhança e seleção de modelos como alternativa ao teste de hipóteses tradicional (Hilborn & Mangel 1997, Johnson & Omland 2004).

A inferência estatística por meio de verossimilhança é feita basicamente confrontando a probabilidade de se obter os dados observados considerando duas (ou mais) hipóteses (Royall 2007). Segundo a Lei da Verossimilhança, os dados observados são evidências em favor da hipótese que tem mais probabilidade em gerar aqueles dados, em relação a outras hipóteses (Burnham & Anderson 2002, Royall 2007). Nessas abordagens, geralmente as hipóteses são transformadas em modelos matemáticos para que possamos obter o valor da probabilidade de cada um dos dados observados ocorrerem, considerando o modelo hipotetizado. Um modelo matemático é uma representação de uma relação natural. Modelos tentam calcular (e predizer) o valor esperado de uma dada variável de interesse em função dos valores de uma ou mais variáveis que possam afetá-la. Essas dependências entre variáveis são expressas através de funções matemáticas que podem assumir e possuir diversas formas e propriedades (podem ser lineares, exponenciais, monotônicas ou não, entre outras).

A inferência por verossimilhança apresenta uma vantagem em relação ao paradigma frequentista pela possibilidade de confrontarmos múltiplas hipóteses ao mesmo tempo, utilizando-se dos mesmos dados, e obtendo uma força de evidencia de uma hipótese em relação às outras hipóteses, as quais são formuladas com base no nosso conhecimento sobre o sistema (Chamberlin 1890, Royall 2007, Bolker 2008). No paradigma frequentista, o teste é sempre feito em relação ao uma hipótese nula simulada, na qual não temos nenhum interesse e a evidência em favor da hipótese alternativa é relacionada a essa hipótese nula criada (Anderson et al. 2000, Burnham et al. 2011). Na rejeição da hipótese nula, o que podemos concluir é que o processo representado na hipótese alternativa explica melhor os dados do que se eles fossem gerados ao acaso, o que não necessariamente é a informação que nos permite fazer inferências práticas sobre o sistema. Se quisermos explorá-lo mais, na escola frequentista a comparação entre diferentes processos requer novos dados e novas hipóteses, que serão sempre confrontadas com o acaso. Além disso, os testes de significâncias frequentista são atrelados a pressupostos bastante rígidos que geralmente não encontramos na natureza, como a distribuição Gaussiana das variáveis e homogeneidade das variâncias (Anderson et al. 2000).

Em modelos matemáticos, as relações podem ser expressas de maneira mais fiel aos sistemas. Os dados coletados não precisam pertencer necessariamente à distribuição Gaussiana, e o limite prático do número de variáveis (e respectivos parâmetros) que podemos investigar com uma quantidade de dados é bastante flexível em comparação à abordagem frequentista. Uma vez identificada a qual distribuição estatística pertence a variável aleátoria que coletamos, e construídos os modelos que traduzem matematicamente as relações que hipotetizamos, podemos investigar o modelo que melhor se ajusta ao nosso sistema de interesse através da Lei da Verossimilhança e, a partir dele, fazer inferências sobre esse sistema (Burnham & Anderson 2002). Os modelos são confrontados entre si, e o que se busca é encontrar o modelo que alcança a máxima verossimilhança, ou seja, o que traduz a hipótese que tem a maior probabilidade de ocorrer, considerando as observações que temos em mão. Nas rotinas estatísticas, devido à facilidades matemáticas, as análises buscarão minimizar a Log-Verossimilhança, o que, da mesma forma, significa investigar em qual modelo (e em quais valores de parâmetros) ocorre o melhor ajuste dos dados coletados (Bolker 2008).

Pelo fato de, em todo modelo matemático, quando aumenta-se o número de parâmetros livres no modelo melhora-se a qualidade do ajuste, na fase de seleção de modelos é sempre levado em conta o princípio da parcimônia (Burnham & Anderson 2002). Se dois modelos se ajustam igualmente bem aos dados, é preferível adotar como mais plausível o modelo mais simplificado, ou seja, o que possui uma menor quantidade de parâmetros. Um dos critérios mais utilizados para seleção de modelos em ecologia (critério de seleção de Akaike - AIC) penaliza os modelos em relação ao seu número de parâmetros, e assim inclui a parcimônia em suas escolhas (Bozdongan 1987, Burnham et al. 2011). Em sistemas muitos complexos, que sofrem ação simultânea e diferentes em magnitudes e escalas, a coleta de dados que permitam o teste de hipóteses frequentistas sobre essas forças se torna bastante problemática. A partição das relações entre variáveis de maneira estatisticamente confiável requer uma quantidade bastante grande de dados, e, novamente, nem sempre os pressupostos para a aplicação de muitos testes estatísticos frequentistas não são fáceis de serem encontrados em dados biológicos. Nesses casos, a seleção de modelos se torna mais vantajosa, pois permite a comparação simultânea de diferentes modelos que consideramos plausíveis de gerar o que observamos (Johnson & Omland 2004). As forças que atuam podem ser expressas em modelo de forma isolada ou agregada, linear ou não, e assim podemos fazer questionamentos mais diretos sobre esses sistemas.

Para exemplificar, considere que estamos interessados em saber como a riqueza de diferentes comunidades, e/ou a abundância de uma dada espécie, varia dentro de uma região em relação a diferentes fatores como variáveis climáticas, de solo, ou uma outra variável qualquer. Depois de coletar nossos dados, sempre levando em consideração um delineamento amostral que seja capaz de responder nossas questões, devemos formular diferentes hipóteses que consideramos ser possíveis de explicar nosso sistema e traduzi-las em modelos matemáticos. Dentro dos inúmeros modelos possíveis, um modelo pode expressar que somente uma variável climática afeta nossa variável de interesse, enquanto outros podem incluir a interação de variáveis de solo. Outro ainda pode inclui distância geográfica de maneira linear, enquanto outros podem a incluí-la em uma relação logarítmica. Após formularmos e ajustarmos todos os modelos considerados plausíveis, podemos confrontá-los quanto aos seus valores de AIC (que levam em consideração os valores de verossimilhança, a quantidade de parâmetros e tamanho da amostra) e assim ranquearmos quais os modelos são mais plausíveis de produzir nossos dados, ou seja, seremos capazes de inferir quais relações entre variáveis são mais verossímeis aos nossos dados.

Além de apontar quais as relações são as mais atuantes no sistema, através de seleção de modelos pelo AIC é possível realizar abordagens que permitam estimar a importância relativa de cada variável (Burnham & Anderson 2002, 2004, Burnham et al. 2011). Dos valores de AIC calculados, calcula-se o peso de evidência de cada um dos modelos, que representam a qualidade relativa de cada modelo em uma escala padronizada. A importância geral de uma variável em questão é expressa pela soma dos pesos dos modelos que compartilham essa variável (Burnham & Anderson 2002, 2004).

Entre os temas mais abordados atualmente em ecologia de comunidades estão os padrões de distribuição de espécies que constituem uma comunidade biológica e a busca pela compreensão dos processos que os originaram e que os mantém (Vellend 2010). Até recentemente era comum o uso da dicotomia: i) a detecção do efeito da competição e outras interações ecológicas na estrutura de comunidades e coexistência de espécies é feita através de estudos em escalas espaciais restritas, analisando-se variáveis atuais; e ii) a análise da distribuição geográfica das espécies em escalas maiores carregam informações sobre processos biogeográficos e macroevolutivos. Entretanto, atualmente é bastante aceito que a distribuição e co-ocorrência de espécies são influenciadas por diversos fatores históricos, ecológicos e evolutivos atuando simultaneamente e independentemente de escalas espaciais (Vellend 2010, Warren et al. 2014), e os questionamentos tem sido quanto à importância relativa de cada um desses fatores na composição e distribuição de diferentes comunidades atuais, ao invés da simples busca pelo efeito isolado dos mesmos.

Neste cenário a aplicação de seleção de modelos pode ser uma alternativa aos teste frequentistas em estudos que buscam o entendimento das variáveis agindo sobre os descritores de uma comunidade. Através da construção de modelos de variáveis agrupadas ou isoladas, com relações de diferentes tipos (lineares, quadráticas, exponencias, etc), poderemos ranquear os modelos mais verossímeis e em seguida pesar as variáveis quanto às suas importâncias relativas. Dados de contagem, como riqueza e abundância, geralmente seguem distribuições matemáticas bastante conhecidas e exploradas, e isso facilita ainda mais a tradução das hipóteses em modelos matemáticos. Pode-se, por exemplo, determinar se variáveis históricas (região biogeográfica na qual estão as comunidade) são mais atuantes nas na riqueza de espécies que variáveis relativas à clima, se a distância geográfica é mais importante do que as similaridades ecológicas, e etc.

Em síntese, considerando que: questões sobre importância relativa de fatores influenciando uma comunidade geralmente envolvem muitas variáveis, que atuam em escalas diferentes; que a coleta de quantidades suficientes de dados para testes “frequentistas” sobre os descritores de comunidade (riqueza e abundância de espécies) é bastante exigente quanto a tempo e recursos financeiros e humanos; e que é geralmente impraticável a realização de experimentos, a inferência por verossimilhança e seleção de modelos é bastante vantajosa em relação à abordagem frequentista. Tanto pela quantidade de dados que exige para um teste estatístico confiável, quanto pelas premissas que devem ser respeitadas.

Referências bibliográficas

Anderson DR, Burnham KP & Thompson WL. 2000. Null hypothesis testing: problems, prevalence, and an alternative. Journal of Wildlife Management 64, 912 – 923.

Bolker BM. 2008. Ecological Models and Data in R. Princeton University Press.

Bozdongan H. 1987. Model selection and Akaike's Information Criterion (AIC): The general theory and its analytical extensions. Psychometrika 52, 345-370.

Burnham KP & Anderson DR. 2002. Model selection and multimodel inference: A pratical information - Teoretic approach. Springer.

Burnham KP, Anderson DR & Huyvaert KP. 2011. AIC model selection and multimodel inference in behavioral ecology: some background, observations and comparisons. Behavioral Ecology and Sociobiology, 65, 23-35.

Chamberlin TC. 1890. The method of multiple working hypothesis. Science, 15 (336), 92-96.

Hilborn R & Mangel M. 1997. The ecological detective: Confronting models with data. Princeton University Press, Princeton.

Johnson JB & Omland KS. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19(2), 101-108.

Lewin-Koh N, Taper ML & Lele SR. 2004. A brief tour of statistical concepts. In: The nature of scientific evidence (eds. ML Taper and SR Lele), University of Chicago Press, pp 3 -16.

Royall, RM. 2007. The likelihood paradigm for statistical evidence. In: The nature of scientific evidence (eds. M.L. Taper and S.R. Lele), University of Chicago Press, pp 119–152

Vellend M. 2010. Conceptual synthesis in community ecology. The quarterly Review of Biology, 85(2), 183-206.

Warren D, Cardillo M, Rosauer D & Bolnick D. 2014. Mistaking geography for biology: inferring processes from distributions. Trends in Ecology & Evolution, 29, 572-580.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Piatti, L. Aplicação da seleção de modelos em estudos de ecologia de comunidades. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.