Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:jardim

Macroecologia e evidência

Lucas Jardim

* Pós-Graduação em Ecologia e Evolução, Universidade Federal de Goiás * lucas.jardim@bol.com.br

Macroecologia

A Macroecologia é um programa de pesquisa ecológico que busca entender quais são os mecanismos que geram os padrões encontrados em grandes escalas geográficas e temporais (GASTON; BLACKBURN, 2000). Para isso, ela está interessada em estudar as propriedades que emergem em grandes escalas sem se interessar nos múltiplos efeitos que se interagem em menores escalas para formá-las (BROWN, 1995). Essa perspectiva é como olhar um sistema com uma lente que dá foco no macro, sem se aprofundar nos detalhes dentro desse sistema (BROWN, 1995).

Esse programa surgiu como uma contrapartida aos estudos experimentais que explicavam bem sistemas locais, mas falhavam em predições de ampla escala (BROWN; MAURER, 1989). No entanto, em estudos macroecológicos é muito difícil, se não impossível, delinear experimentos replicados que nos permitam manipular as variáveis de interesse e controlar os efeitos indesejados (BROWN, 1995). Sendo assim, a Macroecologia utiliza-se de padrões estatísticos observados nos dados para inferir os processos geradores desses padrões (BROWN; MAURER, 1989; BROWN, 1995; GASTON; BLACKBURN, 2000; HAWKINS; DINIZ-FILHO, 2008).

Inicialmente, essa abordagem estava restrita a comparações, entre regiões e escalas, das formas das distribuições de certas variáveis, como exemplo massa corporal, tamanho da extensão geográfica e densidade populacional(BROWN; MAURER, 1989; HAWKINS; DINIZ-FILHO, 2008). Essa abordagem, apesar de encontrar padrões que se repetem em diferentes taxa e regiões, mostrou-se falha, pois diferentes processos podem produzir padrões semelhantes e somente analisando suas formas não há como conseguir informações dos processos subjacentes (MCGILL, 2003). Além disso, os mesmos padrões podem surgir por um processo puramente aleatório sem significar que algum fator importante esteja determinando-os.

Para corrigir o segundo problema, os estudos utilizam modelos nulos para testar quão improvável seria o padrão observado (resumido em uma estatística) sob um cenário puramente aleatório, onde os efeitos que achamos importantes não estariam atuando (GOTELLI; ULRICH, 2012). Além de haver historicamente muitas críticas sobre como criar o melhor modelo nulo e como ter a garantia de que somente o efeito de interesse está sendo eliminado do modelo (GOTELLI; ULRICH, 2012). Nessa abordagem, a hipótese-nula é testada contra uma hipótese-alternativa (presença de efeito) por um método de aleatorização dos dados (GOTELLI; ULRICH, 2012). Esse método tenta reconstruir os possíveis resultados que existiriam sob aquele modelo nulo (GOTELLI; ULRICH, 2012). Entretanto o mecanismo não é explicitamente testado e nenhuma medida de suporte é dada à hipótese alternativa (GOTELLI; ULRICH, 2012). Ou seja, não é possível saber qual a probabilidade do dado acontecer sob a hipótese de existência de um efeito.

Uma forma de testar explicitamente quais variáveis (ex: temperatura) poderiam influenciar uma variável de interesse (ex: riqueza) seria através da inferência por modelos. Ao invés de usarmos somente o modelo nulo, nesse tipo de inferência, criaríamos hipóteses para explicarem uma determinada questão científica, em seguida essas hipóteses seriam traduzidas traduzidas em modelos, os quais seriam ajustados aos dados e ranqueados entre eles. Esses modelos deixam explícitas as relações entre variáveis explanatórias e a variável de interesse (ex: não-linear, termos de interação). Além disso, eles permitem a inclusão da ausência de independência das unidades amostrais na estrutura do modelo, algo comum em estudos macroecológicos, pois normalmente as unidades amostrais apresentam correlação espacial (LEGENDRE, 1993), temporal (PERES-NETO, 2006) e filogenética (FELSENSTEIN, 1985).

Modelo Linear Geral

Os tipos mais comuns de modelos são os Modelos Lineares Gerais, onde as correlações entre as amostras são incluídas por meio de uma matriz de covariância ou usando autofunções como variáveis que descrevem as correlações (LEGENDRE, 1993). Nesses modelos são assumidos que a distribuição dos resíduos segue uma distribuição Gaussiana e que há homocedasticidade.

No entanto, como dito anteriormente, os dados macroecológicos são observacionais e por isso dificilmente esses pressupostos são cumpridos (HAWKINS; DINIZ-FILHO, 2008). Para contornar esses problemas, as variáveis ou são transformadas, ou algumas variáveis são adicionadas ao modelo, com o intuito de controlar a variação nos dados e normalizar os resíduos.

Com esses modelos em mãos, podemos ajustá-los aos dados e através de uma medida de melhor ajuste (ex: R² ajustado) selecionar o melhor modelo (LICHSTEIN et al., 2002). No entanto, o R² é somente uma estatística descritiva dos dados (ANDERSON, 2008), que nos diz o quanto um modelo é mais ajustado em relação a outro com somente o intercepto. Além disso esse critério é de difícil aplicação (NAGELKERKE, 1991; NAKAGAWA; SCHIELZETH, 2013) em modelos não-Gaussianos. Por fim, esse critério de seleção não está baseado em nenhuma teoria que nos permita medir a proximidade deste modelo a um modelo real, gerador dos dados.

Para fazermos isso vamos utilizar a inferência por verossimilhança e critérios de informação para selecionarmos os melhores modelos. Essa abordagem já é utilizada em estudos macroecológicos (DINIZ-FILHO; RANGEL; BINI, 2008), no entanto aqui iremos defendê-la como a melhor abordagem.

Verossimilhança

A verossimilhança é uma medida proporcional à probabilidade do dado ocorrer sob um modelo e um valor de parâmetro (hipótese) (EDWARDS, 1992). Por exemplo, se jogarmos duas moedas e assumirmos que esse experimento segue uma distribuição binomial, com o valor da probabilidade de cair cara igual a 50%, qual será a probabilidade de encontrarmos 2 caras? Essa seria uma pergunta probabilística do resultado que não conhecemos. No entanto, se uma pessoa jogar duas moedas e as duas caírem cara, como sabemos que ela é honesta, ou seja, a probabilidade de cair cara é 0.5? Quando o que desconhecemos é o parâmetro do modelo, o que buscamos é a verossimilhança deste parâmetro e não a probabilidade do dado ocorrer, uma vez que esses já aconteceram.

De acordo com o Axioma da Verossimilhança, toda informação que o dado fornece para distinguir duas hipóteses está presente na razão de verossimilhança, ou seja na diferença dos seus logaritmos e essa é interpretada como o suporte que um dado fornece a favor de uma hipótese contra alguma outra (EDWARDS, 1992). Portanto, uma vez que temos um modelo e um dado nós podemos inferir quais são os valores dos parâmetros daquele modelo pela busca daqueles que possuem a maior razão de verossimilhança comparado a todos os valores possíveis.

Seleção de modelos

Quando fazemos ciência, infelizmente a única informação que temos é o resultado do experimento, ou seja o dado. Tanto o modelo quanto os valores dos seus parâmetros são desconhecidos (EDWARDS, 1992). Desta forma, diversos modelos podem ser propostos para explicar os dados, assim surge um problema de selecionar qual é o melhor modelo.

Em Teoria da Informação, uma forma de medir a distância de um modelo em relação ao real pode ser feita pela função de distância de Kullback-Leibler (ANDERSON, 2008). No entanto, para calcularmos essa distância, necessitamos saber tanto qual é o modelo real, quanto qual é o valor do parâmetro do modelo que estamos usando como aproximação daquele real(ANDERSON, 2008). Isso é resolvido pela inferência dos valores dos parâmetros através dos dados, e ao invés de calcularmos a distância do modelo usado em relação ao real, nós estimamos a distância relativa esperada para aquele modelo (ANDERSON, 2008). Essa medida é próxima à estimativa de máxima verossimilhança de um modelo, no entanto essa última enviesa a estimativa para cima, necessitando assim de uma correção, que é somente a subtração pelo número de parâmetros (ANDERSON, 2008). Portanto, a distância estimada de um modelo ao real é somente o logaritmo de sua verossimilhança máxima subtraída do número de parâmetros. Desta forma, podemos estimar quais são as distâncias relativas de diversos modelos para o real e através dessas estimativas ranqueá-los em relação a sua proximidade da realidade.

Voltando à Macroecologia

Como dito no início desse texto, a Macroecologia tem testado hipóteses, tanto pela interpretação de formas das curvas observadas nos dados, quanto por meio de modelos nulos e também pela seleção de modelos. A melhor forma de estudar como certos padrões são formados, não é por um simples ajuste de curva ou modelos nulos, uma vez que essas abordagens não nos permitem confrontar explicitamente quais são os mecanismos atuando nos sistemas estudados. A melhor forma é realizando uma seleção de modelos, que nos permita estimar qual das hipóteses propostas estão mais próximas da realidade. Entretanto, as formas mais comum de selecionarmos modelos (regressões stepwise, R² ou R² ajustado) não possuem essa propriedade. Sendo assim, a melhor forma de fazermos isso é por um critério de seleção de modelos como o Critério de Informação de Akaike, o qual nos fornece essa estimativa.

Além disso, esse critério tem como subproduto o Princípio da Parcimônia (ANDERSON, 2008), ou seja, o melhor modelo é aquele que explica bem e que é simples na sua estrutura. Outro subproduto do AIC é a equivalência entre o modelo escolhido por esse critério e por aqueles por validação cruzada (ANDERSON, 2008). Isso significa que se dividíssemos o conjunto de dados em 2 subconjuntos aleatórios, C1 e C2. Se ajustássemos diferentes modelos ao subconjunto C1, e escolhêssemos aqueles que melhor predizem os valores de dados do subconjunto C2, o modelo escolhido seria em média o mesmo que o escolhido pelo AIC. Isso indica acurácia nas predições dos modelos escolhidos para conjuntos de dados independentes daqueles aos quais eles foram ajustados.

Por essa abordagem também é possível estimar a força de evidência relativa de cada variável na explicação de um padrão (ANDERSON, 2008). Sendo assim, considerando os diferentes modelos, quais daquelas variáveis propostas são de fato mais importantes para o sistema estudado. Assim, podemos não somente estimar o melhor modelo, como também saber quais são as variáveis importantes.

Com o uso dessa abordagem, acredito que as inferências em Macroecologia serão mais robustas e permitirá que um conjunto de hipóteses concorrentes e realistas sejam estabelecidas e confrontadas, ao invés de somente confrontar uma hipótese de interesse com um modelo irrealista.

Dificuldades

O problema que surge ao trocar de abordagem está na dificuldade de construir funções de verossimilhança para modelos que ainda não possuem essas funções na literatura. Como exemplo, funções de verossimilhança que permitam confrontar um modelo que descreve diferentes comunidades como agrupadas filogeneticamente contra um que as descreve como dispersa. Provavelmente, essa função deveria tanto considerar a estrutura filogenética numa comunidade, como modelar a variação da estrutura de acordo com alguma variável acreditada como determinante daquelas diferenças de estruturas.

Conclusão

Por fim, com o desenvolvimento da habilidade de construir essas funções, como exemplo o citado no parágrafo anterior, permitiria que diferentes modelos, com diferentes mecanismos e diferentes formas de relacioná-los descrevessem os dados observados e com isso escolhêssemos aquele mais próximo ao real. Isso é muito melhor do que somente sabermos se o dado observado tem baixa probabilidade de não ter estrutura filogenética. Com certeza, a mudança de abordagem e o seu exercício trarão grande clareza na compreensão das hipóteses sendo criadas e dos pressupostos assumidos por elas.

Referências bibliográficas

ANDERSON, D. R. Model Based Inference in the Life Sciences : A Primer on Evidence. 2a edition ed. New York: Springer New York, 2008. p. 184

BROWN, J. H. Macroecology. 1a edition ed. Chicago: University of Chicago Press, 1995. p. 284

BROWN, J. H.; MAURER, B. A. Macroecology: The Division of food and space among Species on Continents. Science, v. 243, n. 4895, p. 1145–1150, 1989.

DINIZ-FILHO, J. A. F.; RANGEL, T. F. L. V. B.; BINI, L. M. Model selection and information theory in geographical ecology. Global Ecology and Biogeography, v. 17, n. 4, p. 479–488, jul. 2008.

EDWARDS, A. W. F. Likelihood: expanded edition. Baltimore: Johns Hopkins University Press, 1992. p. 296

FELSENSTEIN, J. Phylogenies and the Comparative Method. The American Naturalist, v. 125, n. 1, p. 1–15, 1985.

GASTON, K. J.; BLACKBURN, T. M. Pattern and Process in Macroecology. 1a edition ed. Cornwall: Wiley-Blackwell, 2000. p. 377

GOTELLI, N. J.; ULRICH, W. Statistical challenges in null model analysis. Oikos, v. 121, n. 2, p. 171–180, 29 fev. 2012.

HAWKINS, B. A.; DINIZ-FILHO, J. A. F. Macroecology. In: Encyclopedia of Life Sciences. Chichester, UK: John Wiley & Sons, 2008.

LEGENDRE, P. Spatial Autocorrelation: Trouble or new paradigm ? Ecology, v. 74, n. 6, p. 1659–1673, 1993.

LICHSTEIN, J. W. et al. SPATIAL AUTOCORRELATION AND AUTOREGRESSIVE MODELS IN ECOLOGY. Ecological monographs, v. 72, n. 3, p. 445–463, 2002.

MCGILL, B. Strong and weak tests of macroecological theory. Oikos, v. 102, n. 3, p. 679–685, 2003.

NAGELKERKE, N. J. D. A note on a general definition of the coefficient of determination. Biometrika, v. 78, n. 3, p. 691–692, 1991.

NAKAGAWA, S.; SCHIELZETH, H. A general and simple method for obtaining R 2 from generalized linear mixed-effects models. Methods in Ecology and Evolution, v. 4, n. 2, p. 133–142, 3 fev. 2013.

PERES-NETO, P. R. A UNIFIED STRATEGY FOR ESTIMATING AND CONTROLLING SPATIAL , TEMPORAL AND PHYLOGENETIC AUTOCORRELATION IN ECOLOGICAL MODELS. Oecologia brasiliensis, v. 10, n. 1, p. 105–119, 2006.

Citação

Este ensaio é um produto da disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: Jardim, L. 2014. Macroecologia e evidência. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

historico/2014/ensaios/jardim.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1