A inferência por Verossimilhança como ferramenta para a modelagem da distribuição de espécies no programa Maxent

Romina Vanessa Barbosa

*Pós-Graduação em Oceanografia Biológica, Laboratório de Dinâmica Bêntica, Instituto Oceanográfico da Universidade de São Paulo.

*romina.b@usp.br

Nos últimos anos os Modelos de Distribuição de Espécies (SDMs, siglas em inglês), também chamados de modelos de adequabilidade de habitat, são utilizados para análise de dados de ocorrência de espécies, tanto de amostragens planejadas quanto de bancos de dados obtidos de museus ou repositórios de informação disponíveis (ex. Global Biodiversity Information Facility (www.gbif.org)).

Os SDMs são utilizados para extrair informações sobre os padrões ou processos subjacentes. Estes modelos são fundamentalmente importantes na área da ecologia e conservação, sendo ferramentas para estudos sobre a distribuição das espécies, invasões, impactos das mudanças climáticas, manejo e planejamento de áreas de conservação, etc (Graham et al., 2004). Contudo, diferentes abordagens estatísticas podem gerar diferentes modelos de um mesmo conjunto de dados e o cientista tem que ser consciente disso (McCullah & Nelder, 1989).

Alguns programas ou pacotes do “R programing” implementam diferentes algoritmos como por exemplo o método MaxEnt (Maxima Entropia). Neste ensaio focarei no processamento de dados realizado pelo programa Maxent (http://www.cs.princeton.edu/~schapire/maxent/) visando esclarecer a lógica do procedimento realizado para poder entender e interpretar os resultados que o programa fornece. Este programa gera modelos de adequação de hábitat baseados em distribuições conhecidas e na série de dados ambientais da área estudada. Estes modelos predizem as áreas mais propensas à ocorrência dos organismos (Araújo and Guisan, 2006).

O processo de modelagem consta de diferentes partes; formulação, ajuste, seleção e validação dos modelos. O Maxent calcula a distribuição de probabilidade da máxima entropia, i.e. a distribuição que é mais espalhada ou mais próxima da uniforme (Phillips et al., 2006). Essa distribuição esta sujeita a restrições impostas pela informação disponível sobre a distribuição observada das espécies e as condições ambientais em toda a área de estudo. O método MaxEnt usa a covariância entre os dados de ocorrência e os dados das variáveis ambientas (background sample) para estimar a razão f1(z)/f(z). Ou seja, faz uma estimativa da distância ou diferença entre f1(z) (o que é consistente com os dados de ocorrência), e um outro modelo f(z) (modelo nulo; de uma distribuição de probabilidade uniforme). Essa distância é dada pela Entropia Relativa (ER) de f1(z) com respeito a f(z), também conhecida como divergência ou distância de Kullback-Leibler (Elith et al., 2011).

Considerando P(x) e Q(x) duas distribuições de probabilidade distintas, a Distância de Kullback-Leibler (DKL) entre ambas é dada por: DKL(P||Q) = P(x ) log (P(x )/Q(x ))

O modelo que tiver menor divergência terá menor perda de informação (Burnham and Anderson, 2001), ou seja, que representará melhor o processo que gerou os dados. A distribuição do maxent que minimiza a ER é a mesma que a distribuição de Gibbs que máximiza a log-verossimilhança (Pietra et al., 1997), a qual pertence a família Exponencial.

Distribuição de Gibbs:

f1(z) = f(z) . e η(z)

onde η(z)= α + β.h(z), e α é uma constante de normalização que garante que f(z) se integre a 1.

Portanto, o objetivo do Maxent é modelar e η(z) , o que garante a razão f1(z)/f(z). Esse e um modelo log-linear, similar a os modelos Generalizados Lineares (MLGs). Para resolver o problema Maxent precisa achar os coeficientes β (betas) do modelo, sendo estes os parâmetros que medem ou pesam a contribuição de cada característica ou variável ambiental para a presença da espécie. Maxent lida com essa questão definindo um limite de erro padrão ou desvio máximo permitido (Phillips & Dudik, 2008), sendo:

λj= λ √(s2[hj]/m)

λj é o parâmetro de regularização para a variável hj.

Esse parâmetro corresponde à largura do intervalo de confiança e, portanto, ele toma a forma do erro padrão (expresso na raiz quadrada) multiplicado pelo parâmetro λ de acordo com o nível de confiança desejado. Assim, o limite do erro padrão λj é calculado para cada variável, sendo s2[hj] a variância da variável ambiental hj para os sítios de presencia m.

Em geral não conhecemos o valor dos parâmetros e portanto eles são estimados a partir das amostras. O programa ajusta o modelo fazendo a estimativa dos parâmetros que maximiza a função de log-verossimilhança, garantindo a convergência à distribuição de máxima entropia (Phillips et al., 2004). Assim, o ajuste dos modelos é medido nos locais de ocorrência, utilizando a probabilidade de Log-Verossimilhança.

A função de log-verossimilhança consiste na aplicação de um logaritmo na função de verossimilhança. Esta função se baseia no Principio de Verossimilhança, o qual diz que: dado que há mais de uma explicação para um conjunto de dados, cada hipótese atribui uma probabilidade diferente aos dados. Portanto a explicação mais plausível será aquela que atribuir maior probabilidade aos dados. Assim, a função de log-verossimilhanca mede a plausibilidade de cada valor do parâmetro numa escala relativa, isto é, em comparação com os demais valores possíveis do parâmetro (Prado & Batista, 2014).

Na abordagem de Log-Verossimilhança o espaço amostral é irrelevante (Batista, 2009). Assim, essa abordagem e mais adequada para analises de distribuição de espécies com dados apenas de presença já que a log-verossimilhança faz o calculo nesses sítios (Elith et al., 2011), sem considerar o espaço amostral. Além disso, com esta abordagem é possível comparar quantas hipóteses se desejar.

Há várias hipóteses sobre as relações entre as variáveis ambientais e seus efeitos sobre a presencia da espécie, ou seja que existem vários modelos possíveis para os quais se calcula a máxima log-verossimilhança. Assim, o Maxent gera modelos resultantes de todas as possíveis combinações de pares de co-variáveis (linear, produtos, quadrática, dobradiça, da soleira e categóricas) permitindo interações (Elith et al., 2011).

Um modelo complexo pode ter um valor grande de log-verossimilhança. Entretanto, um modelo complexo tende a ser específico, o que não permite conclusões gerais. Para solucionar esse problema é feita uma regularização (regularização-L) baseada nos lambdas (abordagem de seleção de modelos). Nesse sentido, é realizado uma função similar do Critério de Informação de Akaike AIC, o qual é utilizado para obter o modelo mais equilibrado em forma e complexidade, penalizando os mais complexos e permitindo tanto uma predição precisa quanto geral.

Os modelos gerados no Maxent tem uma interpretação probabilística natural, dando uma gradação suave de condições mais adequadas para condições menos adequadas a qual pode ser representada por pixels num mapa da área estudada. Contudo, logo após escolher um modelo precisamos fazer uma boa analise baseada nos dados e na informação biológica/ecológica, já que deficiências na análise podem ocorrer se o cientista focar no modelo estatístico e não no problema a ser respondido (Breiman, 2001). As conclusões devem ter sentido biológico. Se as conclusões são sobre os mecanismos do modelo e não sobre os mecanismos da natureza, o modelo pode ser uma emulação pobre da natureza. Portanto, é importante o papel do pesquisador no processo de modelagem desde a escolha dos dados e variáveis a serem utilizados até a escolha do modelo que mais explique o processo natural.

Referências Bibliográficas:

Araújo, M.B., Guisan, A., 2006. Five (or so) challenges for species distribution modelling. J. Biogeogr. 33, 1677–1688. doi:10.1111/j.1365-2699.2006.01584.x

Austin, M.., 2002. Spatial prediction of species distribution: an interface between ecological theory and statistical modelling. Ecol. Modell. 157, 101–118. doi:10.1016/S0304-3800(02)00205-3

Breiman, L., 2001. Statistical Modeling : The Two Cultures 16, 199–231.

Burnham, K.P., Anderson, D.R., 2001. Model Slection and Multimodel Inference, Second Edi. ed. doi:10.1002/1521-3773(20010316)40:6<9823::AID-ANIE9823>3.3.CO;2-C

Elith, J., Phillips, S.J., Hastie, T., Dudík, M., Chee, Y.E., Yates, C.J., 2011. A statistical explanation of MaxEnt for ecologists. Divers. Distrib. 17, 43–57. doi:10.1111/j.1472-4642.2010.00725.x

Graham, C.H., Ferrier, S., Huettman, F., Moritz, C., Peterson, a T., 2004. New developments in museum-based informatics and applications in biodiversity analysis. Trends Ecol. Evol. 19, 497–503. doi:10.1016/j.tree.2004.07.006

Phillips, S.J., Anderson, R.P., Schapire, R.E., 2006. Maximum entropy modeling of species geographic distributions. Ecol. Modell. 190, 231–259. doi:10.1016/j.ecolmodel.2005.03.026

Phillips, S.J., Avenue, P., Park, F., 2004. A Maximum Entropy Approach to Species Distribution Modeling 655–662.

Prado, P.I. & Batista, J.L.F. , 2014. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: Barbosa, R.V., 2014. A inferência por Verossimilhança como ferramenta para Modelagem da distribuição de espécies no programa Maxent. In: Prado, P.I. & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.