BIE5781 - Modelagem Estatística para Ecologia e Recursos Naturais

Tabela de conteúdos

A Abordagem de Verossimilhança e a avaliação de processos ecológicos no contexto da Ecologia da Paisagem
Contextualização
Referências bibliográficas
Citação

A Abordagem de Verossimilhança e a avaliação de processos ecológicos no contexto da Ecologia da Paisagem

Andrea Larissa Boesing

Laboratório de Ecologia da Paisagem e Conservação
Universidade de São Paulo
lari.boesing@gmail.com

“Quem mensura o paraíso, a terra, o mar e o céu,
De modo a buscar folclore ou excitação, 
Deixe-o avisado de um idiota ser.” 
Sebastian Brant, Ship of Fools, 1494.

Não podemos investigar fenômenos cientificamente, a menos que possamos quantificar processos e concordar, por meio de uma linguagem comum que possibilitará a interpretação de nossas medições. Nicholas Gotelli e Aaron Ellison em “Princípios de estatística em Ecologia”, descrevem que um desafio conceitual para estudantes de ecologia é traduzir seu “amor pela natureza” em um “amor padrão”. E depois que “quantificamos a natureza”, vem o trabalho árduo de sumarizar, sintetizar e interpretar os dados que coletamos. Em todas as ciências, a estatística é a linguagem comum usada para interpretar nossas medidas e testar e discriminar nossas hipóteses, sendo a probabilidade, a base da estatística (Gotelli & Ellison 2011).

Deste modo, a ciência é um processo de aprendizado da natureza em que ideias competem sobre como o mundo funciona são elaboradas e contrastadas com observações (Hilborn & Mangel 1997), e estas ideias são usualmente expressadas primeiramente como hipóteses e em segundo momento como equações matemáticas ou modelos (Johnson & Omland 2004). Deste modo, traduzir hipóteses em modelos requer a identificação das variáveis de interesse e a seleção de funções matemáticas que descrevem os processos biológicos através dos quais tais variáveis estão relacionadas (Johnson & Omland 2004). Entretanto, é difícil incluir em um modelo a realidade completa. Assim, precisamos de um bom modelo para aproximar os efeitos ou fatores suportados pelos nossos dados empíricos (Burnham & Anderson 2002).

Se temos dados que podem ser explicados por mais de uma hipótese, e cada hipótese é um modelo que atribui alguma probabilidade aos dados, podemos expressar essa probabilidade através da Função de Verossimilhança (Johnson & Omland 2004). Em outras palavras, a ideia por trás da função de verossimilhança é que encontremos o melhor modelo probabilístico que se ajuste aos nossos dados. Diferente da abordagem estatística clássica/frequentista onde a ideia era contrapor duas hipóteses, uma nula e uma alternativa, e então se obtinha um valor arbitrário (valor de p) que indicava se a hipótese nula seria refutada ou não, na análise por verossimilhança, não existe um valor que te orienta a refutar a hipótese nula. O que existem são várias hipóteses concorrentes, inclusive se necessário uma hipótese referente à ausência de efeitos (chamada também de modelo nulo), que são simultaneamente confrontadas com os dados (Johnson & Omland 2004), mas existe um critério que diz o quão plausível é uma hipótese em relação à outra. Atrelado ao fato de que não existe um melhor modelo absoluto e que estamos sempre confrontando modelos dentro do nosso universo amostral, muitas vezes mais de um ou vários modelos podem ser plausíveis.

Na prática, a inferência por Verossimilhança se dá basicamente em três passos: i) a escolha do modelo; ii) o ajuste dos dados ao modelo; iii) a seleção do melhor modelo (Prado & Batista 2014). Para deixar mais claro como a inferência por verossimilhança funciona, vou utilizar um conjunto de dados que faz parte das primeiras amostragens do meu projeto de tese.

Contextualização

Parte da minha tese tem o objetivo de entender como que estão estruturadas as comunidades de aves do ponto de vista funcional (DFu) e filogenético (DFi) em paisagens com diferentes gradientes de cobertura florestal e diferentes contextos de matriz agrícola. Os dados utilizados aqui correspondem a amostragens por ponto de escuta em 13 paisagens que detém um gradiente de cobertura florestal que varia entre ~5 e 60% emersas em uma matriz predominante de pastagem. Os pontos foram estabelecidos aos pares (quatro pares/paisagem; floresta-matriz), e os dados correspondem a duas amostras. Estas paisagens estão localizadas no Sistema Cantareira-Mantiqueira no estado de São Paulo, e para esta explanação, vou utilizar apenas os números de riqueza especifica por ponto de escuta, não adentrando por hora, na analise de diversidade funcional e filogenética.

1)Escolhendo o Modelo: A primeira etapa é investigar a qual tipo de distribuição de probabilidade nossos dados se enquadram: existem várias possibilidades (e.g. Gaussiana, Poisson, Binomial) e para cada tipo de dado coletado, existe uma função matemática da distribuição bem descrita e com parâmetros bem conhecidos (ver Capítulo 4 Bolker 2008- ‘Bestiário das Distribuições’). Quando trabalhamos com contagens (e.g. riqueza e abundância de espécies em um dado local), em geral os dados se enquadram em uma distribuição de Poisson, que é constituída basicamente pelo parâmetro λ, que de uma maneira mais simples, é o nosso valor esperado (ou também, a média amostral dos dados).

                                    X ~ ƒ (X| λ)

No caso dos dados apresentados no histograma abaixo (Figura 01), o λ têm valor 10.5 (que é o número médio de espécies de aves por ponto de escuta – aqui o tipo de ambiente – floresta ou pastagem – foram contabilizados conjuntamente). Neste caso, lambda é o parâmetro da distribuição.

Figura 01: Distribuição da riqueza de espécies de aves por ponto de escuta no corredor Cantareira-Mantiqueira no estado de São Paulo (dados preliminares, Jan-Abr 2014).

Sabendo a que distribuição de probabilidade seus dados pertencem, uma tarefa crucial é selecionar as variáveis de interesse com as quais serão construídos os modelos. Embora pareça uma tarefa fácil, ela não é trivial. A inferência por verossimilhança trabalha com um espaço amostral criado pelo pesquisador, deste modo, o melhor modelo a ser escolhido será um dos que foi previamente estabelecido pelo pesquisador (Prado & Batista 2014). Em outras palavras, outras importantes variáveis podem estar influindo no processo de interesse e não estão sendo incorporadas aos modelos. Por isso, é importante que as variáveis sejam escolhidas com cuidado, e neste momento, o conhecimento e experiência com o assunto que esta sendo investigado fazem toda diferença.

Usando os dados de riqueza de aves por ponto de escuta nas diferentes paisagens (Figura 02), vamos construir cinco hipóteses (ou cinco modelos) concorrentes, as quais levam em consideração neste primeiro momento, apenas a cobertura florestal e o habitat: Hip. 1: A riqueza é explicada pela cobertura florestal (fc); Hip.2: A riqueza é explicada pelo tipo de habitat (hab); Hip.3: A riqueza é explicada pela cobertura florestal e pelo tipo de habitat (interativo); Hip.4: A riqueza é explicada pela cobertura florestal e pelo tipo de habitat (aditivo); Hip.5: Não tem efeito (nulo).

Figura 02: Número de espécies de aves por Ponto de Escuta no corredor Cantareira- Mantiqueira no estado de São Paulo (dados preliminares, Jan-Abr 2014).

2) Ajuste dos dados ao modelo: A segunda etapa consiste na adequação dos parâmetros dos modelos para que os dados tenham o melhor ajuste possível nos modelos. Esse ajuste pode ser feito pela análise de máxima verossimilhança, que consiste em encontrar uma função de verossimilhança que permita a observação da plausibilidade dos valores possíveis para os parâmetros de cada modelo (Batista 2009). Mas antes, precisamos entender a função de verossimilhança que é dada pela seguinte equação:

                                   ƒx (θ|X=x)

Esta função indica a verossimilhança de uma dada hipótese, dado que se obteve uma observação X = x. (Batista 2009). Entretanto, quando fazemos um estudo tomamos uma série de amostras, as quais em geral, são constituídas por observações independentes. Em outras palavras, a probabilidade de se obter a amostra, dado a hipótese A, é igual ao produto das probabilidades das observações individuais, dado a hipótese A. Logo, a verossimilhança da amostra é o produto da verossimilhança das observações, ela rapidamente se aproxima do zero quando o tamanho da amostra cresce. Para tornar mais fácil a manipulação matemática da verossimilhança se utiliza a função de log-verossimilhança negativa, que consistem aplicar a função logaritmo, geralmente o logaritmo natural ou niperiano (Batista 2009).

                                    - Σln. ƒ (xi|θ)

Esta função de log-verossimilhança negativa precisa ser minimizada para encontrar a Máxima Verossimilhança, que nada mais é, do que o local onde os valores dos parâmetros são mais plausíveis de serem encontrados. Portanto, a estimativa de máxima verossimilhança do parâmetro λ da distribuição de Poisson nada mais é que a média amostral. Assim no exemplo da riqueza de espécies de aves, a estimativa de máxima verossimilhança é 10.5.

3) Seleção e Comparação de Modelos: Com a solução de máxima verossimilhança de cada modelo, a tarefa agora é selecionar o melhor modelo ou o melhor conjunto de modelos dentre o conjunto de modelos candidatos. Akaike (1973) propôs o uso da distancia de Kullback-Leibler como base fundamental para a seleção de modelos. Entretanto, a distância K-L não pode ser computada sem o conhecimento da realidade completa e dos parâmetros de cada modelo candidato (Burnham & Anderson 2002), e Akaike encontrou uma maneira bastante rigorosa de estimar esta distancia K-L baseado na função de log-verossimilhança no seu ponto máximo (Burnham & Anderson 2002), que ficou conhecida como Akaike’s Information Criterion (Critério de Informação de Akaike; AIC). O AIC mede a distância de cada modelo ao modelo ideal, e de fato ele representa o quanto de informação é “perdida” ou a discrepância relativa entre os modelos.

                          AIC = −2 ln [L{µ}] + 2p = 2L{µ} + 2p

O melhor modelo será àquele que apresentar o menor valor da AIC, e comumente é usado o valor de dois, valor abaixo do qual os melhores modelos se encontram. Se mais de um modelo ficar abaixo deste valor, ambos são considerados igualmente plausíveis (Batista 2009).

Tabela 01: Modelos concorrentes e valores de AIC para cada modelo se utilizando os dados de riqueza de aves por ponto de escuta amostradas no Sistema Cantareira-Mantiqueira do estado de São Paulo (dados preliminares, Jan-Abr 2014). *Hab (habitat), Fc (cobertura florestal)

Modelo	AIC	dAIC	df	weight
Fc + Hab (Int)	1199.2	0.0	4	0.85
Fc + Hab (Adi)	1202.8	3.6	3	0.14
Fc	1211.4	12.2	2	0.01
Hab	1391.8	192.6	2	<0.001
Nulo	1400.4	201.2	1	<0.001

Pelo método de seleção de AIC, o modelo que melhor explica os dados é o modelo interativo entre cobertura florestal e habitat (Hip.3; Tabela 01). Isso quer dizer, que não só a cobertura florestal é importante na determinação da riqueza por ponto de amostragem, como também o habitat em que ele está inserido; não só isso, mas que as comunidades de aves da matriz e de ambiente florestal são afetadas diferentemente, sendo as florestais mais relacionadas com o aumento da CF, como era esperado (Figura 03). Quando olhamos as curvas estimadas (Figura 04), é bastante nítida esta relação onde a CF têm forte influência na riqueza de espécies dos ambientes florestados, mas que não afeta as comunidades da matriz.

Figura 03: Relação entre a riqueza de espécies de aves por Ponto de Amostragem e a cobertura florestal da paisagem.

Figura 04: Riqueza de espécies de aves por Ponto de Amostragem estimada seguindo o aumento da cobertura florestal da paisagem.

Este é apenas um exemplo de como a abordagem por verossimilhança pode ser bastante útil ao se avaliar um dado conjunto de dados ou um processo no contexto a ecologia da paisagem. Uma discussão atual entre ecólogos da paisagem gira em torno de separar a influência relativa da perda de habitat versus fragmentação (Metzger & Villard 2014), onde embora estes dois fenômenos ocorram simultaneamente, em muitas circunstancias seus efeitos são confundidos.

Em nosso exemplo, existem n outras variáveis que podem estar influenciando a riqueza de espécies de aves por ponto de escuta no contexto da paisagem, como por exemplo, o tamanho do fragmento florestal ou a extensão da matriz, presença/ausência de stepping-stones na paisagem, densidade de borda, histórico de conversão (e.g. Banks-Leite et al. 2010; Martensen et al. 2012), e muita cautela deve ser tomada ao considerar ou não, estas outras variáveis. Vale ressaltar que em Ecologia de Paisagem, muitos parâmetros de paisagem mensuráveis são altamente correlacionados (e.g. média do tamanho do fragmento com a quantidade de cobertura florestal; i.e. quanto maior a cobertura florestal maiores também será o tamanho dos fragmentos).

Deste modo, embora haja todo um instrumental tentador que podem ser utilizados para investigarmos um caso específico no contexto da Ecologia da Paisagem e a abordagem de verossimilhança seja muito adequada para este fim, bastante cautela deve ser tomada ao selecionar as variáveis que estarão compondo seus modelos.

Referências bibliográficas

Banks-Leite,C., Ewers, R.M. and Metzger, J.P. 2010. Edge effects as the principal cause of area effects on birds in fragmented secondary forests. Oikos 119: 918-926.

Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.

Bolker, B. 2008. Ecological Models and data in R. Princeton University Press, Princeton and Oxford.

Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.

Gotelli, N.J., Ellison, A.M. 2011. Principios de Estatística em Ecologia. Artmed, Porto Alegre.

Hilborn, R. and Mangel, M. (1997) The Ecological Detective: Confronting Models With Data, Princeton University Press.

Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10.

Martensen, A. C., Ribeiro, M. C., Banks-Leite, C., Prado, P.I., Metzger, J.P. 2012. Associations of Forest cover, fragmented area and connectivity with Neotropical understory bird species richness and abundance. Conservation Biology 26: 1100-1111.

Prado, P.I., Batista, J.L.F. 2014. Modelagem estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

Villard, M., Metzger, J.P. 2014. Beyond the fragmentation debate: a conceptual model to predict when habitat configuration really matters. Journal of Applied Ecology 51:309-318.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Boesing, A.L. 2014. A abordagem de verossimilhança e a avaliação de processos ecológicos no contexto da Ecologia da Paisagem. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.