Tabela de conteúdos
Inferência por verossimilhança: duas abordagens distintas no estudo de uma população de mutum-do-sudeste
Joana Carvalhaes B. Araujo
- Pós-Graduação em Biologia Comparada, USP-Ribeirão Preto
- joana_araujo@usp.br
Verossimilhança
A estatística frequentista clássica permite realizar inferências apenas a partir de distribuições gaussianas, o que raramente é uma realidade em situações não experimentais. Ainda que, segundo o Teorema do Limite Central, amostras independentes de uma mesma distribuição qualquer resultem sempre em uma distribuição normal (Batista, 2009), é de se questionar o quanto este artifício compromete a análise ao distanciar os dados de sua condição original. A verossimilhança, além de possibilitar inferências para modelos de qualquer distribuição, permite medir a força de evidência dos dados em favor de múltiplas hipóteses alternativas, hierárquicas ou não, e não apenas em contraste a um modelo nulo. Embora os parâmetros de uma distribuição normal possam parecer mais fáceis de calcular analiticamente do que parâmetros de outras distribuições, a própria verossimilhança oferece um meio de estima-los a partir da máxima verossimilhança, ou seja, valores dos parâmetros que otimizam as chances do modelo em questão explicar determinado conjunto de dados. Estes valores são obtidos com otimizadores computacionais como o mle2 do pacote bbmle do R (Bolker, 2008). Esta abordagem é válida não somente para a simples estimativa de parâmetros constantes, como também, para situações em que o valor do parâmetro oscila influenciado por variáveis contínuas e/ou discretas. Por todas essas possibilidades, a verossimilhança é uma ferramenta poderosa, que pode e deve ser empregada em estudos ecológicos diversos. Aqui, eu apresento duas situações do meu mestrado em que a seleção de modelos por verossimilhança é empregada com objetivos distintos: (1) para seleção do modelo probabilístico mais adequado a partir do qual será estimada a variável resposta de interesse e (2) para teste de hipóteses quando a distribuição de probabilidade é conhecida e o interesse final está nas variáveis explicatórias que influenciam seus parâmetros.
Modelo de estudo: mutum-do-sudeste
O mutum-do-sudeste (Crax blumenbachii), cracídeo endêmico da Mata Atlântica, é uma das aves mais ameaçadas do Brasil, tendo sido a primeira a receber um Plano de Ação Nacional para Conservação pelo IBAMA, em 2004 (atualmente conduzido pelo ICMBio). Apesar deste enfoque, até hoje pouco se sabe sobre as populações remanescentes além de que estas ocorrem em fragmentos isolados que não somam 1% da área de distribuição original da espécie (IBAMA, 2004). Considerado localmente extinto em todo o território de Minas Gerais e Rio de Janeiro, o mutum-do-sudeste foi reintroduzido em ambos os estados, entretanto, até mesmo o status de algumas destas populações é desconhecido. Além da perda significativa de habitat (o que chega a ser redundante mencionar, já que afinal, estamos falando de uma espécie endêmica da Mata Atlântica ), o mutum-do-sudeste é uma ave de grande porte (aproximadamente 3,5 kg) e, portanto, de alto valor cinegético, de forma que o seu declínio também está amplamente associado à caça (IBAMA, 2004). Contribuem para agravar a situação características intrínsecas dos cracídeos - como maturidade sexual tardia e prole reduzida a cada estação reprodutiva - e uma suposta alta exigência ambiental sobre a qual a literatura apenas especula, uma vez que são raros os estudos com a espécie. Diante de tantas incertezas, o objetivo do meu mestrado é preencher algumas destas lacunas em favor da conservação deste cracídeo, investigando o status da primeira população reintroduzida e as variáveis que influenciam a sua ocupação da paisagem.
Verossimilhança para seleção do melhor modelo probabilístico
A primeira pergunta que o meu projeto pretende responder é como se encontra a população de estudo em relação à abundância, densidade e razão sexual 24 anos após o início de sua reintrodução. Para isso, fiz uso da amostragem em transecção linear pelo método de distance sampling. Este método permite obter estimativas populacionais relativamente robustas mesmo com detecção imperfeita, pois envolve a estimativa do número de indivíduos que não são incluídos nos registros embora estejam na área amostrada. A fórmula geral para estimativa do tamanho populacional é
sendo s o número de indivíduos a cada cluster i e Pi a probabilidade de inclusão deste cluster aos dados, ou seja, a probabilidade do cluster i estar na faixa amostrada (Pc) multiplicada pela probabilidade de, estando lá, ser detectado (Pa). Pc é um valor conhecido e refere-se à proporção da área total de estudo que foi de fato amostrada. Pa refere-se à proporção da área efetivamente amostrada, o que é estimado em função da distância ao transecto (Figura 1). Esta estimativa é gerada a partir da função probabilística que melhor se ajusta aos dados entre modelos como uniforme, half-normal, hazard-rate e exponencial negativa. Estes modelos são construídos a partir de parâmetros estimados por verossimilhança e a seleção é feita pelo Critério de Akaike (Buckland et al, 1993). Portanto, a seleção de modelos é uma etapa fundamental neste processo para se estimar a variável final de interesse N. Infelizmente, é uma prática comum entre vários pesquisadores que empregam a metodologia de distance sampling, apostar sempre no mesmo modelo “favorito” e extrair dele as estimativas necessárias sem antes contesta-lo a modelos concorrentes para saber qual melhor se ajusta aos dados. Essa prática, entretanto, ignora o princípio da parcimônia e a seleção de modelos baseada nos dados (Burnham & Anderson, 2002).
Figura 1 – Exemplo de dados de distance sampling. A curva define o melhor modelo que explica a perda de detecção com a distância.
Verossimilhança para investigar a influência de variáveis explicatórias
Outro ponto de interesse da minha pesquisa consiste em compreender melhor a relação do mutum-do-sudeste com o meio em que ele está inserido. Nesse sentido, venho analisando a influência de variáveis ambientais sobre modelos de ocupação com detecção imperfeita. Aqui já não me interessa descobrir a melhor distribuição probabilística, pois tenho motivos teóricos para me assegurar com certa tranquilidade de que se trata de uma combinação de funções binomiais, uma vez que as variáveis são binárias (presente/ausente; detectado/não-detectado). Segundo estes modelos, a probabilidade de se registrar um indivíduo (ou cluster) em determinado ponto amostral é igual à probabilidade deste ponto estar ocupado (psi), multiplicada pela probabilidade do observador detecta-lo (p) em cada ocasião de amostragem (Mackenzie et al., 2002). Teoricamente, tanto a ocupação quanto a detecção podem ser influenciados por variáveis ambientais como a distância a corpos d’água e à borda do fragmento, densidade do subosque, entre outras. Tais hipóteses podem ser confrontadas entre si a partir de modelos lineares generalizados (GLMs) em que o parâmetro p da distribuição binomial não é constante, mas varia em função dessas variáveis ambientais segundo uma função de ligação logística p = exp(logito)/(1+exp(logito)). Esses modelos têm seus parâmetros estimados por verossimilhança a partir dos dados e são ranqueados pelo Critério de Akaike. Embora o processo pareça idêntico ao apresentado anteriormente, o foco neste caso não está na função em si ou em qualquer variável resposta que ele possa prever, mas sim nas variáveis explicatórias que a definem. A inferência pode se dar tanto em nível de modelo, interpretando os resultados biológicos dos modelos mais plausíveis, como em nível de variável, somando os pesos de todos os modelos que contem cada variável explicatória para identificar as mais importantes na seleção do habitat pelo mutum. Além disso, o valor da constante a1 na função logito = a0 + a1*x é o que determina se a variável explicatória x influencia o parâmetro p da binomial positivamente ou negativamente (Figura 2). Em outras palavras, se esta variável aumenta ou reduz a probabilidade de ocupação e/ou detecção.
Figura 2 – Exemplo de situação em que a variável x influencia positivamente a ocupação (psi), descrita por uma função logística. Caso fosse uma variável com efeito negativo sobre psi, a função logito apresentaria inclinação contrária, bem como a sua função logística correspondente.
Referências bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Buckland, S.T et al., 1993. Distance Sampling: Estimating abundance of biological populations. Chapman & Hall, 446 p.
Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
IBAMA, 2004. Plano de Ação para a conservação do mutum-do-sudeste Crax blumenbachii. IBAMA/MMA: Brasília. 50p.
Mackenzie, D.I.; Nichols, J.D.; Lachman, G.B.; Droege, S.; Royle, J.A.; Langtimm, C.A., 2002. Estimating site occupancy rates when detection probabilities are less than one. Ecology, 83:2248–2255
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Araujo, J.C.B. 2014. Inferência por verossimilhança: duas abordagens distintas no estudo de uma população de mutum-do-sudeste. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.