Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:ramos

O uso da abordagem por verossimilhança para descrição do comportamento de aves e sua vantagem sobre a estatística frequentista

Danielle C. T. L. Ramos

* PPG em Ecologia e Biodiversidade, Departamento de Ecologia, UNESP-Rio Claro

* daniellectlr@gmail.com

Uma das características mais atraentes da natureza é sua diversidade. Padrões, interações, formas de vida, estruturas, tudo varia. Torna-se, então, prioritário para as ciências da vida descrever essa variação e entender como ela é criada e mantida. Neste ensaio, revisarei como descrever variações pela a abordagem por verossimilhança utilizando como exemplo o comportamento de voo de aves. Discutirei primeiramente as desvantagens do uso da estatística frequentista para descrever padrões da natureza e porque a abordagem por verossimilhança é mais adequada para isso. Posteriormente explicarei alguns passos do ajuste de modelos pela abordagem por verossimilhança.

As desvantagens do uso da estatística frequentista nas ciências da vida

A estatística frequentista é baseada no Teorema Central do Limite (Batista, 2009), o qual demonstra que médias de amostras independentes tomadas de uma mesma distribuição tendem para uma distribuição normal. A média desta normal é a mesma da distribuição de onde vieram as amostras, e a variância é igual à variância da distribuição original, dividida pelo tamanho das amostras. Essa abordagem é adequada para análise de repetições do processo de amostragem, ao qual está atribuído um ruído específico. Ao fazer medições com ferramentas, por exemplo, incluímos no valor medido o erro da ferramenta utilizada. Ao repetir as medidas e calcular uma média, podemos alcançar um valor mais preciso.

Os métodos da estatística frequentista têm sido amplamente utilizados por pesquisadores para descrever variações da natureza em função das médias e variâncias. No entanto, frequentemente é coletada apenas uma amostra e admite-se que seu espaço amostral atende a uma distribuição normal ou usam-se técnicas de transformação para que esse pressuposto seja atendido (Batista, 2009). Além disso, valores diferentes da média são interpretados como erros, indesejáveis na elaboração de conclusões (Bolker, 2008).

Tal abordagem na maioria dos casos é artificial e inadequada para inferências nas ciências da vida (Batista, 2009). Isso porque diferenças de valores obtidos de um espaço estocástico resultam de processos ecológicos que devem ser compreendidos. Melhor do que buscar um valor médio de dados é compreender como está organizada sua variação. Por exemplo, se em um estudo sobre palmito contabilizarmos o número de plântulas por área provavelmente encontraremos uma grande quantidade de áreas de baixa densidade de plântulas e raras áreas com densidades mais altas. Ao analisarmos a distribuição desses resultados em si, e não como originados de um mundo teórico normal, podemos visualizar padrões agregados de tais plântulas e buscar suas possíveis causas, como o comportamento de animais dispersores ou características bióticas e abióticas das áreas amostradas.

Descrevendo o comportamento de aves pela abordagem por verossimilhança

Uma forma de compreender quantitativamente essa variância é pelo uso de funções e distribuições das probabilidades dos eventos mensurados no conjunto de dados amostrais, ou seja, modelos matemáticos. Para obter um modelo adequado, selecionamos distribuições de probabilidades de acordo com suas propriedades e com os mecanismos por trás delas, estimamos parâmetros dos dados e contrastamos diferentes modelos plausíveis. Estimar os parâmetros de um modelo requer encontrar aqueles que melhor ajustam o modelo aos dados (Bolker, 2008). Para comparar modelos temos que decidir qual se ajusta melhor aos eventos observados (Bolker, 2008). Uma métrica objetiva da qualidade do ajuste é a baseada em verossimilhança, a probabilidade de observar um conjunto de dados coletados dado um modelo particular (Burnham & Anderson, 2002; Bolker, 2008).

Para compreendermos melhor esses métodos detalharei eles utilizando o comportamento de movimento de aves. Os histogramas abaixo representam as probabilidades de ocorrência de eventos resultantes de um estudo de quantificação dos intervalo de pouso e de voo de aves:

ensaio_hist.jpeg

Dadas as características e origem desses resultados, podemos listar as distribuições exponencial e gamma como plausíveis para descrevê-los. Ambas distribuições representam o tempo de espera até que um certo número de eventos ocorram. Construímos, então, as funções com os parâmetros de máxima verossimilhança que melhor se ajustam aos dados, representadas a seguir:

ensaio_hist_exp_gamma.jpeg

As linhas azuis correspondem às funções exponenciais e as vermelhas às gamma. Podemos assim calcular os valores de verossimilhança ou, no caso, de log-verossimilhança de cada modelo. Para os intervalos de pouso, os valores de log-verossimilhança foram de -192.05 (g.l. = 1) para o modelo exponencial e de -184.97 (g.l. = 2) para o modelo gamma. No caso dos intervalo de voo, os valores foram de -234.49 (g.l. = 1) e de -234.25 (g.l. = 2), respectivamente. Podemos admitir a partir desses resultados que a distribuição gamma se ajusta melhor aos dados de intervalo de pouso, mas os valores de log-verossimilhança dos modelos para o intervalo de voo são muito próximos para permitir aceitar apenas um deles.

Outra forma de comparar modelos concorrentes é através de critérios de informação. Um dos mais utilizados hoje na ecologia e outras ciências da vida é o Critério de Akaike (AIC). O AIC é uma estimativa da informação perdida quando um modelo é usado para se aproximar da realidade (informação de Kullback–Leibler) (Burnham & Anderson, 2002; Johnson & Omland, 2004). Além de ser uma forma rápida e de fácil interpretação para comparar modelos, o AIC corrige a log-verossimilhança penalizando funções com maior quantidade de parâmetros (Burnham & Anderson, 2002; Bolker, 2008). Seguem abaixo os valores de AIC para os modelos de movimentação de aves:

Modelos de intervalo de pouso dAIC g.l. peso
Exponencial 0.0 1 0.68
Gamma 1.5 2 0.32
Modelos de intervalo de voo dAIC g.l. peso
Gamma 0.0 1 0.998
Exponencial 12.2 2 0.002

Menores valores de AIC representam modelos mais plausíveis. Na tabela acima, dAIC é a diferença entre os valores de AIC dos modelos em relação ao menor valor de AIC calculado. Como essa diferença foi muito pequena para os modelos de intervalo de pouso (menor que 2), ambas distribuições são igualmente plausíveis. Já no caso do intervalo de voo, a distribuição gamma descreveu melhor os dados observados.

Considerações finais

O uso da abordagem por verossimilhança para descrever a variação dos sistemas naturais é vantajosa sobre a estatística frequentista por permitir a discussão de um cenário mais próximo do real. Essa visualização do comportamento das diferentes medidas de uma amostra permite inferir sobre os processos ecológicos causais. No exemplo discorrido ao longo do texto, por exemplo, percebemos restrições a voos muito longo, que pode ser resultado de limites fisiológicos, busca por menores chances de predação ou economia de energia na busca de recursos mais próximos. Esses métodos ampliam as possibilidades de análises e uso de dadose apresentam maior potencial para solução de questões ecológicas.

Scripts

##Carregando os dados de tempo de pouso e tempo de voo

tpouso = c(116,523,109,27,698,58,71,24,15,10,147,78,24,43,79,58,27,158,16,72,29,17,21,49,48,17,9,12,21,66,19,47,24,139,20,24,62,21,7,199,74,41,18,2)
tvoo = c(3,2,1,67,3,57,154,2,3,3,15,1,1,5,5,3,5,2,10,5,2,5,114,36,6,5,7,19,12,141,4,53,45,2,23,2,1,1,24,5,4,11,1,1,5,22,1,2,7)

##Plotando as probabilidades dos dados observados

par(mfrow=c(1,2))
hist(tpouso, breaks = 40, xlab = "Tempo de Pouso (s)", prob = TRUE, ylab = "Probabilidade", main = NULL)
hist(tvoo,breaks = 40, xlab = "Tempo de Voo (s)", prob = TRUE, ylab = "Probabilidade", main = NULL)
par(mfrow=c(1,1))

##Distribuições plausiveis: exponencia e gamma

##Ajustando os modelos plausiveis aos dados de tempo de pouso e tempo de voo

#Tempo de pouso
library(bbmle)

nLL.exp_pouso <- function(taxa){
  -sum(dexp(tpouso,rate=taxa, log=T))
}

escala_pouso <- var(tpouso)/mean(tpouso)
forma_pouso <- mean(tpouso)/escala_pouso
nLL.gamma_pouso <- function(forma, escala){
  -sum(dgamma(tpouso,shape = forma, scale = escala, log=T))
}

mle.exp_pouso <- mle2(nLL.exp_pouso, start=list(taxa=1/mean(tpouso)))
mle.gamma_pouso <- mle2(nLL.gamma_pouso, start=list(forma=forma_pouso, escala=escala_pouso))

f.exp_pouso <- function(x) dexp(x, rate = 1/mean(tpouso))
f.gamma_pouso <- function(x)  dgamma(x=x, shape = forma_pouso, scale = escala_pouso)

hist(tpouso, breaks = 40, xlab = "Tempo de Pouso (s)", prob = TRUE, ylab = "Probabilidade", main = NULL)
curve(f.exp_pouso(x), add=TRUE, col = "blue")
curve(f.gamma_pouso(x), add=TRUE, col = "red")

#Tempo de voo
nLL.exp_voo <- function(taxa){
  -sum(dexp(tvoo,rate=taxa, log=T))
}

escala_voo <- var(tvoo)/mean(tvoo)
forma_voo <- mean(tvoo)/escala_voo
nLL.gamma_voo <- function(forma, escala){
  -sum(dgamma(tvoo,shape = forma, scale = escala, log=T))
}

mle.exp_voo <- mle2(nLL.exp_voo, start=list(taxa=1/mean(tvoo)))
mle.gamma_voo <- mle2(nLL.gamma_voo, start=list(forma=forma_voo, escala=escala_voo))

f.exp_voo <- function(x) dexp(x, rate = 1/mean(tvoo))
f.gamma_voo <- function(x)  dgamma(x=x, shape = forma_voo, scale = escala_voo)

hist(tvoo, breaks = 40, xlab = "Tempo de voo (s)", prob = TRUE, ylab = "Probabilidade", main = NULL)
curve(f.exp_voo(x), add=TRUE, col = "blue")
curve(f.gamma_voo(x), add=TRUE, col = "red")

##Analisando as verossimilhanças dos ajustes

logLik(mle.exp_pouso)
logLik(mle.gamma_pouso)

logLik(mle.exp_voo)
logLik(mle.gamma_voo)

##Selecionando os melhores modelos por AIC

AICtab(mle.exp_pouso,mle.gamma_pouso, delta=T, sort=T, weights = TRUE)
AICtab(mle.exp_voo,mle.gamma_voo, delta=T, sort=T, weights = TRUE)

Referências bibliográficas

Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.

Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.

Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.

Johnson, J.B. & Omland, K.S. 2004. Model selection in ecology and evolution. TRENDS in Ecology and Evolution 19(2):101-108.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Ramos, D. 2014. O uso da abordagem por verossimilhança para descrição do comportamento de aves e sua vantagem sobre a estatística frequentista. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

historico/2014/ensaios/ramos.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1