BIE5781 - Modelagem Estatística para Ecologia e Recursos Naturais

Tabela de conteúdos

Em busca da distribuição dos dados, método de máxima verossimilhança e o método de Akaike
Pamela Soledad Actis
Sincronia da respiração em cetáceos
Verossimilhança
AIC
Distribuições
Script
Resultado
Bibliografia
Citação

Em busca da distribuição dos dados, método de máxima verossimilhança e o método de Akaike

Pamela Soledad Actis

*Universidad Estadual de Santa Cruz *actispamela@gmail.com

Sincronia da respiração em cetáceos

Dentre diversos padrões comportamentais que os cetáceos apresentam, o sincronismo dentro dos grupos possui diversas particularidades. O termo sincrônico tipicamente inclui animais em proximidade uns de outros, realizando o mesmo comportamento no mesmo tempo (FELLNER et al., 2006). No meu trabalho de maestria, pretendo estudar a sincronia da respiração dentro de duplas de Sotalia guianensis (Boto-cinza). A sincronia foi registrada com filmagens de grupos de golfinhos, que posteriormente foram analisadas. Neste trabalho a variável dependente é o tempo transcorrido em décimas de segundos desde que o primeiro golfinho da dupla respira, até a respiração do segundo animal (intervalo.resp). Uns dos primeiros passos depois da coleta de dados, é encontrar a distribuição da variável dependente, para depois continuar com a seleção de variáveis que podem influir na sincronia.

Verossimilhança

Uma vez que se têm uma observação, é possível calcular o quão verossímil é uma hipótese e, portanto, ter-se uma medida do quanto ela se aproxima do observado. A lei da verossimilhança afirma que a observação X=x é uma evidencia que favorece a hipótese A sobre a hipótese B se e somente se PA(x) > PB(x). Ainda, esta lei postula que a razão dessas probabilidades (razão de verossimilhança) é o valor de evidência em favor de uma das hipóteses. Por tanto a força de evidência indica quantas vezes a Hipótese A é melhor que a hipótese B. A função de verossimilhança o produtório das probabilidades atribuídas a cada observação, calcula a verossimilhança de uma dada hipótese e por tanto cada hipótese tem, então, um valor de verossimilhança. No entanto, como a multiplicação de valores menores que um (probabilidades) gera números muito pequenos muito rapidamente, é uma melhor opção utilizar a log-verossimilhança. Ao transformar estes números à escala logarítmica, a função de verossimilhança passa a ser o somatório do logaritmo das probabilidades atribuídas (Batista 2009).

AIC

Para a seleção dos modelos é utilizado o Critério de Seleção de Akaike (AIC). O AIC é um estimador da distância de Kullback-Leiber, no qual é uma medida de distância entre a realidade conceitual e o seu modelo aproximado. Essa distância é estimada através da função de máxima verossimilhança (Burnham e Anderson, 2002). Dessa forma, esse critério é uma importante ferramenta na seleção de modelos, indicando o modelo que mais se aproxima do modelo verdadeiro. O AIC é definido pela seguinte expressão:

AIC = - 2 x ln[L(modelo)] + 2p

No qual L(modelo) é a função de verossimilhança do modelo e p é o número de parâmetros do modelo. Esse critério é mais seletivo que a log-verossimilhança negativa, pois o AIC penaliza ela pelo número de parâmetros. Essa diferença entre modelos é de fácil interpretação e permite uma rápida comparação e classificação de modelos candidatos. O modelo que obtiver o menor valor do AIC é o que estará mais próximo do modelo real. A seleção de modelo pode ser feita levando em conta a diferença entre AICs dos modelos, sendo que quando a diferença entre os AICs for menor ou igual a 2, ambos são igualmente plausíveis. O peso de evidência, ou seja, quanto um modelo é mais plausível que outro, também pode ser utilizado durante a seleção de modelos (Burnham & Anderson, 2002).

Distribuições

A distribuição exponencial é a análoga contínua da distribuição geométrica. Ela pode ser usada para descrever o tempo de espera até a primeira ocorrência de um evento. A exponencial tem um parâmetro, lambda, que representa a taxa de ocorrência (lambda) (Bolker, 2008).

A distribuição Weibull também é usada para descrever tempo contínuo de espera até que um evento aconteça. O seu parâmetro de forma define o tipo de memória que ela pode descrever. Se o parâmetro é igual a um, a Weibull reduz-se a uma exponencial e portanto não tem memória, quando o parâmetro de forma é maior que um cria-se um efeito de memória que pode ser interpretada como envelhecimento, e quando o parâmetro de forma é menor do que um temos uma memória que pode descrever mortalidade mais intensa de jovens (Bolker, 2008). A variável Gama foi criada como uma extensão da exponencial, para descrever o tempo de espera até que um certo número de eventos ocorram, dada uma taxa constante de ocorrência. Devido à sua flexibilidade, posteriormente foi adotada como modelo heurístico para descrever variáveis com distribuições de probabilidade assimétricas (Bolker, 2008).

Script

dados←read.table(“C:\\curso modelagem USP\\dados ensaio.txt”, sep=“\t”,dec = “.”, header=TRUE) str(dados)

ir = dados$intervalo.resp hist(ir,xlim=c(0,max(ir))) x = ir

#weibull nllweibull = function(escala,forma,x=ir)

sum(dweibull(x,shape=forma,scale=escala,log=T))

parag.wei = mle2(nllweibull,start=list(escala=0.5,forma=1)) coef(parag.wei) summary(parag.wei) nllweibull.V = Vectorize( nllweibull, c(“escala”,“forma”) )

parag.wei.prof = profile(parag.wei) par(mfrow=c(1,2)) plotprofmle(parag.wei.prof) par(mfrow=c(1,1))

#exponencial args(dexp) nllexp = function(rate,x=ir)

sum(dexp(x,rate=rate,log=T))

media = mean(x) parag.exp = mle2(nllexp,start=list(rate=(1/media))) coef(parag.exp) summary(parag.exp) nllexp.V = Vectorize( nllexp, c(“rate”) )

parag.exp.prof = profile(parag.exp) plotprofmle(parag.exp.prof) par(mfrow=c(1,1))

#gamma args(dgamma) nllgam = function(shape,scale,x=ir)

sum(dgamma(x,shape=shape,scale=scale,log=T))

media = mean(x) var=sd(x) sh = ¹⁾^2)/sd(x) parag.gam = mle2(nllgam,start=list(shape=sh,scale=var/media)) coef(parag.gam) summary(parag.gam) nllgam.V = Vectorize( nllgam, c(“shape”,“scale”) )

parag.wei.prof = profile(parag.wei) par(mfrow=c(1,2)) plotprofmle(parag.wei.prof) par(mfrow=c(1,1))

# AICc AICctab(parag.wei, parag.exp,parag.gam, nobs=length(x), weights = TRUE)

Resultado

summary(parag.wei)

Maximum likelihood estimation

Call: mle2(minuslogl = nllweibull, start = list(escala = 0.5, forma = 1))

Coefficients:

     Estimate Std. Error z value     Pr(z)

escala 4.261629 0.433438 9.8321 < 2.2e-16 * forma 0.546116 0.025781 21.1829 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-2 log L: 1750.774

summary(parag.exp)

Maximum likelihood estimation

Call: mle2(minuslogl = nllexp, start = list(rate = (1/media)))

Coefficients:

    Estimate Std. Error z value     Pr(z)

rate 0.1668362 0.0089051 18.735 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 -2 log L: 1959.101 > summary(parag.gam) Maximum likelihood estimation Call: mle2(minuslogl = nllgam, start = list(shape = sh, scale = var/media)) Coefficients: Estimate Std. Error z value Pr(z) shape 0.415023 0.025426 16.3227 < 2.2e-16 * scale 14.442303 1.488183 9.7047 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-2 log L: 1690.219

AICctab(parag.wei, parag.exp, parag.gam, nobs=length(x), weights = TRUE)
        dAICc df weight
parag.gam 0.0 2 1

parag.wei 60.6 2 <0.001 parag.exp 266.9 1 <0.001

Para os dados aqui presentes e entre as Distribuições aqui propostas, a distribuição gamma parece ser a que melhor ajusta os dados do intervalo de tempo entre respirações de duplas de Sotalia guianensis. Já que ela tem o menor valor de log verossimilhança negativa, o menor delta AICc e peso um.

Bibliografia

Item de lista não ordenadaBatista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba
Item de lista não ordenadaBolker, B.M., 2008. Chapter Four: Probability and stochastic distributions for ecological modeling. In: Bolker, B.M., 2008. Ecological Models and Data in R. Princeton : Princeton University Press. pp 139-195. Disponível em: http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
Item de lista não ordenadaBurnham, K. P. & Anderson, D. R. 2002. Model Selection and Multimodal Inference: a Practical Information-theoretic Approach. New York: Springer- Verlag.
Item de lista não ordenadaFellner, W., Bauer, G. B. & Harley, H. E. 2006.Cognitive implications of synchrony in dolphins. A Review. Aquatic Mammals, 32, 511–516

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Actis,P.S. 2014. Em busca da distribuição dos dados, por médio do método de máxima verossimilhança e o método de Akaike. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

¹⁾

mean(x