Tabela de conteúdos
Em busca da distribuição dos dados, método de máxima verossimilhança e o método de Akaike
Pamela Soledad Actis
*Universidad Estadual de Santa Cruz *actispamela@gmail.com
Sincronia da respiração em cetáceos
Dentre diversos padrões comportamentais que os cetáceos apresentam, o sincronismo dentro dos grupos possui diversas particularidades. O termo sincrônico tipicamente inclui animais em proximidade uns de outros, realizando o mesmo comportamento no mesmo tempo (FELLNER et al., 2006). No meu trabalho de maestria, pretendo estudar a sincronia da respiração dentro de duplas de Sotalia guianensis (Boto-cinza). A sincronia foi registrada com filmagens de grupos de golfinhos, que posteriormente foram analisadas. Neste trabalho a variável dependente é o tempo transcorrido em décimas de segundos desde que o primeiro golfinho da dupla respira, até a respiração do segundo animal (intervalo.resp). Uns dos primeiros passos depois da coleta de dados, é encontrar a distribuição da variável dependente, para depois continuar com a seleção de variáveis que podem influir na sincronia.
Verossimilhança
Uma vez que se têm uma observação, é possível calcular o quão verossímil é uma hipótese e, portanto, ter-se uma medida do quanto ela se aproxima do observado. A lei da verossimilhança afirma que a observação X=x é uma evidencia que favorece a hipótese A sobre a hipótese B se e somente se PA(x) > PB(x). Ainda, esta lei postula que a razão dessas probabilidades (razão de verossimilhança) é o valor de evidência em favor de uma das hipóteses. Por tanto a força de evidência indica quantas vezes a Hipótese A é melhor que a hipótese B. A função de verossimilhança o produtório das probabilidades atribuídas a cada observação, calcula a verossimilhança de uma dada hipótese e por tanto cada hipótese tem, então, um valor de verossimilhança. No entanto, como a multiplicação de valores menores que um (probabilidades) gera números muito pequenos muito rapidamente, é uma melhor opção utilizar a log-verossimilhança. Ao transformar estes números à escala logarítmica, a função de verossimilhança passa a ser o somatório do logaritmo das probabilidades atribuídas (Batista 2009).
AIC
Para a seleção dos modelos é utilizado o Critério de Seleção de Akaike (AIC). O AIC é um estimador da distância de Kullback-Leiber, no qual é uma medida de distância entre a realidade conceitual e o seu modelo aproximado. Essa distância é estimada através da função de máxima verossimilhança (Burnham e Anderson, 2002). Dessa forma, esse critério é uma importante ferramenta na seleção de modelos, indicando o modelo que mais se aproxima do modelo verdadeiro. O AIC é definido pela seguinte expressão:
AIC = - 2 x ln[L(modelo)] + 2p
No qual L(modelo) é a função de verossimilhança do modelo e p é o número de parâmetros do modelo. Esse critério é mais seletivo que a log-verossimilhança negativa, pois o AIC penaliza ela pelo número de parâmetros. Essa diferença entre modelos é de fácil interpretação e permite uma rápida comparação e classificação de modelos candidatos. O modelo que obtiver o menor valor do AIC é o que estará mais próximo do modelo real. A seleção de modelo pode ser feita levando em conta a diferença entre AICs dos modelos, sendo que quando a diferença entre os AICs for menor ou igual a 2, ambos são igualmente plausíveis. O peso de evidência, ou seja, quanto um modelo é mais plausível que outro, também pode ser utilizado durante a seleção de modelos (Burnham & Anderson, 2002).
Distribuições
A distribuição exponencial é a análoga contínua da distribuição geométrica. Ela pode ser usada para descrever o tempo de espera até a primeira ocorrência de um evento. A exponencial tem um parâmetro, lambda, que representa a taxa de ocorrência (lambda) (Bolker, 2008).
A distribuição Weibull também é usada para descrever tempo contínuo de espera até que um evento aconteça. O seu parâmetro de forma define o tipo de memória que ela pode descrever. Se o parâmetro é igual a um, a Weibull reduz-se a uma exponencial e portanto não tem memória, quando o parâmetro de forma é maior que um cria-se um efeito de memória que pode ser interpretada como envelhecimento, e quando o parâmetro de forma é menor do que um temos uma memória que pode descrever mortalidade mais intensa de jovens (Bolker, 2008). A variável Gama foi criada como uma extensão da exponencial, para descrever o tempo de espera até que um certo número de eventos ocorram, dada uma taxa constante de ocorrência. Devido à sua flexibilidade, posteriormente foi adotada como modelo heurístico para descrever variáveis com distribuições de probabilidade assimétricas (Bolker, 2008).
Script
dados←read.table(“C:\\curso modelagem USP\\dados ensaio.txt”, sep=“\t”,dec = “.”, header=TRUE) str(dados)
ir = dados$intervalo.resp hist(ir,xlim=c(0,max(ir))) x = ir
#weibull nllweibull = function(escala,forma,x=ir)
- sum(dweibull(x,shape=forma,scale=escala,log=T))
parag.wei = mle2(nllweibull,start=list(escala=0.5,forma=1)) coef(parag.wei) summary(parag.wei) nllweibull.V = Vectorize( nllweibull, c(“escala”,“forma”) )
parag.wei.prof = profile(parag.wei) par(mfrow=c(1,2)) plotprofmle(parag.wei.prof) par(mfrow=c(1,1))
#exponencial args(dexp) nllexp = function(rate,x=ir)
- sum(dexp(x,rate=rate,log=T))
media = mean(x) parag.exp = mle2(nllexp,start=list(rate=(1/media))) coef(parag.exp) summary(parag.exp) nllexp.V = Vectorize( nllexp, c(“rate”) )
parag.exp.prof = profile(parag.exp) plotprofmle(parag.exp.prof) par(mfrow=c(1,1))
#gamma args(dgamma) nllgam = function(shape,scale,x=ir)
- sum(dgamma(x,shape=shape,scale=scale,log=T))
media = mean(x) var=sd(x) sh = 1)^2)/sd(x) parag.gam = mle2(nllgam,start=list(shape=sh,scale=var/media)) coef(parag.gam) summary(parag.gam) nllgam.V = Vectorize( nllgam, c(“shape”,“scale”) )
parag.wei.prof = profile(parag.wei) par(mfrow=c(1,2)) plotprofmle(parag.wei.prof) par(mfrow=c(1,1))
# AICc AICctab(parag.wei, parag.exp,parag.gam, nobs=length(x), weights = TRUE)
Resultado
summary(parag.wei)
Maximum likelihood estimation
Call: mle2(minuslogl = nllweibull, start = list(escala = 0.5, forma = 1))
Coefficients:
Estimate Std. Error z value Pr(z)
escala 4.261629 0.433438 9.8321 < 2.2e-16 * forma 0.546116 0.025781 21.1829 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-2 log L: 1750.774
summary(parag.exp)
Maximum likelihood estimation
Call: mle2(minuslogl = nllexp, start = list(rate = (1/media)))
Coefficients:
Estimate Std. Error z value Pr(z)
rate 0.1668362 0.0089051 18.735 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 -2 log L: 1959.101 > summary(parag.gam) Maximum likelihood estimation Call: mle2(minuslogl = nllgam, start = list(shape = sh, scale = var/media)) Coefficients: Estimate Std. Error z value Pr(z) shape 0.415023 0.025426 16.3227 < 2.2e-16 * scale 14.442303 1.488183 9.7047 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
-2 log L: 1690.219
AICctab(parag.wei, parag.exp, parag.gam, nobs=length(x), weights = TRUE)dAICc df weightparag.gam 0.0 2 1
parag.wei 60.6 2 <0.001 parag.exp 266.9 1 <0.001
Para os dados aqui presentes e entre as Distribuições aqui propostas, a distribuição gamma parece ser a que melhor ajusta os dados do intervalo de tempo entre respirações de duplas de Sotalia guianensis. Já que ela tem o menor valor de log verossimilhança negativa, o menor delta AICc e peso um.
Bibliografia
- Item de lista não ordenadaBatista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba
- Item de lista não ordenadaBolker, B.M., 2008. Chapter Four: Probability and stochastic distributions for ecological modeling. In: Bolker, B.M., 2008. Ecological Models and Data in R. Princeton : Princeton University Press. pp 139-195. Disponível em: http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
- Item de lista não ordenadaBurnham, K. P. & Anderson, D. R. 2002. Model Selection and Multimodal Inference: a Practical Information-theoretic Approach. New York: Springer- Verlag.
- Item de lista não ordenadaFellner, W., Bauer, G. B. & Harley, H. E. 2006.Cognitive implications of synchrony in dolphins. A Review. Aquatic Mammals, 32, 511–516
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Actis,P.S. 2014. Em busca da distribuição dos dados, por médio do método de máxima verossimilhança e o método de Akaike. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.