Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:actis

Em busca da distribuição dos dados, método de máxima verossimilhança e o método de Akaike

Pamela Soledad Actis

*Universidad Estadual de Santa Cruz *actispamela@gmail.com

Sincronia da respiração em cetáceos

Dentre diversos padrões comportamentais que os cetáceos apresentam, o sincronismo dentro dos grupos possui diversas particularidades. O termo sincrônico tipicamente inclui animais em proximidade uns de outros, realizando o mesmo comportamento no mesmo tempo (FELLNER et al., 2006). No meu trabalho de maestria, pretendo estudar a sincronia da respiração dentro de duplas de Sotalia guianensis (Boto-cinza). A sincronia foi registrada com filmagens de grupos de golfinhos, que posteriormente foram analisadas. Neste trabalho a variável dependente é o tempo transcorrido em décimas de segundos desde que o primeiro golfinho da dupla respira, até a respiração do segundo animal (intervalo.resp). Uns dos primeiros passos depois da coleta de dados, é encontrar a distribuição da variável dependente, para depois continuar com a seleção de variáveis que podem influir na sincronia.

Verossimilhança

Uma vez que se têm uma observação, é possível calcular o quão verossímil é uma hipótese e, portanto, ter-se uma medida do quanto ela se aproxima do observado. A lei da verossimilhança afirma que a observação X=x é uma evidencia que favorece a hipótese A sobre a hipótese B se e somente se PA(x) > PB(x). Ainda, esta lei postula que a razão dessas probabilidades (razão de verossimilhança) é o valor de evidência em favor de uma das hipóteses. Por tanto a força de evidência indica quantas vezes a Hipótese A é melhor que a hipótese B. A função de verossimilhança o produtório das probabilidades atribuídas a cada observação, calcula a verossimilhança de uma dada hipótese e por tanto cada hipótese tem, então, um valor de verossimilhança. No entanto, como a multiplicação de valores menores que um (probabilidades) gera números muito pequenos muito rapidamente, é uma melhor opção utilizar a log-verossimilhança. Ao transformar estes números à escala logarítmica, a função de verossimilhança passa a ser o somatório do logaritmo das probabilidades atribuídas (Batista 2009).

AIC

Para a seleção dos modelos é utilizado o Critério de Seleção de Akaike (AIC). O AIC é um estimador da distância de Kullback-Leiber, no qual é uma medida de distância entre a realidade conceitual e o seu modelo aproximado. Essa distância é estimada através da função de máxima verossimilhança (Burnham e Anderson, 2002). Dessa forma, esse critério é uma importante ferramenta na seleção de modelos, indicando o modelo que mais se aproxima do modelo verdadeiro. O AIC é definido pela seguinte expressão:

AIC = - 2 x ln[L(modelo)] + 2p

No qual L(modelo) é a função de verossimilhança do modelo e p é o número de parâmetros do modelo. Esse critério é mais seletivo que a log-verossimilhança negativa, pois o AIC penaliza ela pelo número de parâmetros. Essa diferença entre modelos é de fácil interpretação e permite uma rápida comparação e classificação de modelos candidatos. O modelo que obtiver o menor valor do AIC é o que estará mais próximo do modelo real. A seleção de modelo pode ser feita levando em conta a diferença entre AICs dos modelos, sendo que quando a diferença entre os AICs for menor ou igual a 2, ambos são igualmente plausíveis. O peso de evidência, ou seja, quanto um modelo é mais plausível que outro, também pode ser utilizado durante a seleção de modelos (Burnham & Anderson, 2002).

Distribuições

A distribuição exponencial é a análoga contínua da distribuição geométrica. Ela pode ser usada para descrever o tempo de espera até a primeira ocorrência de um evento. A exponencial tem um parâmetro, lambda, que representa a taxa de ocorrência (lambda) (Bolker, 2008).

A distribuição Weibull também é usada para descrever tempo contínuo de espera até que um evento aconteça. O seu parâmetro de forma define o tipo de memória que ela pode descrever. Se o parâmetro é igual a um, a Weibull reduz-se a uma exponencial e portanto não tem memória, quando o parâmetro de forma é maior que um cria-se um efeito de memória que pode ser interpretada como envelhecimento, e quando o parâmetro de forma é menor do que um temos uma memória que pode descrever mortalidade mais intensa de jovens (Bolker, 2008). A variável Gama foi criada como uma extensão da exponencial, para descrever o tempo de espera até que um certo número de eventos ocorram, dada uma taxa constante de ocorrência. Devido à sua flexibilidade, posteriormente foi adotada como modelo heurístico para descrever variáveis com distribuições de probabilidade assimétricas (Bolker, 2008).

Script

dados←read.table(“C:\\curso modelagem USP\\dados ensaio.txt”, sep=“\t”,dec = “.”, header=TRUE) str(dados)

ir = dados$intervalo.resp hist(ir,xlim=c(0,max(ir))) x = ir

#weibull nllweibull = function(escala,forma,x=ir)

  1. sum(dweibull(x,shape=forma,scale=escala,log=T))

parag.wei = mle2(nllweibull,start=list(escala=0.5,forma=1)) coef(parag.wei) summary(parag.wei) nllweibull.V = Vectorize( nllweibull, c(“escala”,“forma”) )

parag.wei.prof = profile(parag.wei) par(mfrow=c(1,2)) plotprofmle(parag.wei.prof) par(mfrow=c(1,1))

#exponencial args(dexp) nllexp = function(rate,x=ir)

  1. sum(dexp(x,rate=rate,log=T))

media = mean(x) parag.exp = mle2(nllexp,start=list(rate=(1/media))) coef(parag.exp) summary(parag.exp) nllexp.V = Vectorize( nllexp, c(“rate”) )

parag.exp.prof = profile(parag.exp) plotprofmle(parag.exp.prof) par(mfrow=c(1,1))

#gamma args(dgamma) nllgam = function(shape,scale,x=ir)

  1. sum(dgamma(x,shape=shape,scale=scale,log=T))

media = mean(x) var=sd(x) sh = 1)^2)/sd(x) parag.gam = mle2(nllgam,start=list(shape=sh,scale=var/media)) coef(parag.gam) summary(parag.gam) nllgam.V = Vectorize( nllgam, c(“shape”,“scale”) )

parag.wei.prof = profile(parag.wei) par(mfrow=c(1,2)) plotprofmle(parag.wei.prof) par(mfrow=c(1,1))

# AICc AICctab(parag.wei, parag.exp,parag.gam, nobs=length(x), weights = TRUE)

Resultado

summary(parag.wei)

Maximum likelihood estimation

Call: mle2(minuslogl = nllweibull, start = list(escala = 0.5, forma = 1))

Coefficients:

     Estimate Std. Error z value     Pr(z)    

escala 4.261629 0.433438 9.8321 < 2.2e-16 * forma 0.546116 0.025781 21.1829 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-2 log L: 1750.774

summary(parag.exp)

Maximum likelihood estimation

Call: mle2(minuslogl = nllexp, start = list(rate = (1/media)))

Coefficients:

    Estimate Std. Error z value     Pr(z)    

rate 0.1668362 0.0089051 18.735 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 -2 log L: 1959.101 > summary(parag.gam) Maximum likelihood estimation Call: mle2(minuslogl = nllgam, start = list(shape = sh, scale = var/media)) Coefficients: Estimate Std. Error z value Pr(z) shape 0.415023 0.025426 16.3227 < 2.2e-16 * scale 14.442303 1.488183 9.7047 < 2.2e-16 * — Signif. codes: 0 ‘*’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

-2 log L: 1690.219

AICctab(parag.wei, parag.exp, parag.gam, nobs=length(x), weights = TRUE)
        dAICc df weight

parag.gam 0.0 2 1

parag.wei 60.6 2 <0.001 parag.exp 266.9 1 <0.001

Para os dados aqui presentes e entre as Distribuições aqui propostas, a distribuição gamma parece ser a que melhor ajusta os dados do intervalo de tempo entre respirações de duplas de Sotalia guianensis. Já que ela tem o menor valor de log verossimilhança negativa, o menor delta AICc e peso um.

Bibliografia

  • Item de lista não ordenadaBatista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba
  • Item de lista não ordenadaBolker, B.M., 2008. Chapter Four: Probability and stochastic distributions for ecological modeling. In: Bolker, B.M., 2008. Ecological Models and Data in R. Princeton : Princeton University Press. pp 139-195. Disponível em: http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
  • Item de lista não ordenadaBurnham, K. P. & Anderson, D. R. 2002. Model Selection and Multimodal Inference: a Practical Information-theoretic Approach. New York: Springer- Verlag.
  • Item de lista não ordenadaFellner, W., Bauer, G. B. & Harley, H. E. 2006.Cognitive implications of synchrony in dolphins. A Review. Aquatic Mammals, 32, 511–516

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Actis,P.S. 2014. Em busca da distribuição dos dados, por médio do método de máxima verossimilhança e o método de Akaike. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

1)
mean(x
historico/2014/ensaios/actis.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1