Diferenças

Aqui você vê as diferenças entre duas revisões dessa página.

--- historico:2014:ensaios:actis [2014/10/23 23:26] – [AIC] actispamela
+++ historico:2014:ensaios:actis [2022/11/24 14:12] (atual) – edição externa 127.0.0.1
@@ Linha 1: / Linha 1: @@
+====Em busca da distribuição dos dados, método de máxima verossimilhança e o método de Akaike====
+====Pamela Soledad Actis====
+*Universidad Estadual de Santa Cruz
+*actispamela@gmail.com
+====Sincronia da respiração em cetáceos====
+Dentre diversos padrões comportamentais que os cetáceos apresentam, o sincronismo dentro dos grupos possui diversas particularidades. O termo sincrônico tipicamente inclui animais em proximidade uns de outros, realizando o mesmo comportamento no mesmo tempo (FELLNER et al., 2006).
+No meu trabalho de maestria, pretendo estudar a sincronia da respiração dentro de duplas de Sotalia guianensis (Boto-cinza).  A sincronia foi registrada com filmagens de grupos de golfinhos, que posteriormente foram analisadas.
+Neste trabalho a variável dependente é o tempo transcorrido em décimas de segundos desde que o primeiro golfinho da dupla respira, até a respiração do segundo animal (intervalo.resp).
+Uns dos primeiros passos depois da coleta de dados, é encontrar a distribuição da variável dependente, para depois continuar com a seleção de variáveis que podem influir na sincronia.
+====Verossimilhança====
+Uma vez que se têm uma observação, é possível calcular o quão verossímil é uma hipótese e, portanto, ter-se uma medida do quanto ela se aproxima do observado.
+A lei da verossimilhança afirma que a observação X=x é uma evidencia que favorece a hipótese A sobre a hipótese B se e somente se PA(x) > PB(x). Ainda, esta lei postula que a razão dessas probabilidades (razão de verossimilhança) é o valor de evidência em favor de uma das hipóteses. Por tanto a força de evidência indica quantas vezes a Hipótese A é melhor que a hipótese B.
+A função de verossimilhança o produtório das probabilidades atribuídas a cada observação, calcula a verossimilhança de uma dada hipótese e por tanto cada hipótese tem, então, um valor de verossimilhança.  No entanto, como a multiplicação de valores menores que um (probabilidades) gera números muito pequenos muito rapidamente, é uma melhor opção utilizar a log-verossimilhança. Ao transformar estes números à escala logarítmica, a função de verossimilhança passa a ser o somatório do logaritmo das probabilidades atribuídas (Batista 2009).
+====AIC====
+Para a seleção dos modelos é utilizado o Critério de Seleção de Akaike (AIC). O AIC é um estimador da distância de Kullback-Leiber, no qual é uma medida de distância entre a realidade conceitual e o seu modelo aproximado. Essa distância é estimada através da função de máxima verossimilhança (Burnham e Anderson, 2002). Dessa forma, esse critério é uma importante ferramenta na seleção de modelos, indicando o modelo que mais se aproxima do modelo verdadeiro. O AIC é definido pela seguinte expressão:
+AIC = - 2 x ln[L(modelo)] + 2p
+No qual L(modelo) é a função de verossimilhança do modelo e p é o número de parâmetros do modelo. Esse critério é mais seletivo que a log-verossimilhança negativa, pois o AIC penaliza ela pelo número de parâmetros. Essa diferença entre modelos é de fácil interpretação e permite uma rápida comparação e classificação de modelos candidatos. O modelo que obtiver o menor valor do AIC é o que estará mais próximo do modelo real. A seleção de modelo pode ser feita levando em conta a diferença entre AICs dos modelos, sendo que quando a diferença entre os AICs for menor ou igual a 2, ambos são igualmente plausíveis. O peso de evidência, ou seja, quanto um modelo é mais plausível que outro, também pode ser utilizado durante a seleção de modelos (Burnham & Anderson, 2002).
+====Distribuições ====
+A distribuição exponencial é a análoga contínua da distribuição geométrica. Ela pode ser usada para descrever o tempo de espera até a primeira ocorrência de um evento. A exponencial tem um parâmetro, lambda, que representa a taxa de ocorrência   (lambda) (Bolker, 2008).
+A distribuição Weibull também é usada para descrever tempo contínuo de espera até que um evento aconteça. O seu parâmetro de forma define o tipo de memória que ela pode descrever. Se o parâmetro é igual a um, a Weibull reduz-se a uma exponencial e portanto não tem memória, quando o parâmetro de forma é maior que um cria-se um efeito de memória que pode ser interpretada como envelhecimento, e quando o parâmetro de forma é menor do que um temos uma memória que pode descrever mortalidade mais intensa de jovens (Bolker, 2008).
+A variável Gama foi criada como uma extensão da exponencial, para descrever o tempo de espera até que um certo número de eventos ocorram, dada uma taxa constante de ocorrência. Devido à sua flexibilidade, posteriormente foi adotada como modelo heurístico para descrever variáveis com distribuições de probabilidade assimétricas (Bolker, 2008).
+====Script====
+dados<-read.table("C:\\curso modelagem USP\\dados ensaio.txt", sep="\t",dec = ".", header=TRUE)
+str(dados)
+ir = dados$intervalo.resp
+hist(ir,xlim=c(0,max(ir)))
+x = ir
+#weibull
+nllweibull = function(escala,forma,x=ir)
+  -sum(dweibull(x,shape=forma,scale=escala,log=T))
+parag.wei = mle2(nllweibull,start=list(escala=0.5,forma=1))
+coef(parag.wei)
+summary(parag.wei)
+nllweibull.V = Vectorize( nllweibull, c("escala","forma") )
+parag.wei.prof = profile(parag.wei)
+par(mfrow=c(1,2))
+plotprofmle(parag.wei.prof)
+par(mfrow=c(1,1))
+#exponencial
+args(dexp)
+nllexp = function(rate,x=ir)
+  -sum(dexp(x,rate=rate,log=T))
+media = mean(x)
+parag.exp = mle2(nllexp,start=list(rate=(1/media)))
+coef(parag.exp)
+summary(parag.exp)
+nllexp.V = Vectorize( nllexp, c("rate") )
+parag.exp.prof = profile(parag.exp)
+plotprofmle(parag.exp.prof)
+par(mfrow=c(1,1))
+#gamma
+args(dgamma)
+nllgam = function(shape,scale,x=ir)
+  -sum(dgamma(x,shape=shape,scale=scale,log=T))
+media = mean(x)
+var=sd(x)
+sh = ((mean(x))^2)/sd(x)
+parag.gam = mle2(nllgam,start=list(shape=sh,scale=var/media))
+coef(parag.gam)
+summary(parag.gam)
+nllgam.V = Vectorize( nllgam, c("shape","scale") )
+parag.wei.prof = profile(parag.wei)
+par(mfrow=c(1,2))
+plotprofmle(parag.wei.prof)
+par(mfrow=c(1,1))
+# AICc
+AICctab(parag.wei, parag.exp,parag.gam, nobs=length(x), weights = TRUE)
+====Resultado====
+> summary(parag.wei)
+Maximum likelihood estimation
+Call:
+mle2(minuslogl = nllweibull, start = list(escala = 0.5, forma = 1))
+Coefficients:
+       Estimate Std. Error z value     Pr(z)
+escala 4.261629   0.433438  9.8321 < 2.2e-16 ***
+forma  0.546116   0.025781 21.1829 < 2.2e-16 ***
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+-2 log L: 1750.774
+> summary(parag.exp)
+Maximum likelihood estimation
+Call:
+mle2(minuslogl = nllexp, start = list(rate = (1/media)))
+Coefficients:
+      Estimate Std. Error z value     Pr(z)
+rate 0.1668362  0.0089051  18.735 < 2.2e-16 ***
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+-2 log L: 1959.101
+> summary(parag.gam)
+Maximum likelihood estimation
+Call:
+mle2(minuslogl = nllgam, start = list(shape = sh, scale = var/media))
+Coefficients:
+       Estimate Std. Error z value     Pr(z)
+shape  0.415023   0.025426 16.3227 < 2.2e-16 ***
+scale 14.442303   1.488183  9.7047 < 2.2e-16 ***
+---
+Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
+-2 log L: 1690.219
+> AICctab(parag.wei, parag.exp, parag.gam, nobs=length(x), weights = TRUE)
+          dAICc df weight
+parag.gam   0.0 2  1
+parag.wei  60.6 2  <0.001
+parag.exp 266.9 1  <0.001
+Para os dados aqui presentes e entre as Distribuições aqui propostas, a distribuição gamma parece ser a que melhor ajusta os dados do intervalo de tempo entre respirações de duplas de Sotalia guianensis. Já que ela tem o menor valor de log verossimilhança negativa, o menor delta AICc e peso um.
+====Bibliografia====
+  * Item de lista não ordenadaBatista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba
+  * Item de lista não ordenadaBolker, B.M., 2008. Chapter Four: Probability and stochastic distributions for ecological modeling. In: Bolker, B.M., 2008. Ecological Models and Data in R. Princeton : Princeton University Press. pp 139-195. Disponível em: http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
+  * Item de lista não ordenadaBurnham, K. P. & Anderson, D. R. 2002. Model Selection and Multimodal Inference: a Practical Information-theoretic Approach. New York: Springer- Verlag.
+  * Item de lista não ordenadaFellner, W., Bauer, G. B. & Harley, H. E. 2006.Cognitive implications of synchrony in dolphins. A Review. Aquatic Mammals, 32, 511–516
+====Citação====
+Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
+Actis,P.S. 2014. Em busca da distribuição dos dados, por médio do método de máxima verossimilhança e o método de Akaike. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.