historico:2014:ensaios:sousa
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
historico:2014:ensaios:sousa [2014/09/21 14:51] – aralphms | historico:2014:ensaios:sousa [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ====== Função de verossimilhança e seleção de modelos no estudo dos padrões de diversidade de culicídeos. ====== | ||
+ | === Antônio Ralph Medeiros de Sousa === | ||
+ | * Pós-graduação em Saúde Pública pela Faculdade de Saúde Pública da Universidade de São Paulo (FSP/USP) | ||
+ | * aralphms@usp.br | ||
+ | ===== A função de verossimilhança e a seleção de modelos ===== | ||
+ | |||
+ | Ao se fazer um experimento ou tomar um conjunto de observações na natureza, busca-se inferir sobre os padrões que podem ter gerado os dados obtidos. A inferência estatística permite que o pesquisador opte por refutar ou aceitar hipóteses a partir das evidências geradas pelos dados (Hilborn & Mangel 1997, Lewin-Koh et al. 2004). | ||
+ | |||
+ | A inferência estatística por verossimilhança é uma abordagem que tem sido usada como alternativa à abordagem frequentista (Hobbs & Hilborn, 2006). Em determinadas situações é possível gerar duas ou mais hipóteses que possam explicar o comportamento de uma variável aleatória X qualquer. Ao se tomar uma observação desta variável pergunta-se: | ||
+ | |||
+ | Para um melhor entendimento, | ||
+ | |||
+ | L (θ|X=x) | ||
+ | |||
+ | ou | ||
+ | |||
+ | L (θ|X=x1) ∙L (θ|X=x2) ∙ ... ∙L (θ|X=xn) para múltiplas observações. | ||
+ | |||
+ | A Estimativa de Máxima Verossimilhança (MLE – Maximum Likelihood Estimate) é obtida pelos valores dos parâmetros da distribuição que melhor se ajustam aos dados observados. Para facilitar os cálculos utiliza-se a log-verossimilhança negativa, esta é obtida pelo negativo do logaritmo natural da função de verossimilhança: | ||
+ | |||
+ | Um pesquisador pode construir diferentes modelos que tentem explicar os padrões observados em seus dados, sendo que cada modelo é construído a partir de uma hipótese que tente elucidar a questão de interesse. Para cada modelo é possível obter o MLE para os parâmetros e posteriormente selecionar o que (ou quais) melhor explique seus dados (Burnham and Anderson, 2002). Ao selecionar um modelo o que possuímos é a informação mais próxima do modelo ou processo real que gerou nossos dados. No mundo real desconhecemos o modelo verdadeiro e os parâmetros de qualquer modelo que melhor aproximem o verdadeiro, o que possuímos são apenas modelos propostos com base em nosso conhecimento sobre o sistema. O critério de informação de Akaike (AIC – Akaike Information Criteria) leva em conta esta perda de informação que há entre um modelo verdadeiro teórico e o modelo proposto (Burnham and Anderson, 2002). Espera-se que quanto maior o número de parâmetros melhor tenda a ser o ajuste no modelo em relação àqueles com menos parâmetros. Uma vez que isto não é considerado na razão de verossimilhança o calculo do AIC tende a penalizar os modelos com maior número de parâmetros, | ||
+ | |||
+ | {{: | ||
+ | |||
+ | sendo K o número de parâmetros do modelo. | ||
+ | |||
+ | A partir do AIC (ou seu ajuste para pequenas amostras - AICc) é possível ranquear os modelos candidatos e selecionar aquele ou aqueles que melhor expliquem seus dados. | ||
+ | |||
+ | ===== A seleção de modelos para estudo dos padrões de diversidade de mosquitos (Diptera: | ||
+ | |||
+ | Em minha pesquisa busco avaliar as variações nos padrões de diversidade de culicídeos em diferentes parques urbanos da cidade de São Paulo. A família Culicidae compreende insetos dípteros popularmente conhecidos como mosquitos, pernilongos, | ||
+ | |||
+ | Com a intensificação do processo de urbanização e as altas taxas de crescimento populacional, | ||
+ | |||
+ | Os parques urbanos podem ser bastante distintos em suas características, | ||
+ | |||
+ | ===== Um exemplo de seleção de modelos que melhor expliquem a variação na composição de espécies.===== | ||
+ | |||
+ | A diversidade beta (β) é a extensão com que as composições de espécies em assembleias de duas ou mais unidades espaciais diferem entre si. Existe uma série de métodos para medir a diversidade β, entre os mais fáceis e intuitivos há os coeficiente de similaridade/ | ||
+ | |||
+ | O índice de dissimilaridade de Sorensen (Sørensen, 1948) entre duas assembleias é obtido por: | ||
+ | |||
+ | βsor = b+c/2a+b+c | ||
+ | |||
+ | Onde, a é o número de espécies comum aos dois locais, b é o número de espécies que ocorre no primeiro mas não no segundo local e c é o número de espécies que ocorre no segundo mas não no primeiro local. Este índice incorpora tanto a rotatividade quanto diferenças na riqueza de espécies (Koleff et al., 2003). Por sua vez, o índice de Simpson (Simpson, 1943) é capaz de descrever a rotatividade sem a influência dos gradientes de riqueza. | ||
+ | |||
+ | βsimp = min(b, | ||
+ | |||
+ | Onde, a,b e c são as mesmas variáveis definidas para o índice de dissimilaridade de Sorensen. | ||
+ | |||
+ | Baselga (2010) mostrou que uma simples subtração do primeiro índice pelo segundo gera o índice de aninhamento (β nestedness), | ||
+ | |||
+ | βnes = (b+c/ | ||
+ | |||
+ | Como exemplo, vamos criar um cenário hipotético no R mostrando como os padrões de rotatividade e aninhamento podem estar associados a diferentes variáveis preditoras. Para tanto, utilizaremos a função de verossimilhança e o critério AIC para seleção dos melhores modelos dentre os propostos. | ||
+ | |||
+ | Primeiro simularemos a localização de cinco parques urbanos. Supondo que desconfiemos que a distância e a diferença entre os tamanhos das áreas sejam boas preditoras para a variação na composição de espécies, vamos mensura-las. | ||
+ | |||
+ | px=c(6, | ||
+ | py=c(7, | ||
+ | rotulos=c(" | ||
+ | plot(px, | ||
+ | text(y=py-0.3, | ||
+ | |||
+ | dist.geo=dist(cbind(px, | ||
+ | dist.geo.v=dist.geo[1: | ||
+ | |||
+ | tam.area=c(50, | ||
+ | d.area=dist(tam.area, | ||
+ | dif.area.v=(d.area[1: | ||
+ | |||
+ | Agora criaremos uma matriz de presença ou ausência de espécies para cada uma das áreas de estudo. | ||
+ | |||
+ | parq1=c(1, | ||
+ | parq2=c(0, | ||
+ | parq3=c(1, | ||
+ | parq4=c(1, | ||
+ | parq5=c(1, | ||
+ | tot.parq=rbind(parq1, | ||
+ | cont.sp=rowSums(tot.parq) ###contando o número de espécies coletadas em cada área | ||
+ | |||
+ | Vamos chamar o pacote Vegan e utilizar a função betadiver para calcular, par a par, os índices de de Sorensen (dissimilaridade) e Simpson, e após iremos subtrair o primeiro pelo segundo para obter o beta nestedness. | ||
+ | |||
+ | library(vegan)### | ||
+ | beta.sor=1-(betadiver(tot.parq, | ||
+ | beta.simp=betadiver(tot.parq, | ||
+ | beta.nes=beta.sor-beta.simp ###" | ||
+ | |||
+ | beta.sor.v=beta.sor[1: | ||
+ | beta.simp.v=beta.simp[1: | ||
+ | beta.nes.v=beta.nes[1: | ||
+ | |||
+ | Com estes dados ajustaremos quatro modelos lineares: variação da composição de espécies como função da distância entre as áreas (mod2), da diferença entre os tamanhos das áreas (mod3) ou de ambas as variáveis (mod4), também um modelo de ausência de efeito (mod1), Utilizaremos a princípio o índice de dissimilaridade de Sorensen como variável resposta. Para isto, chamaremos o pacote bbmle e aplicaremos a função mle2 para obter o melhor ajuste para cada modelo e ICtab para compararmos os AICc’s de cada modelo. | ||
+ | |||
+ | |||
+ | library(bbmle) | ||
+ | |||
+ | mod1.sor=function(m=0.5, | ||
+ | LL.mod1.sor=mle2(mod1.sor) | ||
+ | |||
+ | mod2.sor=function(b0=-1, | ||
+ | { m <- b0+b1*(dist.geo.v) | ||
+ | -sum(dnorm(x=beta.sor.v, | ||
+ | LL.mod2.sor=mle2(mod2.sor) | ||
+ | |||
+ | mod3.sor=function(b0=0, | ||
+ | { m <- b0+b1*(dif.area.v) | ||
+ | -sum(dnorm(x=beta.sor.v, | ||
+ | LL.mod3.sor=mle2(mod3.sor) | ||
+ | |||
+ | mod4.sor=function(b0=-1, | ||
+ | { m <- b0+b1*(dif.area.v)+b2*(dist.geo.v) | ||
+ | -sum(dnorm(x=beta.sor.v, | ||
+ | LL.mod4.sor=mle2(mod4.sor) | ||
+ | |||
+ | ICtab(LL.mod1.sor, | ||
+ | nobs=10, | ||
+ | |||
+ | O “modelo 2” é apontado como o mais plausível. No entanto é possível se testar os mesmos modelos para os outros dois índices que correspondem à rotatividade e aninhamento. | ||
+ | |||
+ | mod1.simp=function(m=0.5, | ||
+ | LL.mod1.simp=mle2(mod1.simp) | ||
+ | mod1.nes=function(m=0.5, | ||
+ | LL.mod1.nes=mle2(mod1.nes) | ||
+ | |||
+ | mod2.simp=function(b0=-1, | ||
+ | { m <- b0+b1*(dist.geo.v) | ||
+ | -sum(dnorm(x=beta.simp.v, | ||
+ | LL.mod2.simp=mle2(mod2.simp) | ||
+ | mod2.nes=function(b0=-1, | ||
+ | { m <- b0+b1*(dist.geo.v) | ||
+ | -sum(dnorm(x=beta.nes.v, | ||
+ | LL.mod2.nes=mle2(mod2.nes) | ||
+ | |||
+ | mod3.simp=function(b0=0, | ||
+ | { m <- b0+b1*(dif.area.v) | ||
+ | -sum(dnorm(x=beta.simp.v, | ||
+ | LL.mod3.simp=mle2(mod3.simp) | ||
+ | mod3.nes=function(b0=2, | ||
+ | { m <- b0+b1*(dif.area.v) | ||
+ | -sum(dnorm(x=beta.nes.v, | ||
+ | LL.mod3.nes=mle2(mod3.nes) | ||
+ | |||
+ | mod4.simp=function(b0=0, | ||
+ | { m <- b0+b1*(dif.area.v)+b2*(dist.geo.v) | ||
+ | -sum(dnorm(x=beta.simp.v, | ||
+ | LL.mod4.simp=mle2(mod4.simp) | ||
+ | mod4.nes=function(b0=0, | ||
+ | { m <- b0+b1*(dif.area.v)+b2*(dist.geo.v) | ||
+ | -sum(dnorm(x=beta.nes.v, | ||
+ | LL.mod4.nes=mle2(mod4.nes) | ||
+ | |||
+ | ICtab(LL.mod1.simp, | ||
+ | ICtab(LL.mod1.nes, | ||
+ | |||
+ | Para a rotatividade o modelo dois continua sendo o mais plausível, já para o aninhamento os modelos 3 e 4 são os mais (e igualmente) plausíveis. Mostrando, segundo nossos dados hipotéticos, | ||
+ | |||
+ | Um simples plot, poderá deixar mais evidente a relação que existe entre as variáveis. | ||
+ | |||
+ | par(mfrow=c(2, | ||
+ | plot(dist.geo.v, | ||
+ | plot(dist.geo.v, | ||
+ | plot(dif.area.v, | ||
+ | plot(px, | ||
+ | text(y=py-0.3, | ||
+ | | ||
+ | Em geral, ao se estudar padrões e diversidade de culicídeos busca-se observar como estes se comportam em diferentes gradientes ambientais, de naturais até urbanos. As respostas a estas alterações podem ser traduzidas em termos de um maior risco de veiculação de patógenos a humanos. Conhecer quais os fatores ambientais que podem promover variações na riqueza, abundância e composição destes insetos pode melhorar a nossa compreensão e predição sobre o risco de veiculação de doenças a população. A abordagem estatística da função de verossimilhança e seleção de modelos ajudará a buscar entre nossas hipóteses aquela que pode ser a melhor explicação para os padrões observados na diversidade de culicídeos, | ||
+ | |||
+ | ===== Referências bibliográficas ===== | ||
+ | |||
+ | Baselga, A. 2010. Partitioning the turnover and nestedness components of beta diversity. Global Ecology and Biogeography. 19(1): | ||
+ | |||
+ | Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. | ||
+ | |||
+ | Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press. | ||
+ | |||
+ | Burnham, K.P. Anderson, D.R. 2002. Model Selection and Multimodel Inference: A Practical-Theoretic Approach, 2nd ed. New York, Springer-Verlag. | ||
+ | |||
+ | Forattini O.P. 2002. Culicidologia Médica, vol 2. São Paulo: EDUSP. | ||
+ | |||
+ | Hilborn, R., Mangel, M., 1997. The ecological detective: confronting models with data, Monographs in population biology. Princeton University Press, Princeton, NJ. | ||
+ | |||
+ | Hobbs, N.T. & Hilborn, R. 2006. Alternatives to statistical hypothesis testing in ecology: A guide to self-teaching. Ecological Applications: | ||
+ | |||
+ | ISA - Instituto Socioambiental. 2008. Parques urbanos municipais de São Paulo: subsídios para a gestão. São Paulo: Instituto Socioambiental. | ||
+ | |||
+ | Koleff, P., Gaston, K. J., & Lennon, J. J. (2003). Measuring beta diversity for presence–absence data. Journal of Animal Ecology: 72(3): 367-382. | ||
+ | |||
+ | Lewin-Koh, N., Taper, M.L., Lele, S.R. 2004. A brief tour of statistical concepts, in: Taper, M.L., Lele, S.R. (Eds.), The Nature of Scientific Evidence: Statistical, | ||
+ | |||
+ | Magurran AE. 2004. Measuring biological diversity. Oxford, UK: Blackwell Publishing. | ||
+ | |||
+ | Simpson, G. G. (1943). Mammals and the nature of continents. American Journal of Science, 241(1): 1-31. | ||
+ | |||
+ | Sørensen T. 1948. A method of establishing groups of equal amplitude in plant sociology based on similarity of species and its application to analyses of the vegetation on Danish commons. Biol. skr. 5: | ||
+ | |||
+ | =====Citação===== | ||
+ | Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: | ||
+ | |||
+ | Medeiros-Sousa, |