historico:2014:ensaios:sugawara
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
historico:2014:ensaios:sugawara [2014/10/25 05:04] – mauro.sugawara | historico:2014:ensaios:sugawara [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ====== Modelos em macroevolução (ou porque biólogos devem conduzir estudos de biologia) ====== | ||
+ | === Mauro Toshiro Caiuby Sugawara === | ||
+ | |||
+ | * Mestrando no departamento de Ecologia da USP - Lab. de Macroecologia e Macroevolução | ||
+ | |||
+ | *maurotcs@gmail.com | ||
+ | |||
+ | ===== " | ||
+ | Olá! | ||
+ | |||
+ | Como vocês podem ver meu ensaio está bem atrasado. Na verdade, eu estava terminando em cima da hora e quando acabei (~23h20 do dia 24/out) não consegui atualizar a minha página. Fiquei tentando recarregar mas não funcionava, acredito que muitas pessoas estavam fazendo o upload nessa hora. Só agora conseguir atualizar o texto (já tinha colocado uma versão anterior no wiki: Última modificação: | ||
+ | |||
+ | Obrigado | ||
+ | |||
+ | ===== Preâmbulo ===== | ||
+ | |||
+ | A macroevolução é o ramo da biologia evolutiva que estuda os padrões de biodiversidade que ocorrem acima do nível da espécie. Enquanto a microevolução (i.e., ramo da biologia evolutiva que estuda os padrões de biodiversidade dentro da espécie) trata de indivíduos de uma mesma espécie e explica os padrões encontrados em termos de sobrevivência e reprodução diferencial, | ||
+ | |||
+ | Dado a magnitude dos padrões estudados, os trabalhos na área costumam tratar de períodos de milhares de milhões de anos e, em virtude disto, macroevolução é o ramo com abordagem mais histórica dentro de biologia evolutiva. Para poder responder estas questões, os biólogos macroevolutivos dependem fortemente de ajustes e comparações de modelos (outra abordagem com modelos são os estudos com simulações numéricas ou de indivíduo). | ||
+ | |||
+ | Durante muito tempo a macroevolução ficou restrita aos estudos paleontológicos, | ||
+ | |||
+ | Neste ensaio pretendo mostrar a importância de desenvolver as hipóteses antes de se utilizar uma abordagem de ajuste e seleção de modelos. | ||
+ | |||
+ | |||
+ | ===== Função de Verossimilhança e AICc ===== | ||
+ | |||
+ | Antes de mostrar os modelos vou apresentar a Função de Verossimilhança e o AICc, abordagem que irei utilizar nas análises. | ||
+ | |||
+ | Considere uma variável X que pode ser descrita por um modelo com função de densidade probabilística $f_x(x | \theta)$, onde $\theta$ representa os parâmetros que controlam o comportamento de X. Para que possamos estimar a densidade probabilística de uma dada observação X = x seria necessário conhecer quais são os parâmetros da função ($\theta$). Contudo, estes parâmetros não são conhecidos. Na verdade, muitas vezes estes parâmetros são o que se pretende estimar com a pesquisa científica! Queremos saber qual a influência de um dado caracter e a riqueza de espécies ou estimar as taxas de especiação, | ||
+ | |||
+ | Para poder estimar os parâmetros do modelo que melhor se ajustam aos dados coletados utilizamos a função de verossimilhança ($\mathcal{L}$): | ||
+ | |||
+ | $$\mathcal{L} (\theta | X=x) = f_x (\theta | X = x)$$ | ||
+ | |||
+ | Esta função estima o quão verossímil é um modelo e seus respectivos parâmetros, | ||
+ | |||
+ | Para tornar mais palpável, podemos pensar em um baralho com cartas pretas e vermelhas. Podemos considerar duas hipóteses a priori: Ha = cartas pretas e vermelhas ocorrem na mesma proporção ($\theta_a=0.5$); | ||
+ | |||
+ | $$Ha: \mathcal{L} (0.5 | X=6) = 0.828$$ | ||
+ | |||
+ | e | ||
+ | |||
+ | $$Hb: \mathcal{L} (0.75 | X=6) = 0.224$$ | ||
+ | |||
+ | Para poder decidir qual dos parâmetros melhor se ajusta aos dados utilizamos a razão de verossimilhança, | ||
+ | |||
+ | Na prática nunca lidamos com um único valor e a multiplicação ($\mathcal{L} (\theta | X=x_1) \times \mathcal{L} (\theta | X=x_2)\ldots$) de diversos números pequenos rapidamente tende a zero. Para contornar esse problema utilizamos o logaritmo (na base e) da verossimilhança (logLik, do inglês "Log Likelihood" | ||
+ | |||
+ | Uma vez que já se tenha estimado os parâmetros do modelo (os MLE), pode-se comparar o ajuste de diferentes modelos. O método mais comumente utilizado para este fim é o AIC (do inglês " | ||
+ | |||
+ | $AIC = -2 \times logLik + 2 \times k$, | ||
+ | |||
+ | onde k representa o número de parâmetros do modelo. Quanto menor o AIC melhor o modelo. Uma vez calculado o AIC de todos os modelos concorrentes, | ||
+ | |||
+ | $$\delta_i = AIC_i - min(AIC)$$ | ||
+ | |||
+ | Por convenção, | ||
+ | |||
+ | O AIC é sensível a amostras muito pequenas (i.e., número de observações para cada parâmetro do modelo menor do que 40). Portanto, em geral em biologia utilizamos o AIC corrigido para amostras pequenas (AICc): | ||
+ | |||
+ | $AICc = -2 \times logLik + 2 \times k \times \fraq{n}{n-k-1}$, | ||
+ | |||
+ | onde n representa o número de observações. | ||
+ | |||
+ | |||
+ | ===== Modelagem ===== | ||
+ | |||
+ | Neste ensaio utilizei três séries temporais disponíveis no pacote " | ||
+ | |||
+ | Nesta análise pretendo ver a influência dos anéis de crescimento e manchas solares sobre o número de descobertas. Para tanto, vou utilizar modelos de regressão. Estes modelos são muito comuns na estatística frequentista, | ||
+ | |||
+ | **Tabela 1.** Os quatro modelos com melhor ajuste (i.e., diferença de AICc menor ou igual a 2). dAICc, diferença de AICc; k, número de parâmetros. | ||
+ | ^ Modelo | ||
+ | | Y ~ N(a+b*manchas, | ||
+ | | Y ~ N(a*manchasˆb, | ||
+ | | Y ~ N(a+b*manchas+c*aneis, | ||
+ | | Y ~ N(a+b*manchas, | ||
+ | |||
+ | |||
+ | Apenas um dos quatro melhores modelos (i.e., igualmente plausíveis) inclui os anéis de crescimento como variável preditora, enquanto todos os modelos (incluindo o modelo que leva em consideração os anéis) incluem o número de manchas solares. Dessa forma podemos concluir que o efeito do número de manchas solares sobre o número de descobertas é muito mais forte do que o efeito dos anéis de crescimento, | ||
+ | |||
+ | {{ : | ||
+ | **Figura 1.** Relação entre número de descobertas e número de manchas solares entre os anos de 1860 e 1959. A linha vermelha representa o modelo de regressão linear com melhor ajuste. | ||
+ | |||
+ | Além disso, se olharmos para o gráfico do melhor modelo, veremos que mesmo sendo o melhor ele não explica grande parte da variação (Figura 1). Isto é um indicativo de que há um modelo, possivelmente com outras variáveis preditoras (e.g., verba alocada para pesquisas nos três anos anteriores), | ||
+ | |||
+ | |||
+ | ===== Conclusão ===== | ||
+ | |||
+ | Esta abordagem de ajuste e seleção de modelos (explicação detalhada abaixo) possui diversas vantagens, especialmente nos estudos macroevolutivos em que se tem diversas hipóteses concorrentes (Johnson & Omland, 2004), e a interação entre biólogos e pesquisadores de outras áreas com certeza é muito vantajosa. Entretanto, a capacidade de construir modelos rebuscados não deve ficar em primeiro plano. O conhecimento sobre os processos biológicos é imprescindível para a análise adequada dos dados, bem como para a interpretação dos resultados. | ||
+ | |||
+ | "E lembre-se, com grandes poderes, vem grandes responsabilidades..." | ||
+ | |||
+ | Sheldon Cooper. The Bing Bang Theory - The Panty Piñata Polarization (Temp.2, ep.7). | ||
+ | |||
+ | ===== Referências bibliográficas ===== | ||
+ | Johnson, J. B. & K. S. Omland, 2004. Model selection in ecology and evolution. Trends in Ecology & Evolution 19: | ||
+ | |||
+ | Quental, T. B. & C. R. Marshall, 2009. Extinction during evolutionary radiations: reconciling the fossil record with molecular phylogenies. Evolution 63: | ||
+ | |||
+ | Silvestro, D., J. Schnitzler, L. H. Liow, A. Antonelli & N. Salamin, 2014. Bayesian estimation of speciation and extinction from incomplete fossil occurrence data. Systematic biology 63(3): 349-367. | ||
+ | |||
+ | |||
+ | ===== Citação ===== | ||
+ | Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: | ||
+ | |||
+ | Sugawara, M.T.C. 2014. Modelos em macroevolução (ou porque biólogos devem conduzir estudos de biologia). In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http:// | ||
+ | |||
+ | |||
+ | ===== Código ===== | ||
+ | < | ||
+ | data(discoveries) | ||
+ | data(sunspot.year) | ||
+ | data(treering) | ||
+ | dados <- data.frame(matrix(data=NA, | ||
+ | colnames(dados) <- c(" | ||
+ | dados$Ano <- 1860:1959 | ||
+ | dados$Descobertas <- discoveries | ||
+ | dados$ManchasSolares <- sunspot.year[160: | ||
+ | dados$AnelCresc <- treering[7861: | ||
+ | dados | ||
+ | # MODELOS | ||
+ | require(bbmle) | ||
+ | nLLlinear1 <- function(a=5, | ||
+ | mu <- a + b*dados$ManchasSolares | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear1 <- mle2(nLLlinear1)) | ||
+ | nLLlinear2 <- function(a=5, | ||
+ | mu <- a + b*dados$ManchasSolares | ||
+ | sigma <- z * dados$ManchasSolares^w | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear2 <- mle2(nLLlinear2)) | ||
+ | nLLlinear3 <- function(a=1, | ||
+ | mu <- a * dados$ManchasSolares^b | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear3 <- mle2(nLLlinear3)) | ||
+ | nLLlinear4 <- function(a=5, | ||
+ | mu <- a * dados$ManchasSolares^b | ||
+ | sigma <- z * dados$ManchasSolares^w | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear4 <- mle2(nLLlinear4)) | ||
+ | nLLlinear5 <- function(a=5, | ||
+ | mu <- a + b*dados$AnelCresc | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear5 <- mle2(nLLlinear5)) | ||
+ | nLLlinear6 <- function(a=5, | ||
+ | mu <- a + b*dados$AnelCresc | ||
+ | sigma <- z * dados$ManchasSolares^w | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear6 <- mle2(nLLlinear6)) | ||
+ | nLLlinear7 <- function(a=5, | ||
+ | mu <- a * dados$AnelCresc^b | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear7 <- mle2(nLLlinear7)) | ||
+ | nLLlinear8 <- function(a=5, | ||
+ | mu <- a + b*dados$ManchasSolares + c*dados$AnelCresc | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear8 <- mle2(nLLlinear8)) | ||
+ | nLLlinear9 <- function(a=5, | ||
+ | mu <- a + b*dados$ManchasSolares + c*dados$AnelCresc | ||
+ | sigma <- z * dados$ManchasSolares^w | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | linear9 <- mle2(nLLlinear9) | ||
+ | linear9 | ||
+ | nLLlinear10 <- function(a=5, | ||
+ | mu <- a + b*dados$ManchasSolares + c*dados$AnelCresc | ||
+ | sigma <- z * dados$AnelCresc^w | ||
+ | -sum(dnorm(x=dados$Descobertas, | ||
+ | } | ||
+ | (linear10 <- mle2(nLLlinear10)) | ||
+ | # tabela com o aic | ||
+ | aic <- AICctab(linear1, | ||
+ | plot(x=dados$ManchasSolares, | ||
+ | abline(a=coef(linear1)[1], | ||
+ | </ |