Tabela de conteúdos
Ensaios de 2012
Seleção de modelos para análise de dados de invasões biológicas
Enrico Frigeri
Introdução
Invasões biológicas, consideradas uma das maiores ameaças à biodiversidade (McGeoch et al., 2010), vem aumentando acompanhando o ritmo da expansão das atividades e dos deslocamentos do homem no mundo (Hulme, 2009). O cachorro doméstico é um bom exemplo de uma espécie que se espalhou pelo mundo inteiro acompanhando as migrações humanas. Hoje é o carnívoro mais abundante no mundo (Vanak e Gompper, 2010), e tem invadido áreas de vegetação nativa, causando impactos negativos à fauna silvestre através da predação, competição e transmissão de doenças (Clout, 1995).
Apesar destes impactos, pouco se sabe sobre as características físicas e comportamentais dos cães que invadem estes ambientes, as características espaciais e temporais destas invasões e quais os fatores que influenciam o número e a frequência de visitas de cães a estes fragmentos, todas informações importantes para mitigar tal ameaça. Nesse contexto, parte de meu mestrado pretende investigar se o sexo dos animais influencia em sua capacidade de deslocamento e se a distância entre a residência do animal e os fragmentos florestais influencia no número de registros dos animais dentro dos fragmentos. Acredito que machos possuem maior capacidade de deslocamento e que animais que moram próximos aos fragmentos serão registrados mais frequentemente em seu interior. Para verificar tais hipóteses eu utilizava a abordagem frequentista, porém, após cursar a disciplina, ficou claro que a análise feita estava incorreta. Dessa forma, passei a analisar os dados com a abordagem da seleção de modelos. Neste ensaio faço uma comparação entre os resultados obtidos com as duas formas de análise, dando maior enfoque na análise feita com seleção de modelos.
Análise e Resultados utilizando Estatística Frequentista
Para verificar se a capacidade de deslocamento dos cães é influenciada pelo sexo dos indivíduos, utilizei uma ANOVA e testes de randomização. Similarmente, para verificar se o número de registro dos cães aos fragmentos é influenciado pela distância do fragmento ao domicilio de origem utilizei uma regressão linear simples e testes de randomização. Ressalto que após cursar a disciplina de modelagem, percebi que esta análise está incorreta visto que regressões lineares simples devem ser realizadas apenas quando os dados são contínuos e seguem uma distribuição Gaussiana, no entanto, meus dados são discretos e seguem uma distribuição Poisson.
Os resultados das análises com a abordagem frequentistas evidenciaram que a capacidade de deslocamento não é influenciada pelo sexo do animal (p=0,1), machos deslocaram-se entre 331 m e 1950 m (X=692 m, DP=378 m, N=19), e fêmeas entre 174 m e 1860 m (X=683 m, DP=557 m, N=11). Da mesma forma, o número de visitas dos cães aos fragmentos não é influenciado pela distância da residência ao fragmento (p=0,13).
Análise e Resultados utilizando a Seleção de Modelos
Ao contrário da abordagem frequentista que confronta uma hipótese nula com uma alternativa, a abordagem da seleção de modelos confronta com os dados, simultaneamente, diversas hipóteses competidoras (Johnson & Omland, 2004). Para tal, é importante ressaltar que os modelos que serão confrontados devem representar hipóteses com significado biológico (Johnson & Omland, 2004). Dessa forma, a escolha tanto das variáveis dos modelos quanto da distribuição matemática mais adequada para descrever a relação entre a variável dependente e as independentes devem ser cuidadosas (Burnham & Anderson, 2002; Johnson & Omland, 2004). Nesta abordagem, os melhores modelos são aqueles que possuem os menores valores de log- verossimilhança negativa (Batista, 2009).
Neste estudo, a distribuição Gaussiana foi escolhida para descrever a relação entre a capacidade de deslocamento e o sexo dos animais. Escolheu-se esta distribuição visto que a variável dependente (capacidade de deslocamento) é contínua e possivelmente é simétrica em torno de uma média. Já para avaliar a influência da distância da residência ao fragmento no número de registros de cães foi escolhida a distribuição Poisson. A distribuição Poisson é ideal para descrever contagens de eventos distribuídos aleatoriamente no tempo ou espaço (Burnham & Anderson, 2002; Crawley, 2007), como, por exemplo, neste caso: o número de indivíduos registrados nos fragmentos. Outra distribuição bastante utilizada para dados de contagem é a Binomial Negativa, porém esta distribuição é adequada para contagens de eventos não aleatórios (Bolker, 2008). Uma forma de diagnóstico rápido para verificar se os dados seguem ou uma distribuição Poisson ou Binomial Negativa é dividir a variância dos dados pela média, se o valor resultante for maior do que 1 é um indício de que os dados seguem uma distribuição Binomial Negativa (Bolker, 2008). No meu caso, os dados de contagem de indivíduos dentro dos fragmentos seguem uma distribuição Poisson (verificado tanto por este diagnóstico rápido quanto pela construção e comparação de modelos Poisson e Binomiais Negativos).
Após a escolha da distribuição e das variáveis, através do Programa R (R.2.11.0, The R Foundation for Statistical Computing. 2008, Viena, Áustria) foram construídos dois conjuntos de modelos candidatos. O primeiro conjunto visava verificar se o sexo dos cães influência em sua capacidade de deslocamento e o segundo conjunto se a distância entre a residência de origem e o fragmento onde o animal foi registrado influência na quantidade de registros do mesmo. Para tanto, o primeiro conjunto de modelos candidatos incluiu um modelo constante, onde ambos os parâmetros da distribuição Gaussiana, média (µ) e desvio padrão (δ), foram mantidos constantes e um modelo onde a capacidade de deslocamento foi modelada em função do sexo dos animais (µ variou com o sexo e δ foi constante). Já o segundo conjunto de modelos candidatos incluiu um modelo constante, onde o parâmetro da distribuição Poisson, lambda (λ), foi mantido constante e outro modelo onde o número de registros dos animais nos fragmentos foi modelado em função da distância entre o fragmento e a residência (λ variou com a distância). O melhor modelo de cada conjunto é aquele que possuir menor valor do Critério de Informação de Akaike corrigido para amostras pequenas (AICc) (Burnham & Anderson, 2002), o qual é calculado a partir do número de parâmetros e da log-verossimilhança negativa do modelo (Burnham & Anderson, 2002; Batista, 2009):
AICc= -2*(log veros. negativa) + 2*K*(n/[n-K-1])
onde “K” é o número de parâmetros do modelo e “n” o número de observações.
Como pode se perceber pela fórmula, modelos com um grande número de parâmetros são mais penalizados que modelos com poucos parâmetros (Bolker, 2008). Dessa forma, entre dois modelos que possuem igual valor de verossimilhança opta-se pelo modelo com o menor número de parâmetros, respeitando assim o Princípio da Parsimônia (Batista, 2009). A plausibilidade de um modelo em relação a outro é estimada pela diferença entre os valores de AICc, sendo que ΔAICc≤ 2 indicam modelos igualmente plausíveis (Burnham & Anderson, 2002). Neste trabalho, o modelo constante foi selecionado em ambas as seleções (Tabela 1 e 2):
Tabela 1: Seleção de modelos para investigar a influência do sexo na capacidade de deslocamento. Os modelos estão ordenados a partir do mais plausível (do menor para o maior valor de AICc). Para cada modelo, informa-se o parâmetro modelado, o número de parâmetros (K), a estimativa de máxima log-verossimilhança negativa(Log-likelihood), o Critério de Informação de Akaike para amostras pequenas (AICc), a diferença entre o AICc do modelo considerado e do melhor modelo (ΔAICc), o peso de evidência (Wi).
Modelos | Parâmetro modelado | K | Log-likelihood | AICc | ΔAICc | Wi |
---|---|---|---|---|---|---|
Constante (sem co-variáveis) | - | 2 | -245,661 | 495,7 | 0 | 0,739 |
Sexo | µ | 3 | -245,49 | 497,8 | 2,1 | 0,261 |
Tabela 2: Seleção de modelos para investigar a influência da distância entre a residência e o fragmento na quantidade de registro dos indivíduos. Os modelos estão ordenados a partir do mais plausível (do menor para o maior valor de AICc). Para cada modelo, informa-se o parâmetro modelado, o número de parâmetros (K), a estimativa de máxima log-verossimilhança negativa (Log-likelihood), o Critério de Informação de Akaike para amostras pequenas (AICc), a diferença entre o AICc do modelo considerado e do melhor modelo (ΔAICc), o peso de evidência (Wi).
Modelos | Parâmetro modelado | K | Log-likelihood | AICc | ΔAICc | Wi |
---|---|---|---|---|---|---|
Constante (sem co-variáveis) | - | 1 | -48,064 | 98,3 | 0 | 0,736 |
Distância residência ao frag. | λ | 2 | -48,003 | 100,4 | 2,1 | 0,264 |
Comparação entre as duas formas de análises
De maneira geral os resultados obtidos com as duas análises foram semelhantes, apesar de conceitualmente a análise feita com a abordagem frequentista estar incorreta. Ao contrário do esperado, o sexo dos cães não influenciou a capacidade de deslocamento dos mesmos. Possivelmente, a facilidade de deslocamento, consequente da alta proporção de matriz na paisagem, a proximidade entre as residências e os fragmentos florestais e a constante presença humana nos fragmentos favorecem que cães independentemente do sexo se desloquem até as áreas de vegetação nativa. Da mesma forma, a distância das residências aos fragmentos não influenciou a quantidade de registros dos cães, o que também pode ser devido à facilidade de deslocamento, visto que mesmo cães que moram distantes dos fragmentos podem se deslocar facilmente pela paisagem e acessar as áreas naturais. É importante ressaltar que parece existir uma tendência tanto de aumento no número de visitas para os cães que moram mais próximos aos fragmentos, quanto de maior deslocamento para cães machos, porém tal tendência não foi significativa (ΔAIC>2). Talvez com um maior número de observações esta tendência se torne significativa.
Neste ensaio escolhi apenas uma das parte de meu mestrado que utiliza a seleção de modelos como forma de análise, no entanto, esta metodologia é abrangente e pode ser aplicada a diversos contextos (Johnson & Omland, 2004). Dessa forma, a metodologia também será utilizada, posteriormente, para: (1) verificar a importância relativa de determinados fatores que podem influenciar a abundância de cães dentro dos fragmentos, (2) verificar se a capacidade de deslocamento dos animais é influenciada por suas idades e (3) verificar a importância relativa de caracteristicas da paisagem que podem influenciar a abundância de cães dentro de agroflorestas.
Referências Bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
Clout, M. 1995. Introduced species: the greatest threat to biodiversity? Species, 24:34-36.
Crawley, M.J. 2007. The R Book. New York, Wiley.
Hulme, P.E. 2009. Trade, transport and trouble: managing invasive species pathways in an era of globalization. Journal of Applied Ecology, 46: 10–18.
Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10
McGeoch, M.A., Butchart, S.H.M., Spear, D., Marais, E., Kleynhans, E. J., Symes, A., Chanson, J., Hoffmann, M. 2010. Global indicators of biological invasion: species numbers, biodiversity impact and policy responses. Diversity and Distributions, 16:95–108.
Vanak, A. T. & Gompper, M. E. 2010. Interference competition at the landscape level: the effect of free-ranging dogs on a native mesocarnivore. Journal of Applied Ecology, 47:1225–1232.
Seleção de modelos de substituição de nucleotídeos
Carlos Henrique Tonhatti
Distância genética entre sequências
Forças evolutivas agem sobre as sequências de DNA. Como resultado, as sequências mudam ao longo do tempo. A mudança mais simples é substituição de um nucleotídeo por outro em um dado sítio da sequência“. Portanto, duas sequências quaisquer que derivem de um ancestral comum e que tenham evoluído independentemente podem divergir na constituição de seus nucleotídeos. A medida desta divergência é chamada de distância genética. Esta quantidade tem um papel importante na análise das sequências. A distância genética provê uma medida de similaridade entre as sequências e se supusermos o “relógio molecular” a distância genética é linearmente proporcional ao tempo passado desde a divergência entre as sequências. Deste modo, se a distância genética entre todos os pares de um conjunto de sequências for conhecida é possível inferir a árvore evolutiva relacionando as sequências na qual o comprimento dos ramos indicará os tempos de divergência (Lemey,2009).
O modo mais simples de medir a distância genética entre duas sequências de DNA alinhadas é contar o número de sítios que elas diferem. Esta distância genética observada normalmente é chamada de distância p e ela vai ser igual a distância genética real quando o tempo de divergência entre as sequências for pequeno ou o número de sítios for muito grande pois a chance de ocorrer duas mutações no mesmo sitio é muito pequena (teoria dos sítios infinitos). Quando essas condições não estão presentes é necessário utilizar um modelo de substituição de nucleotídeos e a assim estimar a distância genética esperada $d$ dada a distância observada $p$ (Lemey,2009).
A substituição dos nucleotídeos em uma sequência é normalmente modelada como um evento aleatório. Deste modo, um importante pré-requisito para calcular a distância genética é a especificação de um modelo de substituição de nucleotídeo o qual possa prover uma descrição estatística do processo. Uma vez especificado o modelo é possível estimar a distância genética a partir dos dados (Lemey,2009).
Estimando a distância genética
Como exposto acima a distância genética não pode ser observada diretamente. Deste modo, para inferir esta quantidade a partir dos dados é necessário usar métodos de verossimilhança máxima. Neste contexto, a contagem de mutações que ocorreram durante um dado tempo pode ser modelada como uma distribuição Poisson com a formula.
$$P_(n)(t) = [(mu t)^n exp(-mu t )]/{n!}$$
onde o número de mutações $n$ no tempo $t$ é dado em função da taxa de mutação multiplicada pelo tempo ($\mu t$).
Um modo mais geral é modelar como um processo de Markov o qual tem os seguintes pressupostos:
1- Em qualquer sítio dado em uma sequência, a taxa de mudança da base $$i$$ para a base $$j$$ é independente da base que ocupava o sítio antes de $$i$$. 2- A taxa de substituição não muda com o tempo. 3- As frequências relativas das bases estão em equilíbrio.
Este processo é modelado por uma matriz Qa qual especifica a taxa relativa de mudança de cada nucleotídeo. Em sua forma mais geral Q tem 4 linhas e 4 colunas seguindo a mesma sequência de nucleotídeos (ex A,T,G,C) e seus elementos são as taxas instantâneas de substituição multiplicadas pela taxa de mutação e pela frequência daquele nucleotídeo . Deste modo cada elemento que não esteja na diagonal representa a fluxo de nucleotídeos $$i=>j$$ enquanto que os elementos na diagonal são escolhidos de forma que a soma de cada linha seja igual a zero (Lemey,2009).
$$[(-mu(a pi_(C)+b pi_(G)+c pi_(T)), a mu pi_(C),b mu pi_(G), c mu pi_(T)), ( g mu pi_(A),-mu(g pi_(A)+d pi_(G)+e pi_(T)),d mu pi_(G), e mu pi_(T)), ( h mu pi_(A),i mu pi_(C),-mu(h pi_(A)+i pi_(C)+f pi_(T)), f mu pi_(T)), ( j mu pi_(A),k mu pi_(C),l mu pi_(G), -mu(j pi_(A)+k pi_(C)+l pi_(G)))]$$
Assim com a matriz Q definida a contagem de mutações pode ser modelada com a fórmula:
$$P_(t)=exp(**Q** t )$$
Porém para definir a matriz Q é necessário especificar o modelo de substituição de nucleotídeos. Cada modelo de substituição tem pressupostos diferentes sobre as taxas de substituição e portanto define uma matriz Q diferente. O modelo mais simples é o modelo de Jukes Cantor que pressupõe que as frequências das quatro bases sejam iguais e que a chance de um sítio mudar é a mesma para todos os nucleotídeos (Lemey,2009). A matriz Q deste modelo é dada por:
$$[(-3/4 mu , 1/4 mu , 1/4 mu , 1/4 mu), (1/4 mu , -3/4 mu , 1/4 mu , 1/4 mu), (1/4 mu , 1/4 mu , -3/4 mu , 1/4 mu), (1/4 mu , 1/4 mu , 1/4 mu , -3/4 mu)]$$
Analiticamente usando o modelo de Jukes Cantor com a matriz Q acima a distância genética esperada $$d$$ pode ser estimada a partir de distância observada $$p$$ pela equação:
$$d=-3/4 ln(1- 4/3 p)$$
Como cada modelo especifica uma matriz Q diferente cada um tem uma solução diferente para $$d$$.
Selecionando modelos
Como visto, a seleção de um modelo de substituição de nucleotídeos é um passo fundamental para estimar a distância genética entre duas sequências de DNA. Para ter confiança em um modelo é necessário utilizar um método confiável de seleção do melhor modelo possível. O melhor modelo será aquele que melhor se ajustar os dados. Deste modo, o método de seleção deve comparar a “bondade do ajuste” (goodness of fit) dos modelos aos dados (Posada,1998). Para fazer esta comparação podemos usar vários métodos. O método mais tradicional é o teste da razão das verossimilhanças $$delta = 2 log Lambda$$,sendo:
$$Lambda = (max[L_(0)(modelo " n u l o " | dados)])/ (max[L_(1)(modelo " a l t e r n a t i v o" |dados)])$$
onde $$L_(0)$$ é a verossimilhança sobre a hipótese nula (modelo mais simples) e $$L_(1)$$ a verossimilhança sobre hipótese alternativa (modelo mais complexo, com mais parâmetros). Quando os modelos comparados são aninhados ( a hipótese nula é um caso especial da hipótese alternativa, e a hipótese nula é correta a estatística $$delta$$ é assintoticamente distribuída como $$Chi^2$$ com $$q$$ graus de liberdade, onde $$q$$ é a diferença no número de paramentos livres entre os dois modelos. Para preservar o aninhamento dos modelos as notas são estimadas usando o mesmo conjunto de dados e então os modelos são comparados. A figura abaixo descreve a estratégia utilizada para fazer o teste da razão das verossimilhanças hierarquizado (hLRT) para modelos de substituição aninhados. Quando os modelos não são aninhados uma alternativa é gerar uma distribuição nula da estatística $$delta$$ usando a simulação de Monte Carlo (Posada,1998).
Outro método de comparar diferentes modelos sem a necessidade que estes estejam aninhados é usando o critério de informação de Akaike (AIC). Este critério é uma medida útil que premia o modelo que mais se ajusta ao dados mas penaliza pelos parâmetros desnecessários. Se $$L$$ é o valor da função de verossimilhança máxima para um modelo específico usando $$n$$ parâmetros independentes então: $$AIC =-2ln L +2n$$. Os menores valores de AIC indicam os melhores modelos (Posada,1998).
Das estratégias existentes para seleção de modelos o uso do AIC ou de métodos Bayesianos são mais eficientes que a razão de verossimilhanças pois lidam com modelos aninhados e não aninhados, consideram a incerteza na seleção de modelos e permitem a inferência model-averaged(Posada,2004).
Relevância para minha pesquisa
Desde o mestrado trabalho com genética de populações. Meu principal interesse é inferir quais os processos que geraram os padrões de variação presentes hoje. Assim é necessário primeiramente descrever o padrão observado. Para descrever a variação é necessário medir o quanto cada indivíduo ou população se difere dos outros. Dentre as medidas de divergência e estruturação a medida de distância genética é fundamental. Como a medida da distância genética entre as populações e supondo-se uma taxa de mutação constante ao longo do tempo (“relógio molecular”) é possível estimar o tempo de divergência entre as populações e assim correlacionar com outros fatores como alterações geomorfológicas. Por trabalhar com populações que, supostamente, divergiram a pouco tempo não haveria necessidade de utilizar a seleção de modelos para estimar a real distância genética mas trabalhos recentes de genética de populações vêm utilizando a seleção de modelos de substituição de nucleotídeos para estimar com mais precisão a distância genética entre as sequências (Zane,2006)(Russel,2005).
De um modo geral a seleção de modelos de substituição de nucleotídeos é parte fundamental nos trabalhos de estimação de filogenias que utilizam métodos de reconstrução baseados em distância genética (Lemey2009). O uso de um ou outro modelo influência muitas, senão todas, as etapas da inferência filogenética (Posada,2004). Assim, é possível dizer que os métodos filogenéticos são menos precisos quando o modelo usado é incorreto (Posada,2004).
Bibliografia
Lemey, P., Salemi M.,Vandamme A. M. The Phylogenetic Handbook. Cambridge University Press, 2a edição (2009).
Posada, D. & Crandall, K. A. Bioinformatics applications note. 14, 817–818 (1998).
Posada, D. & Buckley, T. R. Model selection and model averaging in phylogenetics: advantages of akaike information criterion and bayesian approaches over likelihood ratio tests. Systematic biology 53, 793–808 (2004).
Russell, a L., Medellín, R. a & McCracken, G. F. Genetic variation and migration in the Mexican free-tailed bat (Tadarida brasiliensis mexicana). Molecular ecology 14, 2207–22 (2005).
Zane, L. et al. Demographic history and population structure of the Antarctic silverfish Pleuragramma antarcticum. Molecular ecology 15, 4499–511 (2006).
Estudo de caso sobre a Fauna Silvestre Brasileira em uma distribuição Poisson, relacionando dados de um órgão governamental do Estado de São Paulo, com os números de espécimes apreendidos em um determinado período
Mario Cobucci Neto
No ensaio final de modelagem estatística do ano de 2012, foi abordado algumas observações feitas para as distribuições discretas, e com isso foi possível dar atenção para apenas uma distribuição que se encaixa melhor nos parâmetros dos dados do problema.
O objeto deste estudo é a fauna silvestre brasileira, onde a relação é sobre os dados coletados através de um questionário, com parâmetros temporais e quantitativos/Que são os anos que estes espécimes foram apreendidos (das classes de aves, mamíferos e répteis) e suas quantidades/Assim tenho o número de ocorrências em um determinado intervalo de tempo.
Antes de demonstrar um porque da escolha da distribuição vou dar uma breve explanada em outras distribuições que mereceram atenção, mas não foram usadas, estas veêm de uma tentativa do autor de interpretar e resumir ao máximo a teorização, observando o diagrama das distribuições, no slide de distribuições probabilística contínua e assim facilitando a escolha.
A distribuição Gaussiana foi a segunda opção a ser escolhida neste trabalho por ter desvio padrão Ó e média µ,com possibilidades de serem calculados os parâmetros do trabalho, com variáveis aleatórias independentes e identicamente distribuídas, porém não aborda a escala temporal por isso não foi utilizada/A distribuição Weibull com dois parâmetros, escala ß e forma γ, com valores maiores que zero, podendo ter um terceiro parâmetro de locação, com variáveis aleatórias identicamente distribuídas, parece não se encaixar primeiramente nos dados do trabalho devido a falta de inserção de escala temporal/A distribuição Binomial não apresentou significância nestes dados já que são melhores a serem utilizadas para respostas binárias, de repente se eu fosse usar uma porcentagem de animais que sobreviveram ou não, em determinado ano, esta poderia ser uma distribuição mais plausível para este caso/A distribuição de Bernoulli é discreta e contêm dois valores possíveis, por isto neste dado não seria adequado, mas se fosse julgar se determinado lugar proporciona condições de sobrevivência a espécie ou não, este seria uma opção/A distribuição Geométrica não me parece eficiente porque prevalece na teoria em resumo, a necessidade de ter números de fracasso até o primeiro sucesso, os dados que tenho são quantitativos e não necessitam de um anterior para acontecer, porém se fosse usado para óbitos de animais até um sobreviver, por exemplo, em mãos de criadouros este seria possível de utilizar/E a distribuição Gamma com parâmetros de forma e escala, ambos maiores que zero com taxa γ=1/b parece não ser totalmente adequada a estes dados secundários que são maiores que zero, mas sem escala temporal.
A distribuição Poisson é a mais plausível porque nos parâmetros destes dados se encontram a quantidade de animais apreendidos em determinado tempo/O método de coleta de dados foi realizado na polícia militar ambiental do Estado de São Paulo, com dados dos anos de 1999-2010/Assim tenho um intervalo de tempo determinado com um número de apreensões de animais.
Ano/Espécimes apreendidos 1999,13.110 2000,9.615 2001,17.551 2002,18.767 2003,23.617 2004,18.217 2005,25.111 2006,30.216 2007,29.002 2008,32.147 2009,26.200 2010,23.596 Tabela 1. Animais Silvestres apreendidos por ano no Estado de São Paulo;fonte: Polícia Militar Ambiental do Estado de São Paulo
Linguagem no programa R
R version 2.15.1 (2012-06-22) -- "Roasted Marshmallows" Copyright (C) 2012/The R Foundation for Statistical Computing ISBN 3-900051-07-0 Platform: x86_64-pc-mingw32/x64 (64-bit) R é um software livre e vem sem GARANTIA ALGUMA/Você pode redistribuí-lo sob certas circunstâncias.Digite 'license()' ou 'licence()' para detalhes de distribuição/R é um projeto colaborativo com muitos contribuidores.Digite 'contributors()' para obter mais informações 'citation()' para saber como citar o R ou pacotes do R em publicações/Digite 'demo()' para demonstrações, 'help()' para o sistema on-line de ajuda,ou 'help.start()' para abrir o sistema de ajuda em HTML no seu navegador.Digite 'q()' para sair do R.
MODELO POISSON SEM VARIAVEIS PREDITORAS
> library(bbmle) > library(MASS) > set.seed (33000)# estimativa máxima de indivíduos da fauna que poderiam ser apreendidos. > nplan<-32147 # valor máximo de indivíduos da fauna apreendidos > lambda=10 > animais<-rpois(nplan,lambda) # nplan = número de plantas; substituído por nanimais. > dpois(0,lambda) [1] 4.539993e-05 > sum(animais==0)/length(animais) [1] 6.22142e-05 > manim <- max(animais) > fa<-factor(animais, levels=0:manim) > prob.obs<-table(fa)/nplan > par(las=1) + > plot(0:manim,prob.obs, xlab="Numero de animais",ylab="Probabilidade", type="h", lwd=5) > prob.tr <- dpois(0:manim, lambda) > points(0:manim,prob.tr, pch=21, col="red") log=TRUE))}x" > -sum(dpois(x, lambda, log=TRUE)) [1] Inf There were 50 or more warnings (use warnings() to see the first 50) > }> Erro: '}' inesperado em "}" > ) LLest" Erro: ')' inesperado em ")" > xvec <- seq(4.85,5.3, length=1000) > mean(animais) [1] 9.98933
MODELO POISSON COM VARIÁVEIS PREDITORAS
> set.seed(33000) > mort<-runif(1000,0,100) > a= 1 > b=0.8 ## incluída a variável 0.8 sobre mortalidade dos animais apreendidos. > x<-mort > ydet<-exp(a+b*x) > fec<-rpois(100,ydet) > par(las=1) > plot(mort,fec, xlab="Mortalidade", ylab="Número de animais" ) > curve(exp(a+b*x),add=TRUE, col="red") > plot(phos,fec, xlab="Mortalidade", ylab="Número de animais" ) > curve(exp(a+b*x),add=TRUE, col="red")
Referências bibliográficas
Batista, J.L.F. Apostila Verossimilhança e Máxima Verossimilhança. 2009, p 1-27.
Bolker, B. Ecological Models and Data in R.University Princeton and Oxford, 2007.
Ferreira, F.C., Giacomini, H.C. Análise de dados em Ecologia com o programa R, análises exploratórias e estatística básica. 2010.
Prado, P.I. e Batista,J. Modelagem Ecológica de Dados em Ecologia e Recursos Naturais.Slide Distribuições Probabilísticas Contínuas.USP-BIE 5871, 2012, p-34.
Provete, D.B. et al. Estatística Aplicada a Ecologia usando o R. UNESP – Programa de Pós Graduação Biologia Animal. São José do Rio Preto - SP, 2011.
R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.ISBN 3-900051-07-0, URL http://www.R-project.org/, 2012.
Verossimilhança e sua aplicação ao estudo de Cladocera (Crustacea; Branchiopoda) para manejo ambiental
José Roberto Debastiani Júnior
Introdução
Cladóceros são microcrustáceos que apresentam alto número de espécies em águas continentais. Eles são generalizadamente reconhecidos como importantes elos na transferência de energia nas cadeias tróficas aquáticas e, portanto, tem importância ambiental conspícua.
Por sua importância, os cladóceros devem ser levados em consideração em planos de manejo, os quais, em um país em franco desenvolvimento como o Brasil, só são possíveis quando se tem um arcabouço de informações suficientes para suportar a tomada de decisões.
Neste contexto a modelagem estatística por verossimilhança pode ser bastante útil, possibilitando a comparação de diversos cenários baseados nas evidências obtidas a partir das observações em campo.
Verossimilhança
Segundo Edwards (1992), a verossimilhança, L(H|R), de uma hipótese (H) dada uma observação (R) e modelo específicos é proporcional à probabilidade de ocorrer R segundo a hipótese H, sendo a constante de proporcionalidade arbitrária.
Ou seja, uma vez que se têm uma observação, é possível calcular o quão verossímil é uma hipótese e, portanto, ter-se uma medida do quanto ela se aproxima do observado.
A lei de verossimilhança postula que uma hipótese A é mais plausível que uma hipótese B se a probabilidade atribuída ao valor observado for maior em A do que em B. Ainda, esta lei postula que a razão dessas probabilidades (razão de verossimilhança) é o valor de evidência em favor de uma das hipóteses.
A função de verossimilhança é o produtório das probabilidades atribuídas a cada observação. Cada hipótese tem, então, um valor de verossimilhança.
No entanto, como a multiplicação de valores menores que um (probabilidades) gera números muito pequenos muito rapidamente, é uma melhor opção utilizar a log-verossimilhança.
Ao transformar estes números à escala logarítmica, a função de verossimilhança passa a ser o somatório do logaritmo das probabilidades atribuídas.
Aplicação da Verossimilhança
Para alguém que estude os cladóceros em um contexto de manejo é importante saber como as diferentes espécies estão distribuídas no sistema observado. Se existirem casos muito específicos de agregação, nos quais a maioria das espécies ocorra concomitantemente, aquela determinada área pode ser indicada como prioritária a proteção.
Para ter uma evidência da agregação esta pessoa poderia ajustar modelos baseados em distribuições teóricas de probabilidades que indiquem aleatoriedade e agregação, como é o caso da distribuição Poisson e Binomial Negativa, respectivamente.
As distribuições (baseado em Bolker, 2008)
A distribuição Poisson representa o número de eventos contados em uma dada unidade de esforço de contagem, mas somente se eles forem independentes entre si. A Poisson tem um parâmetro, lambda, que representa a taxa de ocorrência do evento na unidade de esforço e que é igual ao número esperado de eventos por unidade de esforço. Esta distribuição tem variância igual a seu valor esperado (lambda), sendo uma boa representante de eventos aleatoriamente distribuídos.
A distribuição Binomial Negativa representa o número de fracassos até que se obtenha um determinado número de sucessos. A parametrização baseada no número de falhas pode ser modificada para ser mais bem utilizada em ecologia. A parametrização mais utilizada substitui p (probabilidade de sucesso por tentativa) e n (número de sucessos para parar de contar) por µ=n(1-p)/p (número médio de falhas até parar = média de contagens em uma amostra) e k que é um parâmetro de dispersão, o qual mede a agregação ou dispersão ou heterogeneidade dos dados.
Como ambas as distribuições acima são discretas (só podem assumir determinados valores) elas são bons pontos de partida para o tipo de dados (contagens) que podem ser obtidos neste caso.
Simulando um exemplo
- Primeiramente, obteremos por simulação dois conjuntos de dados para representar uma situação de agregação e outra de distribuição aleatória. Para tanto, podemos utilizar os recursos computacionais do programa R:
Agregado<- rnbinom(100,size=1,mu=15) Aleatorio<-rpois(100,lambda=15)
Os dois conjuntos de dados têm aproximadamente a mesma média, 15 espécies encontradas (contadas).
- Agora, para cada conjunto de dados, determinamos a função de log-verossimilhança, encontramos os valores de parâmetros que dão o melhor encaixe (máxima verossimilhança ou mínima log-verossimilhança negativa) do modelo aos dados (função “mle2” do pacote “bbmle” do R) e então comparamos o melhor modelo de uma distribuição com o melhor modelo da outra distribuição.
Códigos R:
- Para o conjunto de dados representando uma distribuição agregada:
LogVero.pois.agreg<-function(lam){ -sum(dpois(Agregado,lambda=lam, log=T))} ## Função de log-verossimilhança negativa para o modelo Poisson LogVero.nbin.agreg<-function(media,k){ -sum(dnbinom(Agregado, mu=media, size=k, log=T))} ## Função de log-verossimilhança negativa para o modelo Binomial Negativo Mle.pois.agreg<-mle2(LogVero.pois.agreg, start=list(lam=15)) ## Estimador do melhor valor de parâmetros para o modelo Poisson Mle.nbin.agreg<-mle2(LogVero.nbin.agreg, start=list(media=15, k=1)) ## Estimador do melhor valor de parâmetros para o modelo Binomial Negativo Summary (Mle.pois.agreg) ## Observar o valor de -2 Log L Summary (Mle.nbin.agreg) ## Observar o valor de -2 Log L
O menor valor de Log L (Log-Likelihood) indica qual modelo é mais plausível.
- Para o conjunto de dados representando uma distribuição aleatória, o mesmo procedimento de ser feito, substituindo o conjunto de dados oferecido na função de verossimilhança.
Bibliografia
Bolker, B.M., 2008. Chapter Four: Probability and stochastic distributions for ecological modeling. In: Bolker, B.M., 2008. Ecological Models and Data in R. Princeton : Princeton University Press. pp 139-195. Disponível em: http://www.math.mcmaster.ca/~bolker/emdbook/book.pdf
Edwards, A.W.F., 1992. Likelihood. Baltimore: John Hopkins University Press. 275p.
Resposta do estoque de carbono à perda de vegetação nativa
Isabella Romitelli
Seleção de modelos
A inferência por verossimilhança sobre dados amostrados, quando submetidos a duas hipóteses alternativas no mínimo, obedece a Lei da Verossimilhança. A Lei da Verossimilhança se baseia na Razão da Verossimilhança, que por sua vez mede a força de evidência em favor da hipótese A sobre a hipótese B, quando as duas concorrem sobre determinada observação (x) de uma variável aleatória (X). A evidência que favorece a hipótese A sobre a hipótese B é consistente somente se pA(x) > pB(x) (Batista, 2009).
A análise da divergência ou distância entre as distribuições de probabilidades das duas hipóteses ocorrerem pode ser realizada por diferentes medidas estatísticas como a distância de Hellinger, distância da Variação Total, divergência de Renyi, divergência de Jensen-Shannon e a divergência Kullback-Leibler. A divergência Kullback-Leibler (K-L) em particular trata-se de uma medida entre a realidade conceitual e um modelo aproximado, que adquire maior aptidão ao sofrer o mínimo de perda de informações da realidade conceitual, ou seja, quanto menor for a distância ou medida K-L (Burnham & Anderson, 2001)
Hirotugu Akaike encontrou uma relação formal entre a divergência K-L e a máxima verossimilhança. Esta constatação torna possível combinar estimativa (máxima verossimilhança) e a seleção de modelo no processo de otimização. O critério de Akaike (AIC) contou como média de entropia, a divergência K-L (Burnham & Anderson, 2001). Assim a máxima log-verossimilhança de um modelo proposto é uma estimativa da distância K-L relativa desse modelo. O critério de Akaike engloba a divergência de aproximação e a divergência de estimação entre o modelo verdadeiro e o modelo proposto e é uma correção da máxima log-verossimilhança, estimativa da menor distância relativa possível para o modelo proposto.
O AIC representa a discrepância no ajuste do modelo proposto aos dados. Quanto menor o valor do AIC, melhor o modelo. A diferença de AIC entre modelos propostos trata-se do logaritmo das razões de verossimilhança entre os modelos, penalizando-se os modelos pelo número de parâmetros. Essa diferença entre modelos é de fácil interpretação e permite uma rápida comparação e classificação de modelos candidatos (Burnham & Anderson, 2002).
A seleção de modelo pode ser feita levando em conta a diferença entre AICs dos modelos, sendo que quando a diferença entre os AICs for menor ou igual a 2, ambos são igualmente plausíveis. O peso de evidência, ou seja, quanto um modelo é mais plausível que outro, também pode ser utilizado durante a seleção de modelos (Burnham & Anderson, 2002).
O princípio da parcimônia fornece uma base filosófica para a seleção de modelos e postula que um modelo deve ser tão simples quanto possível, considerando as variáveis incluídas, estrutura, modelo e número de parâmetros (Burnham & Anderson, 2002) (Tabela 1).
Tabela 1. Exemplo de tabela de seleção de modelos com o valor do AIC, o número de parâmetros (k), o (Delta) AIC e peso de evidência.
Modelo | Log-Verossimilhança | k | $$AIC_c$$ | $$\DeltaAIC_c$$ | $$\weight$$ |
---|---|---|---|---|---|
1 | 304,2 | 4 | 304,2 | 0,0 | 0,634 |
2 | 305,3 | 5 | 305,3 | 1,1 | 0,366 |
3 | 326,2 | 4 | 326,2 | 21,9 | < 0,001 |
Sobre seleção de modelos é importante considerar que não se trata de um teste estatístico, ela não mede a qualidade do ajuste e por fim, a seleção de modelos não pode ser usada para comparar modelos ajustados a conjuntos de dados diferentes.
Aplicação em estudos de serviços ecossistêmicos
A seleção de modelos é uma ferramenta para inferência sobre os padrões observados. Pode-se inferir o processo que é mais provável de ter operado para gerar o dado observado. No entanto, algumas inferências tais como a determinação da importância relativa de variáveis de previsão, podem ser realizadas apenas através da análise do conjunto de modelos candidatos.
Seleção de modelos se encontra em ampla implementação na Ecologia e Evolução (Johnson & Omland, 2004). A seleção de modelos em Ecologia de Paisagens tem sido usada principalmente para predição de como populações de vertebrados respondem a perda de habitat e fragmentação (Swihart et al., 2003). Em estudos envolvendo o monitoramento de serviços ecossistêmicos é comum a utilização da inferência por verossimilhança, a fim de avaliar a importância de variáveis como indicadoras dos processos que atuam sobre a disponibilidade e distribuição dos serviços ecossistêmicos (Oudenhoven et al., 2012).
Meu projeto de mestrado visa responder como o estoque de carbono se comporta com a perda de vegetação nativa em fragmentos de Mata Atlântica inseridos em matriz de pastagem e eucalipto. Proponho neste estudo o uso de seleção de modelos para observar como ocorre a queda de estoque de carbono em relação à perda de cobertura vegetacional em fragmentos com gradiente de vegetação nativa variando de 10 a 80% de cobertura. Para investigar a existência de limiares de proporção de floresta, serão comparados os ajustes de modelos lineares com os dados observados com outros modelos que indiquem uma relação não linear, entre esses modelos usarei o exponencial, broken-stick (com diferentes proporções de quebra) e a função inversa (Radford et al., 2005).
Acredito que a mesma abordagem usada pode ser aplicada para outros serviços ecossistêmicos como qualidade da água, polinização e dispersão de sementes, por exemplo. Cada serviço pode responder de diferentes formas a perda de vegetação nativa respondendo melhor a diferentes modelos. Além disso, o limiar de proporção de vegetação pode ocorre em diferentes momentos. Tal estudo se torna complexo devido à particularidade do comportamento de cada serviço, tornando extremamente útil o uso da ferramenta de seleção de modelos em estudos similares.
Referências Bibliográficas
Batista, J.L.F. Apostila Verossimilhança e Máxima Verossimilhança. 2009, p 1-27.
Burnham, K.P. & D.R. Anderson. 2001. Kullback–Leibler information as a basis for strong inference in ecological studies. Wildlife Research, 28: 111-119.
Burnham, K.P. & D.R. Anderson. 2002. Model selection and multimodel inference: A pratical information-Theoric a approach. 2ª Edição. Springer, New York.
Johnson, J.B. & K.S. Omland. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19 (2): 101-108.
van Oudenhoven, A.P.E.; K. Petz; R. Alkemade; R. Hein & R.S. de Groot. 2012. Framework for systematic indicator selection to assess effects of land management on ecosystem services. Ecological Indicators, 21: 110–122.
Radford, J.Q.; A.F. Bennett & G.J. Cheers. 2005. Landscape-level thresholds of habitat cover for woodland-dependent birds. Biological Conservantion, 124: 317-337.
Swihart, R.K.; T.M. Gehring & M.B. Kolozsvary. 2003. Responses of ‘resistant’ vertebrates to habitat loss and fragmentation: the importance of the niche breadth and range boundaries. Diversity and Distribuitions, 9:1-18.
O Princípio da Verossimilhança e a abundância de cipós na Amazônia
Anselmo Nogueira
Verossimilhança e seleção de modelos
O conceito mais interessante que encontrei no curso de modelagem estatística foi o da Lei de Verossimilhança, que implica que a Razão de Verossimilhança PA (x)/ PB (x) mede a força de evidência a favor da hipótese A sobre a hipótese B (Batista, 2009). A comparação direta de duas hipóteses de maneira tão intuitiva e direta (e.g. “A mais pláusivel que B…”) é um dos aspectos mais fortes dessa abordagem, e talvez um dos motivos pelo qual essa abordagem deva ganhar ainda mais força na Ecologia e em outras áreas da Biologia. Esse primeiro conceito somado ao Princípio de Verossimilhança de que funções de verossimilhança idênticas são equivalentes em termos de evidência (Batista, 2009), nos possibilitam comparar diferentes hipóteses com grande liberdade no processo de criação dos modelos estatísticos a serem comparados (criação dos modelos de acordo com hipóteses biológicas relevantes). Essa liberdade é um dos pontos centrais de diferença entre essa abordagem analítica e os testes de significância que são amarrados a um modelo nulo único.
No entanto, a construção de tais modelos (+ coleta do conjunto de dados), e a aplicação dos procedimentos para a obtenção das funções de verossimilhança e dos MLEs podem se tornar complexos, e até mesmo confusos para novos adeptos dessa abordagem. Dentre os principais ‘problemas’ que aparecem dentro dos procedimentos analíticos dessa abordagem estão: (1) como escolher a distribuição probabilística mais adequada; (2) como definir os valores dos parâmetros iniciais; (3) como interpretar se a otimização da função de verossimilhança para estimativa de cada parâmetro correu bem, e finalmente (4) como interpretar os resultados e comparar os modelos. Embora tenhamos discutido todos esses pontos no curso, quando aplicamos esses procedimentos em nossos dados muitas dúvidas novas (e velhas) surgem, mesmo em sistemas simples como o proposto neste estudo de caso. Nesse ensaio eu pretendo apresentar um exemplo da aplicação da abordagem de seleção de modelos pelo princípio da verossimilhança utilizando dados de abundância de lianas distribuídas em diferentes parcelas ao longo do gradiente latitudinal da floresta Amazônica.
Lianas e o gradiente latitudinal na Amazônia
Os gradientes climáticos de sazonalidade e precipitação explicam muito da variação da abundância de lianas nos trópicos (DeWalt et al. 2010). Ao contrário de outros grupos de plantas como ervas e árvores, as lianas tendem a ser mais abundantes em áreas mais sazonais e com menor precipitação anual (DeWalt et al. 2010). Na escala amazônica, a distribuição de lianas deveria estar correlacionada com a latitude, dado que a latitude é um indicador da variação dos fatores climáticos. Sob o pressuposto dessas correlações, nós hipotetizamos que as maiores abundâncias de lianas estariam associadas a áreas mais externas ou limítrofes da Amazônia (i.e., áreas mais sazonais) quando comparadas com áreas mais centrais da Amazônia (i.e., áreas menos sazonais e com climas mais úmidos).
Para a aplicação da abordagem de seleção de modelos, todas as lianas acima de 1 cm de diâmetro foram amostradas em 81 parcelas, em 3 sítios distintos da Amazônia, incluindo um sitio mais ao norte, um sitio central, e um sitio mais ao sul. A pergunta principal do trabalho foi: Qual a relação entre latitude e a abundância de lianas na Amazônia brasileira?
Ao final das análises resumiu-se os resultados na Tabela 1. A abundância de lianas e a latitude foi descrita melhor por uma função quadrática independente do modelo probabilístico empregado nas análises (Figura 1 – mod.7 e mod.5).
Tabela 1 – Resultado da seleção de modelos no qual o modelo mais plausível aparece na primeira linha. Os modelos utilizaram a distribuição probabilítica normal e log-normal, e a abundância de lianas como variável resposta. A variável preditora foi latitude, e a função linear e quadrática foram aplicadas para explicar a variação das lianas em função da latitude. O modelo quadrático neste caso foi nossa hipótese biológica mais interessante dada a literatura ecológica do grupo.
Figura 1 – Relação quadrática da latitude com a abundância de lianas segundo o modelo “mod.7” (distribuição probabilística log.N) e o modelo “mod.5” (distribuição probabilística N).
Segundo os resultados da seleção dos modelos, o modelo probabilístico que mais se adequou aos dados foi o modelo log.normal, no qual a variável preditora “latitude” foi importante para explicar a variação do conjunto de dados de lianas. Nós corroboramos as hipóteses iniciais de que as regiões limítrofes da Amazônia (mais sazonais) tem em média mais lianas do que as porções centrais (menos sazonais), e o modelo quadrático se saiu bem independente da distribuição probabilística aplicada aos dados (modelos “mod.5” e “mod.7”).
Infelizmente o perfil de verossimilhança pareceu confuso principalmente no modelo mais plausível (mod.7), e de maneira geral para os modelos considerando a distribuição probabilística log-normal. Ficou difícil avaliar visualmente se os MLEs são boas estimativas dos parâmetros presentes nesses modelos (Figura 2).
Segue abaixo os comandos do R aplicados para a construção dos modelos, das funções de verossimilhança, perfis, e seleção do modelo mais plausível para o o conjunto de dados de lianas.
Referências bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Dewalt, S.J., S.A. Schnitzer, J. Chave, F. Bongers, R.J. Burnham, Z.Q. Cai, G. Chuyong, D.B. Clark, C.E.N. Ewango, J.J. Gerwing, E. Gortaire, T. Hart, G. Ibarra-Manriquez, K. Ickes, D. Kenfack, M.J. Macia, J.R. Makana, J. Mascaro, M. Martinez-Ramos, S. Moses, H.C. Muller-Landau, M.P.E. Parren, N. Parthasarathy, D.R. Perez-Salicrup, F.E. Putz, H. Romero-Saltos, and D. Thomas (2010). Annual rainfall and seasonality predict pan-tropical patterns of liana density and basal area. Biotropica 42: 309–317.
COMANDOS APLICADOS
# Preparando dados p/ análises: total.rg<-rbind(cotri.abund.rg,ducke.abund.rg,pdb.abund.rg,virua.abund.rg) ncol(total.rg) nrow(total.rg) ## Chamando pacotes importantes para aplicar a abordagem de seleção de modelos: library(bbmle) library(car) library(MASS) set.seed (1234) source("plot-prof-aov.r") #função para obter os perfis de verossilhança/saida gráfica. #DADOS DE LIANAS ACIMA DE 1 CM: total.rg.na<-na.exclude(total.rg) head(total.rg.na) plot(density(total.rg.na[,10])) m<-mean(total.rg.na[,10]) sd<-sd(total.rg.na[,10]) l.m <- log(m) # logaritmo da média (valores iniciais para minimizar a função log-normal) l.sd <-log (sd) # logaritmo do sd (valores iniciais para minimizar a função log-normal) # Testando os dois modelos mais simples # Eles consideram somente a distribuição probabilistica, primeiramente a gaussinana=normal, e o modelo de distribuição log-normal: gauss.1 <- function (m, s) { -sum(dnorm(total.rg.na[,10],m,s,log=TRUE)) } # 1)Escolha o modelo e a função de log-veross. negativa; mod.1 <-mle2 (gauss.1, start=list(m=m,s=sd)) # 2) Minimize a função de log-vero negativa; summary(mod.1); logLik(mod.1) # 3) Vendo resultados m1<-profile(mod.1) plot.prof.aov(m1) log.gauss.1 <- function (m,s) { -sum (dlnorm(total.rg.na[,10],m,s,log=TRUE)) } mod.2 <-mle2 (log.gauss.1,start=list(m=l.m,s=l.sd)) summary(mod.2); logLik(mod.2) m2<-profile(mod.2) plot.prof.aov(m2) # Tabela de AIC p/ selecionar o modelo mais plausivel (neste caso dentre dois): AICtab(mod.1,mod.2,base=TRUE,weights = TRUE,delta=TRUE, sort=TRUE) # Criando modelo que consideram a variável latitude interferindo na estimativa do parâmetro média; relação linear e quadrática, com desvio constante: gauss_linear <- function (a,b,s) { m=a+b*(total.rg.na$Latitude) -sum (dnorm(total.rg.na[,10],mean=m,sd=s,log=TRUE)) } summary(lm(total.rg.na[,10]~total.rg.na$Latitude)) # estimando valores p/ os parametros iniciais! mod.3 <- mle2 (gauss_linear,start=list(a=939,b=31,s=390)) summary(mod.3) m3<-profile(mod.3) plot.prof.aov(m3) gauss_quadratic <- function (a,b,c,s) { m=a+b*(total.rg.na$Latitude)+c*(total.rg.na$Latitude)^2 -sum (dnorm(total.rg.na[,10],mean=m,sd=s,log=TRUE)) } summary(lm(total.rg.na[,10]~total.rg.na$Latitude+I(total.rg.na$Latitude^2))) # estimando valores p/ os parametros iniciais! mod.4 <- mle2(gauss_quadratic,start=list(a=1019,b=113,c=9,s=374)) summary (mod.4);logLik(mod.4) m4<-profile(mod.4) plot.prof.aov(m4) #Tabela de seleção de modelos considerando os 4 primeiros modelos (abund.lianas > 1 cm): AICtab(mod.1,mod.2,mod.3,mod.4,base=T,weights=T,delta=T,sort=T) # Construindo agora modelo que o desvio aumenta com a variação da latitude (além do parâmetro média): gauss_quadratic.2 <- function (a,b,c,d,e) { m= a+b*(total.rg.na$Latitude)+c*(total.rg.na$Latitude)^2 s= exp(d+e*(total.rg.na$Latitude)) -sum(dnorm(total.rg.na[,10],mean=m,sd=s,log=TRUE)) } # Estimando parâmetros iniciais de d e e para início da minimização: var<-c(sd(ducke.abund.rg$abund_total_.1),sd(virua.abund.rg$abund_total_.1),sd(cotri.abund.rg$abund_total_.1)) latit<-c(mean(ducke.abund.rg$Latitude),mean(virua.abund.rg$Latitude),mean(cotri.abund.rg$Latitude)) lm(var~latit) mod.5<-mle2(gauss_quadratic.2,start=list(a=1019,b=113,c=9,d=517,e=25)) summary (mod.5);logLik(mod.5) m5<-profile(mod.5) plot.prof.aov(m5) AICtab(mod.1,mod.2,mod.3,mod.4,mod.5,base=T,weights=T,delta=T,sort=T) ### Agora, criar um modelo com distribuição probabilistica log-normal, e uma função linear e quadrática da log.média em função da latitude: #Log-normal linear: summary(lm(log(total.rg.na[,10])~log(total.rg.na$Latitude+10.823750))) # estimando valores p/ os parametros iniciais! log.gauss.linear <- function (a,b,slog) { mlog <- a+b*log(total.rg.na$Latitude+10.823750) -sum (dlnorm(total.rg.na[,10],mean=mlog,sd=slog,log=TRUE)) } mod.6 <- mle2(log.gauss.linear,start=list(a=6,b=0,slog=1)) summary(mod.6) m6<-profile(mod.6) plot.prof.aov(m6) #Log-normal quadrática: summary(lm(log(total.rg.na[,10])~log(total.rg.na$Latitude+10.823750)+I(log(total.rg.na$Latitude+10.823750)^2))) # estimando valores p/ os parametros iniciais! log.gauss.quadratic <- function (a,b,c,slog) { mlog <- a+b*log(total.rg.na$Latitude+10.823750)+c*((log(total.rg.na$Latitude+10.823750))^2) -sum (dlnorm(total.rg.na[,10],mean=mlog,sd=slog,log=TRUE)) } mod.7 <- mle2(log.gauss.quadratic,start=list(a=6,b=0,c=0,slog=1)) summary(mod.7) m7<-profile(mod.7) plot.prof.aov(m7) #Escolhendo o melhor modelo: AICtab(mod.1,mod.2,mod.3,mod.4,mod.5,mod.6,mod.7,base=T,weights=T,delta=T,sort=T) ###GRÁFICOS das relações entre LATITUDE X ABUNDÂNCIA DE LIANAS: # Gráfico considerando o melhor modelo log-normal quadrático: par(mfrow=c(1,2)) plot(log(total.rg.na$Latitude+10.823750),log(total.rg.na[,10]),ylab="Log*(Abundância de lianas)",xlab="Log*(Latitude)",main="mod.7") # Plotar variaveis X e Y # Curva p/ melhor modelo - quadrático - com distribuição probabilística log-normal (mod.7): coef_mod.7<-coef(mod.7) f2<- function (x){coef_mod.7[1]+coef_mod.7[2]*x+coef_mod.7[3]*x^2} curve(f2(x),add=T,col="blue") # Gráfico considerando o melhor modelo gaussiano quadrático: plot(total.rg.na$Latitude,total.rg.na[,10],ylab="Abundância de lianas",xlab="Latitude", main="mod.5") # Plotar variaveis X e Y # Curva p/ o melhor modelo com distribuição probabilística gaussiana (mod.5): coef_mod.5<-coef(mod.5) f2<- function (x){coef_mod.5[1]+coef_mod.5[2]*x+coef_mod.5[3]*x^2} curve(f2(x),add=T,col="red")
Modelagem de Serviços Ecossistêmicos como subsidio para tomada de decisões
Betânia S. Fichino
A Modelagem Estatística e a Seleção de Modelos
A abordagem de seleção de modelos para análise estatística vem aumentando sua importância, conhecimento e uso entre os ecólogos e tem como principal vantagem frente às análises estatísticas normalmente utilizadas, a possibilidade de comparação de diferentes modelos, não estando restrita a comparação entre duas hipóteses possíveis (uma hipótese nula e uma hipótese alternativa), podendo elencar a importância relativa de diferentes modelos e fazer inferências sobre eles. Tal método permite a criação, adequação e seleção de modelos que possam representar da melhor forma possível o fenômeno observado (Johnson & Omland, 2004).
Para a abordagem de seleção de modelos, o primeiro passo é a criação dos modelos a serem testados. Vale ressaltar que o objetivo da metodologia é a escolha do melhor modelo dentre os existentes, de forma que a qualidade do modelo final selecionado depende da qualidade dos modelos criados e colocados para competir (Johnson & Omland, 2004).
Para a criação de tais modelos, o ideal é a criação de hipóteses verbais para o comportamento dos dados analisados e, a partir delas, a definição das variáveis correspondentes aos fatores causais definidos na hipótese verbal e das relações entre as variáveis dependentes e independentes levantadas, transformando as hipóteses verbais em equações / modelos estatísticos (Johnson & Omland, 2004).
Uma vez que os modelos estejam criados, é feita a coleta dos dados, que permitirá a adequação dos parâmetros dos modelos para que cada modelo represente da melhor maneira possível os dados, ou seja, para que os dados tenham o melhor encaixe possível no modelo. Tal adequação pode ser feita através da Análise de Máxima Verossimilhança para os valores possíveis para os parâmetros (Batista, 2009).
Inversamente a uma função de probabilidade que expressa a probabilidade de encontrar certo dado (desconhecido) dentro de um modelo com parâmetros já definidos (conhecidos), a análise de máxima verossimilhança baseia-se numa função de verossimilhança, que permite que se observe a plausibilidade dos valores possíveis para os parâmetros de cada modelo (desconhecidos) para um conjunto de dados já coletados (conhecidos). Tal função é gerada a partir da multiplicação das probabilidades de se ter cada valor de parâmetro para cada dado coletado. Como o produto de muitas probabilidades (números entre 0 e 1) gera números muito pequenos, geralmente se usa o log das probabilidades e, pelos valores terem sido transformado em log, a somatória (e não multiplicação) dos valores. Tal estratégia é conhecida por log-verossimilhança (Batista, 2009).
Uma vez definida a função de verossimilhança para cada parâmetro, o melhor valor para o parâmetro coincide com o valor correspondente ao ponto de máxima verossimilhança do gráfico gerado pela função, sendo que, hoje em dia, está consolidado que para valores cuja razão de sua verossimilhança em relação a máxima verossimilhança é menor que 8, podem ser considerados como igualmente plausíveis (faixa conhecida como intervalo de verossimilhança, Batista, 2009).
Para modelos com dois ou mais parâmetros, ao invés das curvas de verossimilhança, são geradas superfícies de verossimilhança que relacionam os valores de verossimilhança dos diversos parâmetros. No caso de dois parâmetros, tal superfície pode ser representada em um gráfico de contorno com isolinhas de verossimilhança relativa, e definida a região de verossimilhança ao invés de um intervalo de verossimilhança (Batista,2009).
Nesse caso, para delimitar o valor de Máxima Verossimilhança de cada parâmetro, pode ser feita uma curva de verossimilhança perfilhada, onde se observa a verossimilhança de cada valor do parâmetro analisado considerando-se, para cada valor do parâmetro, as máximas verossimilhanças dos demais parâmetros (Batista, 2009).
Por fim, os modelos já re-parametrizados podem ser comparados através de critérios de máxima verossimilhança, como o Critério de Informação de Akaike (AIC). Tal critério é baseado na distância de Kullback-Leibler, que analisa o modelo mais plausível dentro de um leque de modelos através da distância (divergência) deste modelo ao modelo real. Aquele que tiver menor divergência, consequentemente terá menor perda de informação do modelo real (Burnham & Anderson, 2002).
Na prática, ao analisar fenômenos ecológicos nós não conhecemos o modelo real. Dessa forma, o AIC realiza uma análise de distância relativa entre cada modelo criado e o modelo real, fazendo-se a comparação entre os modelos a partir dessas divergências relativas, e não absolutas (Burnham & Anderson, 2002).
Além disso, o risco que se corre ao comparar modelos com números diferentes de parâmetros é a superparametrização, isto é, ao fazer o ajuste do modelo a uma amostra da realidade, um conjunto restrito de dados, o modelo que melhor se encaixa nos dados é aquele que prevê cada um dos dados, mas que, ao mesmo tempo, torna-se um modelo que dificilmente explicará outros dados da realidade que não fizeram parte da amostra coletada. Para superar tal problema, Akaike incluiu em sua análise de verossimilhança um segundo fator, de correção, que penaliza os modelos criados de acordo com o número de parâmetros que possui (Burnham & Anderson, 2002).
A análise de AIC dos modelos criados nos retorna o valor de verossimilhança de cada modelo e, principalmente, a distância entre as verossimilhanças dos modelos, o que nos permite analisar se um modelo é mais plausível que o outro ou se ambos podem ser igualmente plausíveis. Para análises de log-verossimilhança atualmente vem se consolidando na área da biologia a adoção de uma distância de AIC de 2 (log(8)) como sendo o limite para que se considere que dois modelos são igualmente plausíveis (Burnham & Anderson, 2002).
Serviços Ecossistêmicos e Floresta Ombrófila Mista
A análise dos Serviços Ecossistêmicos ofertados em uma determinada área vem sendo muito utilizada atualmente como forma de medida de benefícios ao homem advindos do meio natural. Tais Serviços Ecossistêmicos podem ser definidos como os benefícios obtidos pela população humana, direta ou indiretamente, a partir de Funções Ecossistêmicas (Daily 1997; Costanza 1997; de Groot et al. 2002). Uma vez que a oferta desses serviços gera benefícios diretos ou indiretos para a humanidade tal análise vem sendo utilizada para tomada de decisão em relação ao uso e exploração de recursos naturais.
Se por um lado o serviço ecossistêmico (por sua própria definição) depende de suas exploração e uso pela população humana, para a manutenção de tais serviços em longo prazo, a medida que o fluxo desse estoques são usados, sua capacidade de regeneração não deve ser excedida, de forma a manter a sua função ecossistêmica intacta e, consequentemente, os serviços ecossistêmicos prestados, garantindo o Desenvolvimento Sustentável, entendido, aqui, como o desenvolvimento que não diminui a capacidade de fornecer utilidade per capita constante infinitamente (Neumayer 1999).
Um exemplo de uso de tais serviços sem a preocupação de manutenção em longo prazo é a fitofisionomia de Floresta Ombrófila Mista, também conhecida como Florestas de Araucária, que ocupava originalmente grande parte do país, mas que foi reduzida drasticamente devido, principalmente, à exploração da espécie Araucaria angustifolia (Bertol.) Kuntze, pela qualidade de sua madeira de grande potencial econômico (Reitz & Klein 1966), estando hoje restrita a uma área de aproximadamente 2% da área original (Guerra et al. 2002).
No caso da Floresta Ombrófila Mista, atualmente os principais serviços ecossistêmicos prestados podem ser considerados a produção primária através da regeneração da vegetação (serviço de suporte) e o alimento fornecido pelo pinhão (serviço de abastecimento), uma vez que atualmente o corte para a obtenção de madeira é ilegal. A. angustifolia tem maior diâmetro e altura do que angiospermas comuns e forma um maior dossel mono-específico sobre o dossel de angiospermas menores (Souza 2007). Tal fato pode significar um importante estoque de carbono com sua regeneração. Paralelamente, a produção de pinhão pode chegar a 75kg.planta-1.ano-1 (Guerra et al. 2002), o que representa um importante estoque de alimento e serviço de abastecimento.
Neste caso, como em muitos outros voltados à análise de serviços ecossistêmicos para tomada de decisão, torna-se de extrema importância a determinação de um ponto ótimo de intensidade de exploração de um recurso (serviço de abastecimento, no caso, o extrativismo do pinhão) onde não sejam comprometidos os demais serviços ecossistêmicos (como os serviços de suporte, no caso, a regeneração da Araucaria angustifolia).
Uma maneira de fazer tal comparação é a medida da oferta de serviços ecossistêmicos de suporte oferecidos ao longo de um gradiente de oferta de serviços de abastecimento, no caso em questão, a quantidade de regenerantes de A. angustifolia ao longo de um gradiente de exploração do pinhão, aqui medido pela porcentagem dos pinhões maduros coletados. Para tal análise, o método de seleção de modelos é muito bem aplicável para a correta descrição dessa relação.
Seleção de Modelos e Serviços Ecossistêmicos
Para o caso citado da Floresta Ombrófila Mista, temos como importante tarefa, identificar o modelo que melhor representa a variação da quantidade de regenerantes (aqui representando os serviços ecossistêmicos de suporte) de acordo com a intensidade de extrativismo, quantificada pela porcentagem de pinhão coletado (aqui representando os serviços ecossistêmicos de abastecimento). Tal modelo permitirá uma análise mais realista do tradeoff entre essas duas categorias de Serviços Ecossistêmicos na Floresta Ombrófila Mista podendo-se pensar em um ponto ótimo de extrativismo que garanta a manutenção de ambos os serviços em longo prazo e se tal atividade é vantajosa.
Para a análise por seleção de modelos, podemos classificar cada área amostral em uma intensidade de extrativismo, quantificada pela porcentagem de pinhão coletado, como uma variável contínua, de forma que o modelo irá retratar freqüência de regenerantes encontrados nas áreas amostrais (representando a probabilidade de se encontrar um regenerante por unidade de área) em cada intensidade de extrativismo.
A distribuição exponencial pode ser uma boa opção de modelo a ser adotado para esta situação, uma vez que ela possui apenas um parâmetro (lambda), que representa a taxa de decaimento da probabilidade de encontrar o evento esperado ao longo de um gradiente contínuo. Pensando em tal distribuição, de forma análoga a distribuição de árvores ao longo de um gradiente espacial, podemos pensar na distribuição de regenerantes ao longo de um gradiente de exploração. Dessa forma, teremos um decaimento da quantidade de regenerantes com o aumento da intensidade de exploração, a uma taxa de queda igual ao parâmetro lambda da distribuição exponencial.
Outra distribuição plausível para o modelo pretendido é a distribuição Gama, uma vez que, além do parâmetro de taxa de decaimento (lambda) semelhante ao da exponencial (às vezes usado como o inverso da taxa (1/labda) e conhecido como parâmetro de escala), ela ainda possui um parâmetro de forma, © que pode melhorar a representação dos dados.
Uma vez feita a escolha dos modelos, os dados serão coletados e, com eles, será possível, através da análise de Máxima Verossimilhança descrita acima, determinar o melhor valor para a taxa de decaimento da quantidade de regenerantes de acordo com a intensidade de coleta (parâmetro lambda da exponencial) em uma curva de verossimilhança e, de forma análoga, os parâmetros da taxa de decaimento (lambda) e forma © da distribuição Gama em uma verossimilhança perfilhada para cada parâmetro.
Uma vez que ambos os modelos estejam ajustados aos dados, poderá ser feita a análise de verossimilhança entre os modelos, utilizando-se o AIC e, finalmente, será feita a comparação para a identificação se há diferença de plausibilidade entre os modelos e, em caso positivo, qual o modelo mais plausível.
Considerações
De acordo com os procedimentos descritos acima, a análise de verossimilhança tem grande potencial para a criação de modelos que expressem a variação e relação entre serviços ecossistêmicos uma vez que tais serviços podem ser distribuídos de forma desigual e através de diversos tipos de distribuição. Tal modelagem permite uma análise mais detalhada e específica do uso e exploração dos Serviços Ecossistêmicos que pode servir de subsidio às tomadas de decisões relacionadas a tais serviços. Uma análise feita utilizando métodos estatísticos tradicionais poderia restringir a pesquisa a um número restrito de possibilidades, levando a modelos sub-ótimos que podem interferir significativamente na tomada de decisão influenciada pela pesquisa.
Referências bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
Costanza, R.; D´árge, R.; Groot, R.; Farber, S.; et al. The value of the world´s ecosystem services and Natural capital. Nature, Vol 387, 1997
Daily, G. Nature’s services: societal dependence on natural ecosystem. Island Press, Washington, DC. 1997.
De Groot, R.; Wilson, M. A.; Boumans, R. M. J. A typology for the classification, description and valuation of ecosystem functions, goods and services. Ecological Economics, 41. pp. 393-408, 2002.
Guerra, M. P.; Silveira, V.; Reis, M. S.; Schneider, L. Exploração, manejo e conservação da araucária (Araucária angustifolia). In: SIMÕES, L. L.; LINO, C. F. (Eds.). Sustentável Mata Atlântica: A exploração de seus recursos florestais. São Paulo: SENAC. p.85-102, 2002.
Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10
Neumayer, E. Conceptual, Ethical and Paradigmatic Issues of Sustainable Development. Weak versus strong sustainability: exploring the limits of two opposing paradigms. Cheltenham: Edward Elgar. 1999
Reitz, R. & Klein, R. Araucariáceas. In: Reitz, R. (Ed.). Flora Ilustrada Catarinense. Itajaí: Herbário Barbosa Rodrigues. p.1-65, 1966.
Souza, A. F. Ecological interpretation of multiple population size structures in trees: The case of Araucaria angustifolia in South America. Austral Ecology, v.32, n.5, p.524-533, 2007
O uso da seleção de modelos na análise de diversificação fenotípica: Quando a evolução neutra não é uma opção
Laura Rodrigues Vieira de Alencar
O que é seleção de modelos? ou melhor, o que são modelos? Segundo o dicionário, a palavra “modelo” pode ser um molde, um exemplar. Para a física, um modelo é um conjunto de equações contendo parâmetros ajustáveis e que podem ser aplicadas à um sistema físico concreto (Forster, 2000). Para nós, biólogos, talvez fique mais fácil pensar em modelos como sendo hipóteses. Estas hipóteses são transformadas em equações matemáticas que descrevem processos biológicos de maneira geral e simplificada e fornecem percepções sobre possíveis fatores responsáveis pelos padrões observados (Johnson e Omland, 2004). A transformação de hipóteses em equações, de uma maneira resumida, consiste em escolher variáveis e funções que descrevem as relações entre tais variáveis utilizando operadores matemáticos e parâmetros. Os modelos são considerados então, idealizações da realidade, mas nenhum deles é verdadeiro (Forster, 2000).
A seleção de modelos é utilizada para analisar estas diversas hipóteses em relação aos dados. É ela que nos ajudará a responder: qual o melhor modelo a se usar?. Segundo Johnson e Omland (2004), a seleção de modelos oferece uma maneira de fazer inferências para um conjunto de dados a partir de um grupo de hipóteses competitivas. Depois de especificados, cada modelo é então ajustado aos dados através de por exemplo, o método de máxima verossimilhança (para maiores detalhes ver Burnham e Anderson, 2002) e seus parâmetros são estimados. Burnham e Anderson (2002) dão ênfase ao fato de que na seleção de modelos é muito importante selecionar ou inferir o melhor modelo, mas isto não é o mesmo que tentar encontrar o modelo “verdadeiro”. Além disso, vale a pena frisar que na seleção de modelos, o melhor modelo que descreve os dados fica restrito ao conjunto de modelos que está sendo avaliado.
Alguns métodos estatísticos, como por exemplo o Critério de Informação de Akaike (AIC; Akaike, 1974), são utilizados para comparar os diferentes modelos. Alguns levam em conta o ajuste aos dados e a complexidade de cada modelo (número de parâmetros), como é o caso do AIC. Entretanto, uma discussão sobre os diferentes métodos para comparar modelos está além do objetivo do presente ensaio e maiores informações sobre esta questão podem ser encontradas em uma extensa literatura (e.g. Burnham e Anderson, 2002; Johnson e Omland, 2004; Bolker, 2008).
A seleção de modelos pode ser considerada como uma ferramenta poderosa em diversas áreas nas Ciências Biológicas, como por exemplo no estudos da dinâmica de populações (e.g. Pol et al., 2010), na estimativa de filogenias (e.g. Posada e Buckley, 2004) e ainda em diversos estudos de biologia evolutiva (e.g. Butler e King, 2004; Monteiro e Nogueira, 2011). Especificamente, o uso da seleção de modelos, permitindo comparar simultaneamente uma variedade de hipóteses, aumentou a habilidade dos pesquisadores em acessar diferentes explicações evolutivas para os dados em estudos que focam na diversficação da ecologia e morfologia dos organismos (Butler e King, 2004).
Os métodos comparativos são uma ferramenta central para se investigar o significado adaptativo e os padrões de diversificação de caractéres fenotípicos dos organismos. Os métodos mais populares para tal são testes de hipóteses, como por exemplo as regressões lineares utilizando contrastes independentes que testam se existe ou não relação entre a diversificação de um caráter morfológico e um possível agente seletivo (Felsenstein, 1985; Price, 1997). Estes testes não permitem inferir algo sobre os processos evolutivos que moldam estas variações fenotípicas e até mesmo que moldam o possível candidato a agente seletivo. Ao contrário, assumem um modelo de evolução neutra, o modelo de evolução Browniana. Entretanto, o uso deste processo evolutivo como cenário para a diversificação de caracteres morfológicos e ecológicos tem sido bastante criticado e considerado muitas vezes inadequado (Hansen et al., 2008; Monteiro e Nogueira, 2011). O motivo disso é que em hipóteses como a mencionada acima, em que um aspecto fenotípico evolui sob a ação de um agente seletivo, está implícito o conceito de seleção. Se nestes estudos estamos procurando “sinais” de seleção sobre os fenótipos, por que continuar usando uma abordagem que tem como base a evolução neutra? (Butler e King, 2004).
Entretanto, não tardou e os biólogos evolutivos começaram a incorporar uma metodologia baseada na seleção de modelos para tratar dos problemas acima, o que mudou (e virá a mudar muito mais) o rumo dos estudos sobre diversificação fenotípica dos organismos. Estes novos métodos baseados na seleção de modelos ajustam diferentes hipóteses evolutivas aos dados observados, podendo ainda levar em conta diferentes processos evolutivos que poderiam estar por trás dos padrões observados. Para ilustrar esse grande salto na análise dos padrões e processos envolvidos na diversificação fenotípica proporcionado pela seleção de modelos, irei utilizar como exemplo o modelo evolutivo proposto primeiramente por Hansen (1997), o modelo de Ornstein-Uhlenbeck (O-U), que tem sido amplamente usado neste tipo de abordagem.
O modelo O-U foi recentemente implementado por Butler e King (2004) no contexto da seleção de modelos. Este modelo (ou classe de modelos) descreve a evolução de um caráter fenotípico sob a ação da seleção estabilizadora e, diferentemente da evolução browniana, o O-U possui um (ou alguns) ótimo seletivo. A equação simplificada que descreve o modelo O-U é:
$$dX(t) = alpha[theta - X(t)]dt + sigmadB(t)$$
De maneira bem simplificada, a equação acima pode ser interpretada como a quantidade de mudança no caráter X em um período de tempo t. O parâmetro $$alpha$$ corresponde a força de seleção que “puxa” os valores do fenótipo para um ponto central ($$theta$$), que pode ser interpretado como um ótimo adaptativo. No contexto proposto por Butler e King (2004), esta classe de modelos pode possuir inúmeros ótimos adaptativos (o número de ótimos adaptativos é estabelecido de acordo com as hipóteses sobre os possíveis agentes seletivos, ver exemplo abaixo). O parâmetro $$sigma$$ mede a intensidade de flutuações ao acaso, e o termo $$sigmadB(t)$$ é o chamado termo estocástico do modelo. Quando $$alpha$$ é igual a zero, o modelo O-U se torna o modelo de evolução browniana (maiores detalhes sobre a classe de modelos O-U ver Butler e King, 2004).
Usando a abordagem acima é possível ir além das correlações usuais entre fenótipos e ecologia. É possível ter acesso a verossimilhança de diferentes cenários evolutivos selecionando modelos adaptativos alternativos que correspondem a ação de diferentes agentes seletivos (Monteiro e Nogueira, 2011). Além disso, usando este tipo de abordagem é possível comparar diferentes modelos evolutivos e obter informações importantes relacionadas aos longos períodos de estase evolutiva (evolutionary stasis). Os métodos de correlações usuais focam nas poucas mudanças fenotípicas que ocorrem durante a diversificação de um grupo e ignoram os períodos de estase que normalmente predominam. No entanto, a estase é uma evidência forte da seleção estabilizadora (Butler e King, 2004).
Através da seleção de modelos e a implementação da classe de modelos O-U, Monteiro e Nogueira (2011) investigaram a relação entre forma do crânio e a dieta em morcegos Phyllostomídeos. Uma filogenia recente do grupo mostra que existe grande diversidade de hábitos alimentares, porém poucas são as convergências evolutivas. Assim, utilizando as porcentagens dos itens alimentares presentes nas dietas das diferentes espécies, Monteiro e Nogueira (2011) analizaram, através de regressões lineares utilizando contrastes independentes (Felsenstein, 1985), se existia relação com a forma do crânio. Justamente pelo fato de existirem poucas convergências na filogenia, estas regressões baseadas na evolução browniana, apontaram uma não relação entre o fenótipo e a dieta no grupo. A abordagem da seleção de modelos foi então utilizada como forma alternativa de analisar as questões propostas e suprir a influência da falta de convergências nos resultados preliminares (L. Monteiro com. pess.).
Os autores elaboraram cinco modelos evolutivos que refletiriam diferentes cenários sob os quais a forma do crânio poderia ter diversificado. O primeiro modelo seria o correspondente a evolução browniana e se estenderia até um modelo O-U com cinco ótimos adaptativos correspondendo às cinco categorias de dieta. Utilizando o AIC e o Critério de Informação Bayesiana (BIC), os melhores modelos que se ajustavam aos dados foram os modelos O-U com quatro e cinco ótimos adaptativos (O-U4 e O-U5, respectivamente). Isto sugere que dependendo do critério utilizado, a hipótese mais plausível seria de que a forma do crânio dos morcegos Phyllotomídeos teria diversificado sob forte influência dos diferentes hábitos alimentares (O-U5) e que um cenário com apenas quatro regimes seletivos diferentes também poderia ser considerado (O-U4). Segundo Monteiro e Nogueira (2010), a carnivoria e insetivoria nos Phyllostomatídeos podem ser agrupadas em uma mesma categoria, pois a primeira seria uma extensão alométrica da segunda e ambas dividiriam o mesmo pico adaptativo. Isto explicaria um bom ajuste para o modelo O-U4. O resultado encontrado por Monteiro e Nogueira (2011) não seria obtido, tão pouco forneceria base para uma rica discussão, se os métodos usuais de testes de hipóteses tivessem sido utilizados.
Background
O presente ensaio baseia-se em uma experiência minha ao analisar dados morfológicos em um grupo de serpentes e tentar relaciona-los com aspectos ecológicos. Utilizando regressões como as usadas por Monteiro e Nogueira (2011), não foi encontrada qualquer relação entre morfologia e ecologia. Já que se tratavam de hipóteses amplamente difundidas na literatura, achei que o “problema” poderia ser com o grupo, pois as espécies pouco convergiam quanto aos aspectos ecológicos (os regimes seletivos explorados). Entretanto, um teste simples para detecção de sinal filogenético apontou um sinal forte para a morfologia e ausência de sinal para a ecologia. A partir daí, ficou evidente que não estaríamos lidando apenas com um processo evolutivo neutro e que o uso de uma abordagem de seleção de modelos similar a utilizada por Monteiro e Nogueira (2011) poderia ser bastante útil. Provavelmente, o uso da seleção de modelos neste contexto mudará positivamente o rumo desta pesquisa e trará novas percepções com relação às hipóteses propostas.
Referências Bibliográficas
Akaike, H. 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19:716-723.
Bolker B. M. 2008. Ecological models and data in R. Princeton University Press.
Burnham, K. P. e D. R. Anderson. 2002. Model selection and multimodel inference: A pratical information - Teoretic approach. Springer.
Butler, M. A. e A. A. King. 2004. Phylogenetic comparative analysis: A modeling approach for adaptive evolution. The American Naturalist, 164:683-695.
Felsenstein, J. 1985. Phylogenies and the comparative methods. The American Naturalist, 125:1-15.
Forster, M. R. 2000. Key concepts in model selection: Performance and generalizability. Journal of Mathematical Psychology, 44:205-231.
Hansen, T. F. 1997. Stabilizing selection and the comparative analysis of adaptation. Evolution, 51:1341-1351.
Hansen, T. F., J. Pienaar e S. H. Orzach. 2008. A comparative methods for studying adaptation to a randomly evolving environment. Evolution, 62:1965-1977.
Johnson, J. B. e K. S. Omland. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-108.
Monteiro, L. R. e M. R. Nogueira. 2010. Adaptive radiations, ecological specialization, and the evolutionary integration of complex morphological structures. Evolution, 64:724-744.
Monteiro, L. R. e M. R. Nogueira. 2011. Evolutionary patterns and processes in the radiation of phyllostomid bats. BMC Evolutionary Biology, 11:137.
Pol, M., Y. Vindenes, B. E. Saether, S. Engen, B. J. Ens, K. Oosterbeek, e J. M. Timbergen. 2010. Effects of climate change and variability on population dynamics in a long-lived shorebird. Ecology, 91:1192-1204.
Posada, D. e T. R. Buckley. 2004. Model selection and model averaging in phylogenetics: Advantages of Akaike Information Criterion and Bayesian approaches over likelihood ratio tests. Systematic Biology, 53:793-808.
Price, T. 1997. Correlated evolution and independent contrasts. Philosophical Transactions of the Royal Society of London B, 352:519-529.
Estimativas de parâmetros da comunidade por máxima verossimilhança
Cristiane Honora Millán
Estimar os parâmetros de um modelo significa encontrar os parâmetros que melhor se ajustam às observações (Bolker, 2007). No caso da estimativa por máxima verossimilhança, siginifica estimar os valores dos parâmetros do modelo que maximizam o valor da função de verossimilhança , ou seja, os valores de parâmetro do modelo que atribuem a maior probabilidade às observações (Batista, 2009). Do ponto de vista matemático, é preciso igualar a zero as derivadas parciais da função de verossimilhança e achar o vetor de parâmetros estimados que resolve o conjunto de equações. A verossimilhança de um conjunto de dados pode ser calculada, sob a premissa de que os dados são realizações independentes de um mesmo processo, pelo produto da verossimilhança de cada uma das observações individuais.
Na ecologia, modelos baseados em máxima verossimilhança são amplamente utilizados para estimar parâmetros populacionais à partir de dados observacionais. Os parâmetros demográficos de uma população podem ser estimados à partir de dados de captura-recaptura de indivíduos (Darroch, 1958; Jolly, 1965; Seber, 1965; Pollock & Otto, 1983, Kendall et.al, 1995;). A ocupação e a abundância podem ser estimadas à partir de dados de presença e ausência dos indivíduos em diferentes ocasiões amostrais (Mackenzie, 2002; Mackenzie & Nichols, 2004). Tanto os modelos de captura-recaptura, como os modelos de ocupação, podem ser extendidos para casos em que em que a capturabilidade (Pollock, 1975; Agresti, 1994; Norris & Pollock, 1996) e a detectabilidade (Mackenzie, 2002; Mackenzie et.al, 2003; Mackenzie et. al, 2005) é heterogênea entre indivíduos .
No de nível das comunidades, é possível estimar parâmetros como ocorrência , riqueza, composição, taxas de extinção, colonização e turnvover a partir de dados de presença e ausência de múltiplas espécies em múltiplas sítios amostrais (Mackenzie, 2006; Dorazio & Royle, 2005). Estes modelos podem incorporar a variação na detectabilidade, causada por diferenças específicas e por diferenças entre sítios amostrais. Para estimar ocorrência ($\psi$) e a detectabilidade ($\theta$), em conjunto, é preciso amostrar os sítios amostrais em diversas ocasiões (visitas), durante um intervalo de tempo curto o suficiente para que possamos assumir que a comunidade estava fechada (Pollock's robust design - Pollock, 1982).
Conceitualmente, os modelos de ocorrência descrevem dois processos estocásticos que podem afetar a detecção de uma espécie num sítio. A espécie pode ocorrer (com probabilidade $$psi$$) ou não ocorrer (com probabilidade $$1- psi$$) no sítio. Uma espécie não poderá ser detectada em um sítio em que ela não ocorre. No entanto, se ela ocorre num determinado sítio, em cada visita a este sítio existe uma probabilidade da espécie ser detectada ($$theta$$) ou não ser detectada ($$1-theta$$). Os dados de presença ou ausência da espécie em determinado sítio, podem ser descritos por um modelo probabilístico, se assumirmos que cada observação é resultado de uma tentativa independente de Bernoulli. Já histórico de detectabilidade de cada espécie durante visitas a cada sítio pode ser descrito por uma distribuiçao binomial, em que o número de tentativas é igual ao número de visitas a cada sítio.
O efeito de covariáveis sítio-específicas e espécie-específicas sobre os parâmetros ocorrência e detectabilidade pode ser modelado. Para tanto é preciso a função de ligação apropriada, no caso, a função “logit”. Com a inclusão de covariáveis de ocorrência sítio-específicas nos modelos, é possível selecionar as características do ambiente que são determinantes para presença de determinadas espécies. A modelagem do efeito características do habitat sobre a ocorrência pode ser direcionada, por exemplo, para o estudo do efeitos das alterações antrópicas sobre a biodiversidade na aplicada a elaboração de planos de conservação e manejo da biodiversidade.
No meu projeto utilizarei a modelagem da ocorrência para descrever o efeito de medidas de manejo em área de silvicultura sobre os padrões ocorrência de espécies de aves da comunidade local. As minhas hipóteses são: a) talhões de eucalipto com manejo mínimo sub-bosque terão $$psi$$ maior do que talhões de eucalipto com sub-bosque constantemente manejado; a) talhões de eucalipto com árvores nativas remanescentes terão $$psi$$ maior do que talhões de eucalipto com sub-bosque constantemente manejado. As hipóteses foram representadas sob a forma de diferentes modelos sobre o sistema de estudo. A ocorrência será modelada em função de covariáveis espécie-específicas, como estrato típico de forrageio e guilda trófica; e em função de covariáveis sítio-específicas, como presença ou ausência de sub-bosque, o índice de tamanho das árvores nativas (Fisher, 2002) e a porcentagem de mata nativa em torno dos talhões. Assumirei que detectabilidade é constante em todos os locais e para todas as espécies. A estimativa dos parâmetros será feita pela modelagem por máxima verossimilhança. O desempenho dos modelos será comparado através do Critério de Informação de Akaike para pequenas amostras (AIC). Será selecionado o modelo com menor valor de AIC, sendo considerados igualmente plausíveis os modelos com $\Delta AIC_c ≤ 2$ .
Referências Bibliográficas
Agresti, A. 1994. Simple Capture-Recapture Models Permitting Unequal Catchability and Variable Sampling Effort. Biometrics, 50(2): 494-500.
Batista, J.L.F. Verossimilhança e Máxima Verossimilhança. Piracicaba, 2009, 27 p. Apostila do curso de Modelagem Estatística para Ecologia. Escola Superior de Agricultura “Luiz de Queiroz” - USP.
Bolker, B.M. Likelihood and all that. In: Bolker, B.M. Ecological Models and Data in R. .Princeton: Princeton University Press,2007. pp 227-292.
Darroch, J. N. (1958). The multiple recapture census: estimation of a closed population. Biometrika 36, 343-359.
Dorazio, R.M.; J. A. Royle. 2005. Estimating size and composition of biological communities by modeling the occurrence of species. Journal of the American Statiscal Association, 100: 389-398.
Fischer, J.; D.B. Lindenmeyer. 2002. The conservation value of paddock trees for birds in a variegated landscape in southern New South Wales. Species compositions and site occupancy patterns. Biodiversity and Conservation, 11: 807-832.
Kendall, W.L.; K.H. Pollock & C. Brownie. A likelihood-based approach to capture-recapture estimation of demographic parameters under the robust design. Biometrics, 51(1): 293-308.
Jolly, G.M. 1965. Explicit estimates from capture-recapture data with both death and immigration-stochastic model. Biometrika, 52(1/2): 225-247.
Macknezie, D.I.; J.D. Nichols; J.A. Royle; K.H. Pollock; L.L. Bailey; J.E. Hines. Occupancy in community-level studies. In: Occupancy estimation and modeling – inferring patterns and dynamics of species occurrence. San Diego: Academic Press, 2006. pp 176-201.
Mackenzie, D.I.; J.D. Nichols; G.B. Lachman; S. Droege; J.A. Royle; C.A. Langtimm. 2002. Estimating site occupancy when rates detection is less than one. Ecology, 83(8): 2248-2255
Mackenzie, D.I.; J.D.Nichols.; J.E. Hines; M.G. Knutson; A.B. Franklin. 2003. Occupancy, colonization and local extinction when a species is detectec imperfectly. Ecology, 84(8): 2200-2207.
Mackenzie, D.A. & J.D. Nichols. 2004. Occupancy as a surrogate for abundance estimation. Animal Biodiversity and Conservation, 27(1): 461-467.
Mackenzie, D.I.; J.D. Nichols; N. Sutton; K. Kawanishi; L.Bailey. 2005. Improving inferences in population studies of rare species that are detected imperfectly. Ecology, 86(5): 1101-1113
Norris. J.L. & K. H. Pollock. 1996. Nonparametric MLE under two closed capture-recapture models with heterogeneity. Biometrics, 52(2): 639-649.
Pollock, K.H. 1975. A K-sample tag-recapture model allowing for unequal survival and catchability. Biometrika, 62(3): 577-583
Pollock, K.H. & M.C. Otto. 1983. Robust estimation of population size in closed animal populations from capture-recapture experiments. Biometrics, 39(4): 1035- 1049.
Pollock, K.H. 1982. A capture-recapture samplong design robust to unequal cathcability. Journal of Wildlife Management.46: 752-757.
Seber, G.A.F. 1965. A Note on the multiple-recapture census. Biometrika, 52(1/2): 249-259.
Correlação entre aves de rapina e características da paisagem no Cerrado e Pantanal do MS - uso de GLMMs e de pesos relativos de evidência do AICc para avaliação da escala e da importância de variáveis preditoras
Francisco Voeroes Dénes
Introdução
Um dos objetivos do meu doutorado é investigar como variações na disponibilidade e qualidade de hábitat, representados pela proporção de diferentes classes de cobertura vegetal, influenciam a abundância relativa (abundância daqui em diante) e a riqueza de aves de rapina (riqueza daqui em diante) em áreas do Cerrado e Pantanal do Mato Grosso do Sul. Dado que padrões ecológicos como gradientes de riqueza ou abundância podem ser dependentes ou influenciados pela escala de amostragem e análise (MacNally 1997, He e Gaston 2000, Lennon 2001), e que as aves de rapina possuem grande diversidade de tamanhos e estratégias de uso de hábitat (Fergusson-Lees e Christie 2001), é necessário determinar qual escala espacial é mais importante para a quantificação de hábitat.
Sobrepus as coordenadas de registros de aves-de-rapina feitos em amostragens bianuais (estações seca e chuvosa) em 2011 e 2012 ao longo de transecções lineares em um mapa georeferenciado de cobertura vegetal do MS. Calculei a área das diferentes classes de cobertura vegetal inclusas em polígonos (buffers) de diferentes larguras centralizados em seções da linha de transecção. As três larguras dos buffers - 20, 10 e 5 km - foram escolhidas tendo em vista a área de vida e a capacidade de deslocamento das aves de rapina da área de estudo (Granzinolli, 2009). Minhas perguntas são: qual das três larguras de buffer melhor descreve a variação da riqueza e da abundância de três espécies de rapinantes em função da quantidade das diferentes classes de cobertura vegetal nele contidas? Quais classes de cobertura de solo melhor descrevem o comportamento das mesmas variáveis independente da escala e utilizando apenas a escala mais informativa?
Análise
A análise foi baseada naquela utilizada em Ribeiro et al. (2012), com modificações. Utilizei a área das principais classes de cobertura vegetal presentes nos buffers - Agricultura, Pastagem, Reflorestamento, Vegetação Secundária, Cerrado, Chaco, Floresta Estacional e Zona de Transição/Ecótono (Cerrado/Chaco, Cerrado/F. Estacional e Chaco/F. Estacional) - como preditores da riqueza e da abundância de três espécies em um gradiente de tamanho corporal e da área de vida: urubú-de-cabeça-vermelha Cathartes aura, do gavião-caboclo Heterospizias meridionalis e do quiriquiri Falco sparverius.
Utilizei modelos lineares generalizados mistos (GLMM) para avaliar as relações entre as áreas das classes de cobertura vegetal e as variáveis resposta. GLMMs permitem a análise de dados com distribuição não-normal e a inclusão de termos de efeitos aleatórios, que são úteis para conjuntos de dados com possível auto-correlação espacial e temporal (Crawley, 2007). Neste caso, é provável que haja correlação espacial entre seções de transecção adjacentes, e também correlação temporal das amostragens (nas estações seca e chuvosa de 2011 e 2012).
Ajustei GLMMs com a função glmmadmb do pacote glmmADMB (Skaug et al. 2012) em R 2.15.1 (R Core Team, 2012) seguindo recomendações em Bolker (2008) e Zuur et al. (2009), com cada classe de cobertura vegetal em cada escala como variáveis explicatórias e a riqueza e abundâncias como variáveis resposta. Para cada combinação cobertura/escala também avaliei o ajuste dos modelos com a inclusão de fatores aleatórios do segmento da transecção e do ano/estação (efeitos aditivos).
Utilizei os pesos do Critério de Informação de Akaike corrigido para pequenas amostras (AICc) para ordenar os modelos de acordo com sua plausibilidade relativa. O AICc é calculado para cada modelo a partir da sua log-verossimilhança, do número de parâmetros e do tamanho da amostra, e segundo este critério de seleção o modelo com o menor AICc é considerado o melhor entre os candidatos. O suporte de cada modelo em relação àquele considerado melhor é medido pelas diferenças entre os valores de seus AICs (∆i). Em geral considera-se que um ∆AICc < 2 indica modelos igualmente plausíveis (Bolker, 2008).
O processo de ajuste de modelos teve duas etapas. Na primeira, fiz uma seleção entre modelos com diferentes estruturas de efeitos aleatórios para cada combinação de variável resposta e variável de cobertura vegetal (CV): um modelo com apenas a CV, um modelo com a CV + efeito aleatório do segmento de transecção no intersepto (EAS); um modelo com CV + EAS + efeito da estação (EE); e um modelo com CV + EAS + EE + efeito aleatório do ano da amostragem no efeito da estação (EAE). Estes modelos utilizaram distribuição de erros Binomial-Negativa.
A estrutura do modelo considerado mais plausível foi utilizada na etapa seguinte, onde foram ajustados e comparados modelos de igual estrutura de efeitos aleatórios para cada escala de buffer em cada classe de cobertura vegetal, com distribuição de erros Poisson e Binomial-Negativa, num total de seis modelos para cada cobertura vegetal (3 larguras de buffer x 2 distribuições de erro), mais os modelos nulos nas duas distribuições de erros. A partir dos valores de AICc, calculei os pesos de evidência para cada modelo. A soma dos pesos de evidência para um certo modelo é, por definição, igual a 1 e, assim, eles expressam a qualidade relativa de cada modelo em uma escala padronizada (Bolker 2008, Ribeiro et al. 2012). Uma propriedade útil dos pesos de evidência de modelos que compartilham uma variável é que eles podem ser somados para expressar a importância geral desta variável (Burnham e Anderson 2004). Este é um uso da seleção de modelos que permite a estimativa direta da importância relativa de cada variável (Burnham e Anderson 2004, Ribeiro et al. 2012). Assim, a importância de cada escala nas variáveis dependentes foi quantificada pela soma dos pesos dos modelos que incluíram classes de cobertura naquela escala como variáveis explicatórias, onde a classe cuja soma foi a maior pode ser considerada a mais importante. Utilizei o mesmo procedimento para medir a importância de cada classe de cobertura vegetal independente da escala e utilizando apenas a escala mais informativa.
Resultados
As estruturas de modelo selecionadas diferiram entre cada variável resposta mas, para cada uma destas, foi selecionada a mesma estrutura para as oito classes de cobertura vegetal (tabela 1). Para os modelos da abundância de Falco sparverius, embora o modelo com o menor AICc tenha sido aquele com a estrutura “~ CV + EE + (1|EAS)”, o ∆AICc para o segundo modelo mais plausível “~ CV + (1|EAS) “ foi < 2 para todas as classes de cobertura vegetal, e portanto optei por utilizar a estrutura do segundo, seguindo o princípio da parcimônia.
Tabela 1. Estruturas de modelo selecionadas para cada variável resposta, com o intervalo dos pesos de AICc entre os modelos de cada classe de cobertura vegetal. CV: área da classe de cobertura vegetal; EAS: efeito aleatório do segmento de transecção no intersepto; EE: estação (seca/chuvosa); EAE: efeito aleatório do ano da amostragem no efeito da estação. *Selecionado modelo mais parcimonioso (ver texto). (Substituí a barra pelo símbolo : para notação wiki na tabela).
Variável resposta | Estrutura do modelo selecionado | Intervalo dos pesos de evidência do AICc |
---|---|---|
Riqueza | ~ CV + (1:EAS) | 0,657 - 0,549 |
Abundância de Cathartes aura | ~ CV + EE + (EAS) + (EE:EAE) | 0,940 - 0,822 |
Abundância de Heterospizias meridionalis | ~ CV + (1:EAS) | 0,663 - 0,612 |
Abundância de Falco sparverius | ~ CV + (1:EAS)* | 0,290 - 0,234* |
Dentre os modelos da riqueza, aqueles com distribuição de erros Poisson tiveram sempre melhor desempenho que os equivalentes com erros Binomial-Negativa. Nove modelos igualmente plausíveis podem ser considerados os melhores descritores da riqueza: modelo com a cobertura de zona de transição no buffer de 20 km (peso AICc = 0,089), agricultura em 5 km (peso AICc = 0,076), zona de transição em 10 km (peso AICc = 0,073); pastagens em 5 km (peso AICc = 0,071), agricultura em 10 km (peso AICc = 0,059), pastagem em 10 km (peso AICc = 0,053), zona de transição em 5 km (peso AICc = 0,044), agricultura em 20 km (peso AICc = 0,041), e o modelo nulo (peso AICc = 0,035). Os modelos de abundância com distribuição de erros Binomial-Negativa tiveram sempre melhor desempenho que os equivalentes com erros Poisson. A abundância de C. aura foi mais bem explicada pelo modelo com a agricultura no buffer de 20 km, com um peso de evidência relativamente baixo (peso AICc = 0,359). Nesse caso, os modelos com cerrado no buffer de 20 (∆AICc = 1,3; peso AICc = 0,191) e com agricultura no buffer de 10 km (∆AICc = 1,3; peso AICc = 0,190) podem ser considerados igualmente plausíveis. O modelo com a cobertura de floresta estacional no buffer de 10 km foi o melhor descritor da abundância de H. meridionalis, com um peso de evidência baixo (peso AICc = 0,239). Os modelos de zona de transição nos buffers de 20 (∆AICc = 0,8; peso AICc = 0,163) e 10 km (∆AICc = 0,8; peso AICc = 0,149), o modelos de agricultura no buffer de 5 (∆AICc = 1,8; peso AICc = 0,09) e o modelo de floresta estacional no buffer de 5km (∆AICc = 1,8; peso AICc = 0,09) foram igualmente plausíveis. Para a abundância de F. sparverius, o modelo com Floresta Estacional no buffer de 5 km foi o melhor preditor (peso AICc = 0,559), mas igualmente plausível com o modelo da mesma cobertura no buffer de 10 (∆AICc = 1,8; peso AICc = 0,224).
A figura 1 contém os resultados das somas dos pesos de evidência AICc dos tipos de cobertura vegetal por escala (largura do buffer) para as quatro variáveis resposta. Para a riqueza, as três larguras de buffer obtiveram soma de pesos semelhantes (5 km: ∑pesos = 0,327; 10 km: ∑pesos = 0,319 e 20 km: ∑pesos = 0,309). Na abundância de C. aura o buffer de 20 km obteve a maior soma de pesos (∑pesos = 0,560) e pode ser considerado o melhor descritor dessa variável. Para a abundância de Heterospizias meridionalis o melhor descritor foi a largura de buffer de 10 km (∑pesos = 0,466). A largura de buffer que melhor prediz a abundância de F. sparverius foi a de 5 km (∑pesos = 0,584).
Figura 1. Soma de pesos relativos de evidência, determinados com o AICc, dos modelos lineares de riqueza de aves de rapina (a) e abundância relativa de Heterospizias meridionalis (b), Falco sparverius ( c ) e Cathartes aura (d) pela escala (largura do buffer) em áreas de Cerrado e Pantanal do Mato Grosso do Sul, Brasil.
A soma dos pesos relativos por classe de cobertura vegetal independente da escala mostra que zona de transição (ecótonos) foi o preditor mais importante da riqueza de aves de rapina (∑pesos = 0,251; Fig. 2a), seguida de perto por agricultura (∑pesos = 0,214; Fig. 2a) e pastagens (∑pesos = 0,188; Fig. 2a). Para a abundância de H. meridionalis, zona de transição (∑pesos = 0,363; Fig. 2b) e floresta estacional (∑pesos = 0,354; Fig. 2b) foram os preditores mais relevantes. A abundância de F. sparverius foi melhor descrita por floresta estacional (∑pesos = 0,917; Fig. 2c), e a de C. aura por agricultura (∑pesos = 0,635; Fig. 2d) e cerrado (∑pesos = 0,353; Fig. 2d).
Figura 2. Soma de pesos relativos de evidência, determinados com o AICc, dos modelos lineares de riqueza de aves de rapina (a) e abundância relativa de Heterospizias meridionalis (b), Falco sparverius ( c ) e Cathartes aura (d) pelas classes de cobertura vegetal, independente da largura de buffer na qual foram medidas, em áreas de Cerrado e Pantanal do Mato Grosso do Sul, Brasil.
Quando considerada apenas a largura de buffer mais importante para as abundâncias (já que para a riqueza não há uma largura que é mais relevante), a zona de transição (∑pesos = 0,317) deu lugar à floresta estacional como o preditor mais importante de H. meridionalis (∑pesos = 0,507; Fig. 3a). Para F. sparverius a floresta estacional continua como preditor mais relevante (∑pesos = 0,953; Fig. 3b). A agricultura continua sendo a classe mais importante para C. aura (∑pesos = 0,640; Fig. 3c), seguida pela cobertura de cerrado (∑pesos = 0,342; Fig. 3c).
Figura 3. Soma de pesos relativos de evidência, determinados com o AICc, dos modelos lineares de abundância relativa de Heterospizias meridionalis (a), Falco sparverius (b) e Cathartes aura ( c ) pelas classes de cobertura vegetal, nas larguras de buffer mais relevantes para cada espécie, em áreas de Cerrado e Pantanal do Mato Grosso do Sul, Brasil.
Discussão
As aves de rapina são um grupo de difícil amostragem em geral, principalmente por ocorrerem em baixas densidades. É freqüente que amostragens de riqueza e abundância desse grupo apresentem grau relativamente alto de dependência amostral. Nesse contexto, os modelos com estruturas de efeitos aleatórios (GLMMs) foram especialmente úteis ao permitirem o uso de dados incorporando auto-correlações espaciais e temporais. De fato, a auto-correlação espacial entre transecções foi considerada relevante tanto para a riqueza quanto para a abundância em todos os modelos selecionados e, pelo menos para C. aura, a auto-correlação temporal também.
O resultado da abundância das três espécies estudadas ter sido melhor descrita em escalas diferentes é evidência da heterogeneidade do uso de hábitat entre as mesmas. Cathartes aura é a espécie de maior porte dentre as três estudadas, e apresenta uma estratégia de forrageamento que consiste em vasculhar grandes áreas em busca de carcaças (Fergusson-Lees e Christie 2001), o que pode explicar o fato da escala de 20 km ter sido a mais importante preditora de sua abundância. Heterospizias meridionalis possui um tamanho um pouco menor e não percorre áreas grandes ao caçar (Fergusson-Lees e Christie 2001) e, como esperado, sua abundância foi melhor descrita na escala intermediária de 10 km. Na mesma lógica, a menor espécie, Falco sparverius (Fergusson-Lees e Christie 2001), teve sua abundância melhor explicada na escala de 5 km. Nenhuma das três larguras de buffer obteve uma maior relevância na descrição da riqueza de aves de rapina. Isso pode ser conseqüência da grande diversidade de tamanho e modos de vida dessa assembléia de 26 espécies na área de estudo, já que, como visto na análise para a abundância, espécies com características diferentes respondem melhor à escalas distintas.
Duas observações são relevantes ao comparar os resultados da investigação de quais classes de cobertura de solo melhor descrevem a variação na abundância independente da escala e utilizando apenas a escala mais informativa. Em casos onde uma classe de cobertura vegetal possui uma importância relativa muito grande, o uso da escala mais informativa apenas corrobora o observado independente das escalas (os casos de F. sparverius e C. aura). Por outro lado, em situações onde o sinal é mais fraco, a utilização da escala mais informativa permitiu isolar a cobertura mais importante quando isso não foi possível no estudo independente da escala (o caso de H. meridionalis).
Das variáveis resposta analisadas, apenas a abundância de C. aura teve seu comportamento melhor descrito por uma cobertura vegetal de natureza antrópica (agricultura), com uma relação negativa. Esta espécie se alimenta quase exclusivamente de carcaças de outros animais e possivelmente o resultado deve-se à escassez desse recurso nas áreas de agricultura. F. sparverius é uma espécie comumente associada a hábitats abertos, e isso pode ser uma boa explicação para o fato de a proporção de florestas estacionais ter sido a melhor descritora da sua abundância, também com uma relação negativa. As coberturas de floresta estacional e de zona de transição foram as que melhor explicaram a variação na abundância de H. meridionalis, com relação negativa e positiva, respectivamente. Esse resultado, por sua vez, corrobora a hipótese de que essa espécie possui preferência por hábitats abertos, mas com características generalistas. Esses resultados demonstram a importância da paisagem regional na definição da estrutura e composição da assembléia de aves de rapina, mas também chamam a atenção para a necessidade da determinação apropriada da sua escala.
Referências bibliográficas
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Burnham, K.P. e Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
Crawley, M.J. 2007. The R Book. New York, Wiley.
Granzinolli, M.A.M. 2009. Levantamento, área de vida, uso e seleção de hábitat de Falconiformes na região central do Estado de São Paulo.
Fergusson-Lees, J. e Christie, D. A. 2001. Raptors of the World. Houghton Mifflin, New York, USA.
He, F. e Gaston, K.J. 2000. Occupancy-abundance relationships and sampling scales. Ecography 23:503–511
Lennon, J.J., Koleff, P., Greenwood, J.J.D. e Gaston, K.J. 2001 The geographical structure of British bird distributions: diversity, spatial turnover and scale. J. Anim. Ecol. 70:966–979
MacNally, R. 1997. Monitoring forest bird communities for impact assessment: the influence of sampling intensity and spatial scale. Biol. Conserv. 82:355–367
R Core Team. 2012. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.
Ribeiro, D.B., Batista, R., Prado, P.I., Brown, K.S. e Freitas, A.V.L. 2012. The importance of small scales to the fruit-feeding butterfly assemblages in a fragmented landscape. Biodivers. Conserv. 21:811-827
Skaug, H., Fournier, D., Nielsen, A., Magnusson, A. e Bolker, B. (2012). Generalized Linear Mixed Models using AD Model Builder. R package version 0.7.2.12.
Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A. e Smith, G.M. 2009. Mixed Effects Models and Extensions in Ecology with R. Springer, New York.
Ajustar o modelo só quer dizer que o modelo está ajustado. Ou não.
Danilo Muniz
A primeira vez que eu ouvi falar sobre ajuste de modelos foi quando eu cursei (como aluno de graduação) o "curso de campo do cerrado" da Unicamp, onde alunos de graduação e pós-graduação convivem e interagem, mas realizando tarefas diferentes. Em uma destas tarefas, os alunos da pós-graduação ajustaram o modelo da vara quebrada de MacArthur (1957) a dados de plantas lenhosas do cerrado. Ao constatar um ajuste adequado, eles concluíram que os mecanismos propostos pelo modelo deveriam estar organizando a comunidade. Nesse momento, um professor que assistia a apresentação através da janela disse: “Mas ajustar o modelo só quer dizer que o modelo está ajustado”, e então continuou, argumentando que outros mecanismos poderiam gerar o mesmo padrão do modelo de vara-quebrada. “Para que serve o ajuste de modelos?”, eu pensei, e esse questionamento me perseguiu por muito tempo e fomentou muitas discussões. Embora ainda haja muito pra discutir, agora eu consigo apontar alguns usos para o ajuste de modelos e o objetivo deste ensaio é explicar o que é o ajuste de modelos e indicar duas razões pelas quais ele é util, usando exemplos relacionados à ecologia comportamental.
Antes de explicar o que é um ajuste, preciso definir o que é um modelo. Neste contexto, um modelo é uma distribuição de probabilidades, normalmente gerada por uma função matemática (Bolker 2008). Dessa forma, um modelo diz o quão provável é a observação de um dado ou de um conjunto de dados. Modelos comumente possuem diversos parâmetros numéricos e ajustar um modelo significa encontrar os valores de parâmetros que tornam os dados mais prováveis segundo o modelo. Se a explicação pareceu confusa, saiba que fazer uma análise de regressão linear é ajustar um modelo gaussiano com variância constante a um conjunto de dados. E que o intercepto e a inclinação são os parâmetros do modelo.
Voltando ao ajuste, para encontrar os valores de parâmetro que tornam os dados mais prováveis, temos que de alguma forma estimar o quanto os dados são prováveis dado o modelo. Esta medida de probabilidade de algo que já ocorreu (os dados), dado um modelo, é o que chamamos de verossimilhança (Royall 2007, Bolker 2008). E, portanto, um modelo ajustado é aquele em que se maximiza a verossimilhança. Por razões de praticidade matemática, na prática o ajuste de modelos minimiza a log-verossimilhança negativa. Mas a idéia é a mesma. Os parâmetros do modelo ajustado são chamados MLEs, maximum likelihood estimates (Bolker 2008).
Neste sentido, qualquer modelo sempre pode ser ajustado a qualquer conjunto de dados que siga o “formato de dados” previsto pelo modelo. Qualquer modelo projetado para dados contínuos pode ser ajustado a qualquer conjunto de dados contínuos. Mas quando meus colegas afirmaram ter ajustado o modelo de vara quebrada, algo mais estava implícito ali. Eles não queriam dizer apenas que tinham encontrado os parâmetros certos, mas principalmente que o modelo com os parâmetros ajustados conseguia prever adequadamente seus dados, a curva gerada pelo modelo era muito semelhante à curva dos dados. Mas ajustar o modelo é apenas “calibrar”, seus parâmetros, e, portanto, ajustar o modelo só quer dizer que ele está ajustado. O ajuste é um meio, não um fim.
E qual é, então, a finalidade do ajuste de modelos? Para que serve isso? Provavelmente o ajuste de modelo tem outras finalidades que eu ignoro no momento, mas por enquanto minha resposta para esta pergunta é: duas coisas.
A primeira coisa são as estimativas de parâmetros em si. Meu argumento aqui é que os MLEs de um bom modelo são informação sobre o sistema de estudo. Caso um modelo se mostre uma descrição relativamente fidedigna dos dados, ou tenhamos motivos teóricos para pensar que o modelo reproduz de alguma forma processos biológicos, os parâmetros do modelo nos dirão algo sobre o que acontece em nosso sistema de estudo. Digamos que ajustamos um modelo que descreve o comprimento da cauda dos pavões com base na massa corporal dos animais e seu número de parasitas intestinais. Os MLEs deste modelos nos dirão, entre outras coisas, se há efeito dos parasitas sobre a cauda do pavão, qual a intensidade deste efeito, e seremos capazes de estimar um intervalo de plausibilidade para esta medida de intensidade de efeito.
Com dados de marcação e recaptura, por exemplo, técnicas de ajuste de modelos nos permitem estimar a sobrevivência dos indivíduos, descontando a chance de um indivíduo não ter sido recapturado simplesmente porque não foi detectado. E esta capacidade de estimativa revolucionou os métodos de marcação e recaptura, permitindo que medidas de sobrevivência pudessem fazer parte de hipóteses ecológicas mais complexas (Lebreton et al. 1992).
A segunda utilidade do ajuste de modelos é que, ao ajustar um modelo, você pode compará-lo a outros modelos. Ao ajustar cada modelo, é necessário calcular a verossimilhança dos dados segundo aquele modelo, ou seja, o quão prováveis são os dados segundo aquele modelo específico. Nossa intuição é que o modelo que melhor prevê os dados, aquele que aponta a maior probabilidade de observar os dados, deve ser o mais correto. Este é o princípio da verossimilhança, apenas apresentado de uma forma um tanto informal. E, operacionalmente, ele quer dizer que o modelo com a maior verossimilhança (ou a menor log-verossimilhança negativa) é o melhor modelo para seus dados, dentre os disponíveis (Bolker 2008).
A chave na abordagem de comparação de modelos é associar a cada modelo uma hipótese. Dessa forma, o fato de um modelo apresentar a menor log-verossimilhança negativa (dentro de um conjunto de modelos), se torna evidência a favor da hipótese associada àquele modelo (Royall 2007). Nesse sentido, é preciso especificar cada hipótese como um modelo probabilístico, mas isso é menos complexo do que parece a primeira vista. Especificar hipóteses desta forma requer algum conhecimento matemático, mas nada fora do alcance de alguém que conseguiu entender como funciona um teste t. E, para nossa alegria, a literatura está cheia de distribuições de probabilidades e outras ferramentas que podem ser combinadas para traduzir uma hipótese em uma distribuição de probabilidades (ver o cap. 3 de Bolker 2008). Além disso, com uma mesma distribuição de probabilidades “base” é possível estabelecer múltiplas hipóteses utilizando diferentes variáveis preditoras.
Vale ressaltar que a possibilidade de poder testar múltiplas hipóteses é algo a ser valorizado na ciência. Chamberlin (1890), em seu clássico artigo sobre o “método de hipóteses múltiplas”, argumenta que a melhor maneira de estudar um fenômeno é elencando todas as hipóteses possíveis e testando todas elas. Dessa forma não apenas aumentamos a eficiência com a qual eliminamos hipóteses incorretas (Platt 1964) como escapamos do risco de nos apegarmos excessivamente a uma hipótese específica. E a seleção de modelos por verossimilhança é uma ferramenta estatística projetada especificamente para esse fim.
Testar múltiplas hipóteses é um ganho, principalmente, em relação ao paradigma frequentista de testar uma hipótese de interesse contra uma hipótese nula. Ajustar múltiplos modelos (e confrontá-los) nos permite avaliar múltiplas hipóteses ao mesmo tempo, sem termos de nos preocupar com o fato de usar o mesmo conjunto de dados várias vezes (algo muito problemático nos testes frequentistas). Além disso, a medida de verossimilhança gerada pelo ajuste de modelos é evidência a favor da hipótese associada ao modelo, enquanto um teste de hipótese clássico é, no máximo, evidência contra a hipótese nula, na qual usualmente não temos qualquer interesse (Royall 2007, Burnham et al. 2011).
No ramo da ecologia comportamental, é comum existirem várias hipóteses concorrentes para explicar um mesmo fenômeno. Por exemplo, há muitas teorias tentando explicar as cópulas extra-par de fêmeas socialmente monogâmicas (Kempenaers e Dhont 1993), qual o mecanismo por trás da evolução de ornamentos chamativos dos machos (Maynard-Smith 1991, Jones e Ratterman 2009) ou das disputas entre machos pelo acesso às fêmeas (e.g. Parker 1974, Enquist 1983). Entretanto, mesmo quando um estudo se propõe a testar múltiplas hipóteses, o procedimento comumente usado é derivar múltiplas previsões (nem sempre mutuamente excludentes) de cada hipótese e testar cada previsão com um teste de hipótese separado (e.g. Kelly 2006, Jones et al. 2012). Até pode parecer uma boa idéia a princípio (ou não), mas note que há grande potencial para que nenhuma hipótese seja apoiada ou que múltiplas hipóteses recebam algum suporte, e nesse caso não há nenhum critério para decidir o quão forte é a evidência contra ou a favor de cada uma delas. Neste contexto, a ecologia comportamental tem muito a ganhar adotando uma abordagem de seleção de modelos (Burnham et al. 2011). O principal desafio reside em traduzir décadas de teorias verbais e matemáticas em modelos probabilísticos.
Finalizando, ajustar o modelo quer dizer que o modelo está ajustado? Sim, mas se o cientista fizer seu dever de casa e ajustar múltiplos modelos, referentes a múltiplas hipóteses, seu ajuste de modelo é evidência a favor de uma hipótese e o ajudará a entender seu universo de estudo. E não é para isso que fazemos ciência?
Referências
Bolker, B.M. 2008. Ecological Models and Data in R Princeton: Princeton University Press.
Burnham, K.P., Anderson, D.R e Huyvaert, K.P. 2011. AIC model selection and multimodel inference in behavioral ecology: some background, observations and comparisons. Behavioral Ecology and Sociobiology, 65: 23-35.
Chamberlin, T.C. 1890. The method of multiple working hypothesis. Science Vol. 15, No. 336: 92-96.
Enquist, M. 1983. Evolution of fighting behaviour: decision rules and assessment of relative strength. Journal of Theoretical Biology, 102: 387-410.
Jones, A.G. e Ratterman, N.L. 2009. Mate choice and sexual selection: what have we learned since Darwin? PNAS, 106: 10001-10008.
Jones, M.G.W., Techow, N.M.S.M. e Ryan, P.G. 2012. Dalliances and doubtful dads: what determines extra-pair paternity in socially monogamous wandering albatrosses? Behavioral Ecology and Sociobiology, 66: 1213-1224.
Kelly, C.D. 2006. Fighting for harems: assessment strategies during male-male contests in the sexually dimorphic Wellington tree weta. Animal Behaviour, 72: 727-736.
Kempenaers, B. e Dhont, A.A. 1993. Why do females engage in extra-pair copulatios? A review of hypothesis and their predictions. Belgian Journal of Zoology, 123: 93-103.
Lebreton, J., Burnham, K.P., Clobert, J. e Anderson, D.R. 1992. Modeling survival and testing biological hypotheses using marked animals: a unified approach with case studies. Ecological Monographs, 62: 67-118
MacArthur, R.H. 1957. On the relative abundance of bird species. PNAS, 43: 293-295
Maynard-Smith, J. 1991. Theories of sexual selection. TREE, 5: 146-151.
Parker, G.A. 1974. Assessment strategy and the evolution of fighting behaviour. Journal of Theoretical Biology, 47: 223-243.
Platt, J.R. 1964. Strong inference. Science Vol. 146, No. 3642: 347-353.
Royall, R. M. (2007) The likelihood paradigm for statistical evidence. In: The nature of scientific evidence (eds. M.L. Taper and S.R. Lele), University of Chicago Press, pp 119–152
Abrindo a Caixa Preta dos Modelos Lineares Generalizados para Análise de Dados Ecológicos
Melina de Souza Leite
Considerados como um dos mais importantes desenvolvimentos estatísticos dos últimos 30 anos (Guisan et al 2002), os modelos lineares generalizados (GLMs) tem sido extensivamente aplicados em pesquisas ecológicas, como visto pelo crescente número de artigos publicados incorporando esta moderna ferramenta de regressão. Isto ocorreu, em parte pela habilidade destes modelos de lidar com diversas distribuições que definem dados ecológicos, e também devido ao fato de se parecerem bem com técnicas tradicionais usadas em modelagem linear e análise de variância (Guisan et al. 2002). O aumento atual do uso de GLMs ocorreu também devido ao maior acesso às técnicas de análises com o desenvolvimento computacional de programas (e ambientes) estatísticos voltados a pesquisadores das áreas biológicas. Em vista do potencial uso destes modelos e à facilidade atual de análise computacional, este ensaio tem o objetivo de esclarecer brevemente o que é um modelo linear generalizado e entender porque os modelos lineares gerais (ANOVA, regressão linear) foram e ainda são tão empregados nas análises de dados ecológicos mesmo havendo melhores possibilidades de análises por GLMs. Por fim, utilizo dados de minha dissertação de mestrado para comparar os resultados de uma análise de dados por análise de variância e por modelos lineares generalizados com distribuição binomial de erros.
A idéia básica de um modelo linear é predizer o valor esperado de uma dada variável aleatória (Y) como uma combinação linear de um grupo de valores de uma ou mais variáveis preditoras (x). Ou seja, os modelos são funções lineares dos parâmetros, não necessariamente das variáveis preditoras (Bolker 2008). Os modelos lineares generalizados foram formulados por Nelder & Weddenburn (1972) como uma flexível generalização da regressão linear de maneira a unificar vários modelos estatísticos a partir de um algoritmo geral para a estimativa de máxima verossimilhança destes modelos. Desta maneira, os GLMs permitem analisar modelos que possuem tipos particulares de não-linearidade e estruturas de variância não constante, através do uso das funções de ligação, que são a relação entre a média da variável aleatória e a combinação linear das variáveis preditoras. Ou seja, se y é uma função de x, deve haver alguma função F, cujo F(f(x)) seja uma função linear de x (Bolker 2008). O procedimento para ajuste de GLMs usa a função F ajustada aos dados na escala linearizada (F(y) = F(f(x))) enquanto calcula a variância esperada na escala não transformada para corrigir a distorção que a linearização poderia induzir de alguma forma (Bolker 2008). Os GLMs são ajustados por um processo chamado de regressão linear ponderada iterativa (em inglês “iterative weighted linear regression”) (Nelder & Weddenburn 1972). Dada uma estimativa dos parâmetros da regressão, e sabendo a relação entre a variância e a média de uma distribuição particular, pode-se calcular a variância associada a cada ponto. Com esta variância estimada, pode-se re-estimar os parâmetros da regressão ponderando cada ponto de dados pelo inverso da sua variância; novas estimativas dos parâmetros trará outras estimativas de variância, assim por diante (Bolker 2008).
Fazem parte dos GLMs as distribuições de probabilidade da família exponencial: gaussiana, Poisson, binomial e gamma. Segundo Quinn & Keough (2002), se y é uma variável contínua, provavelmente possui distribuição normal; se Y é binário (e.g. vivo ou morto), a distribuição de probabilidade deve ser binomial; se Y representa dados de contagem a distribuição de probabilidade deve ser Poisson. A distribuição gamma é geralmente utilizada em dados de taxas de sobrevivência de indivíduos em uma população. Para cada tipo de distribuição dos erros existe uma função de ligação adequada para linearização dos parâmetros. Por exemplo, para distribuições de erro Poisson a função de ligação é a log, cujo y= exp(a+bx), que permite que os valores de x não sejam negativos. Para a distribuição binomial, onde temos uma curva logística da probabilidade de uma observação, a função de ligação é a logit (inverso da logística), permitindo que y varie entre 0 e 1. Modelos lineares gerais podem ser considerados um caso particular de GLM cuja distribuição dos erros é normal, utilizando a função de ligação identity, que prediz a estimativa dos parâmetros exatamente como uma função linear da variável resposta (y=f(x)).
Tipicamente, muitos dados ecológicos não possuem distribuição normal e não possuem variâncias constantes para uma aplicação direta da regressão linear, e por isso a abordagem mais correta seria o uso de GLMs com as funções de ligação mais adequadas ao tipo de distribuição dos dados. Entretanto, o precedido desenvolvimento dos modelos lineares gerais por R.A. Fisher no início do século passado, e suas facilidades de aplicação tornaram-no muito populares para análises de dados ecológicos. Para isso, muitos pesquisadores utilizaram-se da transformação dos dados para adequação à normalidade, o que muda também a variância dos dados (Bolker 2008) e pode resultar em perda de informação, não garantindo a premissa de homogeneidade de variâncias. Além das facilidades analíticas e da possibilidade de transformação dos dados, o Teorema Central do Limite me parece outro motivo para o emprego de modelos de distribuição normal dos erros em análises de dados. Este teorema explica porque muitas distribuições tendem a ser próximas de uma distribuição normal, afirmando que quando o tamanho da amostra aumenta independente de sua distribuição de probabilidades, a distribuição amostral da sua média aproxima-se cada vez mais de uma distribuição normal. O ingrediente-chave é que a variável aleatória sendo observada poderia ser a soma ou média de muitas variáveis aleatórias distribuídas independentemente, convergindo então para uma distribuição normal com média mu e desvio padrão sigma2. Entretanto, o que não é comum em dados ecológicos é um tamanho amostral grande o suficiente que garanta uma aproximação normal da distribuição.
Atualmente, a transformação dos dados e a provável violação de premissas, como homogeneidade de variâncias, para adequação a uma distribuição normal dos erros não é mais justificável em vista do fácil acesso às ferramentas estatísticas e computacionais para construção de modelos lineares generalizados. Para exemplificar estas duas abordagens, conduzi duas análises de dados da minha dissertação de mestrado feitas por análise de variância com transformação dos dados e por modelos lineares generalizados. Minha pergunta era entender se e como sexo e período da noite influenciavam no padrão de atividade da cuíca d'água Chironectes minimus. Meus dados são de registros de atividade noturna de indivíduos monitorados por radiotelemetria (colares com sensor de movimento). Como a duração da noite varia muito ao longo do ano, eu dividi as noites de monitoramento em 4 períodos de igual tamanho para permitir comparação. Desta forma, eu tinha o número de localizações ativas e inativas em cada período da noite, em cada noite para cada indivíduo. Inicialmente, transformei os dados em proporção de localizações ativas em cada período da noite (dividindo o número de localizações ativas pelo total) e os transformei para o arcoseno da raiz quadrada, observando o ajuste à distribuição gaussiana através da inspeção visual de gráficos quantil-quantil dos resíduos pelos valores esperados. Inicialmente, apliquei uma análise de variância de dois fatores - sexo e período da noite- para a proporção de localizações ativas transformadas. O resultando indicou um influência significativa do período da noite e do sexo, sem a influência da interação entre estas variáveis (Figura 1). Entretanto, a correta análise destes dados, pela natureza binomial da variável aleatória, deveria ser conduzida por um GLM com distribuição de erros binomiais e a função de ligação logit. Na verdade, seria necessário uma análise de efeitos mistos (Zuur et al 2009), que incorporassem a noite e o indivíduo como fatores aleatórios no modelo, principalmente para lidar com a grande variância dos dados. Para simplificar as análises neste ensaio, ignorei os efeitos mistos construindo um GLM para testar se a probabilidade do animal estar ativo é influenciada por sexo e período da noite. Os resultados foram diferentes da ANOVA, pois neste o efeito da interação entre sexo e período da noite foi importante (Figura 2). Com este exemplo, podemos ver que a tentativa de utilização de uma ANOVA para dados que claramente seguem uma distribuição binomial pode levar a interpretação de resultados bem diferentes.
Figura 1. Resultado do ajuste dos dados de proporção de localizações ativas de machos e fêmeas da cuíca d'água em 4 períodos da noite por uma análise de variância. Fêmea - linha pontilhada; Macho - linha contínua.
Figura2. Resultado do ajuste dos dados de probabilidade de se estar ativo para machos e fêmeas da cuíca d'água em 4 períodos da noite por um modelo linear generalizado com distribuição binomial de erros.
Acredito que uma maneira mais elegante de análise destes dados é através da abordagem estatística de seleção de modelos por máxima verossimilhança (Burnham & Anderson 2002), onde eu posso analisar os ajustes de modelos baseados em diferentes hipóteses com o mesmo conjunto de dados, e compará-los utilizando o Critério de Informação de Akaike, que nada mais é do que uma medida relativa de ajuste de um modelo. Esta abordagem, além de não restringir as análises ao teste da probabilidade de se recusar a hipótese nula de ausência de efeitos - como numa análise de variância, me permite compara várias hipóteses alternativas ao mesmo tempo, e selecionar aquela(as) com o melhor ajuste. Seguindo esta abordagem, construi modelos GLMs a partir de todas as combinação das variáveis preditoras (sexo e período da noite) e da hipótese de ausência de efeito. Encontrei que a hipótese mais plausível considera um efeito da interação entre sexo e período da noite para a probabilidade dos animais estarem ativos durante seu horário de atividade (Figura 2). Uma análise simples, muito mais adequada e informativa, que me possibilitou conhecer novas abordagem de análise de dados e abrir, sem receios, a caixa preta dos modelos lineares generalizados.
Referências
Bolker B. M. 2008. Ecological models and data in R. Princeton University Press.
Burnham, K. P. & D. R. Anderson. 2002. Model selection and multimodel inference: A pratical information - Teoretic approach. Springer.
Nelder, J.A. & Wedderburn, R.W. 1972. Generalized Linear Models. Journal of the Royal Statistical Society A, 135(3): 370-384.
Guisan et al 2002. Generalized linear and generalized additive models in studies of species distributions: setting the scene. Ecological Modelling 157: 89-100
Quinn, G.P. & Keough., M.J. 2002. Experimental Design and Data Analysis for Biologists. Cambridge University Press.
Zuur, A.F.; Ieno, E.N; Walker, N.J.; Saveliev, A.A. & Smith, G.M. 2009. Mixed Effects Models and Extensions in Ecology with R. Springer.
Seleção de modelos em estudos de escolha de habitat e de ecofisiologia de hilídeos
Maya Romano Maia
Seleção de modelos
A seleção de modelos como alternativa ao teste de hipóteses tradicional ganhou muita importância em estudos ecológicos recentes (Whittingham et al., 2006). Quando há mais de uma hipótese plausível, a seleção de modelos evita restringir a análise a uma única hipótese. Além disto, a significância do teste não é medida por limites arbitrários, como no teste de hipóteses tradicional (Burnham & Anderson, 2002).
Na seleção de modelos, as hipóteses concorrentes são representadas por diferentes modelos que são confrontados simultaneamente com um conjunto de dados (Burnham & Anderson, 2002). Quando se tem mais de um modelo, eles são pesados e ranqueados, de forma a obter uma medida quantitativa relativa de força para cada modelo comparado (Johnson & Omland, 2004). Assim, a seleção de modelos permite fazer inferências com base em uma ponderação dos modelos concorrentes, de forma a alcançar o que melhor se aproxima da realidade (Burnham & Anderson, 2001).
Por não se tratar de um teste estatístico e sim de uma medida de distância relativa, a seleção é restrita aos modelos que o pesquisador decidiu comparar e não diz qual é a qualidade deles individualmente (Burnham & Anderson, 2002). Por essa razão, é inapropriado interpretar os resultados com foco em um único modelo melhor (Whittingham et al., 2006), quando na verdade podem existir modelos melhores ainda não propostos. Uma opção para casos em que os modelos concorrentes são muito próximos é fazer uma estimativa de parâmetros mais robusta ao tirar a média entre eles (Johnson & Omland, 2004).
Distância estatística
A seleção de modelos, portanto, é uma medida de distância relativa. Para que a distância relativa seja calculada, é necessário definir uma forma de medir a divergência entre os modelos. Esta medida representa qual é a distância entre duas distribuições de probabilidades ou dois modelos teóricos de populações estatísticas (Burnham & Anderson, 2001). Existem várias medidas de divergências estatísticas (Ullah, 1996), como a divergência Kullback-Leibler (K-L), utilizada para gerar o Índice de Akaike. A medida de Kullback-Leibler, por exemplo, é a informação perdida quando um modelo é usado para a aproximação da realidade (Burnham & Anderson, 2001). Na aplicação desta distância, a análise busca um modelo que, ao se aproximar de outro, perca a menor quantidade de informação possível (Burnham & Anderson, 2001). A medida de K-L é representada pela equação da diferença das funções de massa probabilística, ponderada pela aproximação do modelo verdadeiro (Burnham & Anderson, 2001).
O que Akaike fez foi encontrar a relação matemática formal entre a informação K-L e a máxima verossimilhança. Esta relação pode ser vista com detalhe em Burnham & Anderson, 2002. De forma bem simplificada, isso foi feito rearranjando a equação da distância K-L e substituindo partes da equação que dependem exclusivamente dos valores de P(x) (a aproximação do modelo verdadeiro, o qual não conhecemos) por uma constante. Com isso, a equação se reduz a uma expressão de distância relativa onde só não conhecemos os valores do modelo verdadeiro e dos parâmetros dos modelos de aproximação. Porém, podemos aproximar o comportamento do modelo verdadeiro através de uma amostra ampla, pois, se a amostra for suficientemente grande, seria esperado que os valores nela presentes representassem bem a distribuição de probabilidades real (Burnham & Anderson, 2002).
Desta forma, ao inferir sobre os valores do modelo verdadeiro, resta na equação apenas uma variável desconhecida, composta pelos parâmetros dos modelos de aproximação. Ou seja, o Critério de Informação de Akaike tornou possível estimar os parâmetros a partir dos dados de uma amostra grande.
Akaike também descobriu que havia um vício na máxima log-verossimilhança relacionado ao número de parâmetros. Isso ocorre, pois quanto maior o número de variáveis em um modelo, maior sua generalidade, mas, em contrapartida, isso também implica em uma menor capacidade preditiva. Por outro lado, se levarmos em conta o critério de parcimônia, os modelos são menos gerais, mas têm melhor capacidade preditiva.
Recapitulando, além de relacionar a função de máxima verossimilhança e a distância K-L, o Critério de Informação de Akaike também faz uma correção que penaliza modelos com mais parâmetros. Assim, o Critério de Informação de Akaike é um critério que faz essa correção, mas, também, busca as interações entre os fatores potenciais que melhor expliquem o comportamento da variável resposta (Bozdangan, 1987).
Seleção de variáveis
Muitos estudos em ecologia buscam determinar quais fatores ambientais influenciam características de determinadas espécies. De forma geral, este processo envolve muitas covariáveis ou múltiplas interações. Como o conjunto de variáveis preditoras pode conter algumas que sejam redundantes ou irrelevantes, deve se realizar uma seleção dessas variáveis (Geaghan, 2007).
Existem várias técnicas de seleção de modelos, uma delas, a seleção de variáveis por passos (stepAIC), pode ser empregada para identificar o modelo que contém a combinação que melhor explica a variável resposta (Burnham & Anderson, 2002).
Para automatizar a seleção de variáveis, existem os procedimentos de seleção Forward, Backward e Stepwise. Esses métodos variam quanto a critérios e ordem de adição e remoção das variáveis (Geaghan, 2007). A seleção Forward inicia a busca pelos modelos sem variáveis e as adiciona uma a uma, de acordo com a que possuir o maior coeficiente de correlação (Quinn & Keough, 2002). A seleção Backward é o oposto da Forward, na qual todas variáveis são incluídas inicialmente e a com o menor coeficiente de correlação é eliminada. Por último, a seleção Stepwise é uma modificação da seleção Forward na qual, a cada passo, todas as variáveis do modelo são verificadas e podem ser retiradas por seleção Backward (Quinn & Keough, 2002). Isso ocorre pois uma variável adicionada no modelo na etapa anterior pode ser redundante para o modelo seguinte devido à sua influência nas outras variáveis. Por essa razão os procedimentos de seleção eliminam ou adicionam uma variável por vez (Geaghan, 2007).
Independente dos procedimentos de seleção, o stepAIC permite estimar a dimensionalidade de um conjunto de dados ao alterar as variáveis buscando o modelo cujo valor de AIC é o menor (Bolker, 2008). Isto significa que, ao ajustar seus parâmetros de modo que se aproxime do modelo verdadeiro, esse modelo perdeu a menor quantidade de informação possível, ou seja, apresentou a menor distância K-L (Burnham & Anderson, 2001).
Aplicação na seleção de microambientes em hilídeos
Devido à alta permeabilidade da superfície corpórea de anfíbios, a maior parte das espécies apresenta baixa resistência da pele à perda de água quando comparados a outros tetrápodes (Whiters et al., 1984). Como consequência, para anfíbios, a disponibilidade hídrica do ambiente deve representar um fator determinante tanto na utilização dos microambientes quanto na coevolução de aspectos comportamentais e fisiológicos associados ao balanço hídrico (Shoemaker et al., 1992).
Meu estudo busca entender como hilídeos, um grupo de anfíbios especialmente variado em resistência da pele e plasticidade comportamental (Young et al., 2005), equilibra esses atributos na ocupação de microambientes. Isso, em conjunto com diferentes características comportamentais de estratégia de busca de água, sugere padrões de coadaptação interespecíficas relacionados à prevenção da perda de água (Titon Jr. et al., 2010).
Dentro da minha pesquisa, parte dos meus objetivos é explicar a variação na resistência da pele de hilídeos contra a desidratação (RPAE) de acordo com caracteres dos sítios de vocalização escolhidos.
Para ilustrar uma seleção de modelos usando o Critério de Akaike, realizei o procedimento de StepAIC com a seleção Backward, pois desejo observar o surgimento de modelos mais simples e com menos parâmetros a partir de um modelo global. Assim, pretendo descobrir quais variáveis ambientais explicam a resistência da pele dos hilídeos (RPAE) que ocupam estes microambientes. Dentre as variáveis testadas estavam a temperatura do solo (temp.solo), a temperatura do ar (temp.ar), a umidade relativa do ar (UR), a distância do corpo d'água mais próximo (dist.água), a altura do ponto de vocalização (altura) e o potencial de desidratação do microambiente (pot).
Porque foram usados dados preliminares, o número amostral foi pequeno comparado ao de parâmetros. Em decorrência disso, não levei em conta as interações entre as variáveis ambientais, somente entre cada variável ambiental e a variável independente (RPAE).
> head(dados) espécie RPAE temp.solo temp.ar UR dist.água altura pot H. multilineata 3.50 19 24.50 63.0 13 13 -7.1 S. crospedospilus 3.13 17 20.20 63.0 132 56 0.6 S. crospedospilus 3.13 17 18.80 78.0 219 77 0.1 S. crospedospilus 3.13 20 22.80 63.0 126 69 0.1 S. hayii 3.51 21 19.42 74.7 218 83 0.0 S. crospedospilus 3.13 21 19.42 76.4 130 59 0.0 > require(nlme) Loading required package: nlme > require(MASS) Loading required package: MASS > M1=glm(RPAE ~ 1+temp.solo+temp.ar+UR+dist.água+altura+pot, data = dados) > stepAIC(M1,direction="backward") Start: AIC=66.09 RPAE ~ 1 + temp.solo + temp.ar + UR + dist.água + altura + pot Df Deviance AIC altura 1 11.606 64.672 temp.solo 1 11.659 64.782 <none> 11.328 66.091 dist.água 1 12.398 66.257 temp.ar 1 12.546 66.542 pot 1 12.902 67.212 UR 1 13.794 68.818 Step: AIC=64.67 RPAE ~ temp.solo + temp.ar + UR + dist.água + pot Df Deviance AIC temp.solo 1 11.900 63.273 <none> 11.606 64.672 dist.água 1 13.629 66.529 pot 1 13.705 66.662 temp.ar 1 14.123 67.383 UR 1 15.766 70.024 Step: AIC=63.27 RPAE ~ temp.ar + UR + dist.água + pot Df Deviance AIC <none> 11.900 63.273 dist.água 1 15.512 67.634 pot 1 16.251 68.752 temp.ar 1 17.050 69.903 UR 1 19.506 73.133 Call: glm(formula = RPAE ~ temp.ar + UR + dist.água + pot, data = dados) Coefficients: (Intercept) temp.ar UR dist.água pot 19.988122 -0.555218 -0.084501 0.002411 -0.380494 Degrees of Freedom: 23 Total (i.e. Null); 19 Residual Null Deviance: 26.85 Residual Deviance: 11.9 AIC: 63.27
Resultado
De acordo com os resultados da seleção de modelos por meio do procedimento de seleção Backward, na primeira etapa foi removida a variável do sítio de vocalização (altura) e na segunda a temperatura do solo (temp.solo). Portanto, o modelo de menor AIC foi RPAE ~ temp.ar + UR + dist.água + pot e, em seguida, RPAE ~ temp.solo + temp.ar + UR + dist.água + pot. Sendo a diferença de AIC entre esses dois modelos menor do que 2, a variável de temperatura do solo, pode ou não ser incluída no modelo. Neste caso, o critério de parcimônia sugere que a resistência contra a perda de água evaporativa (RPAE) é melhor explicada com modelos que não incluam a variável “temperatura do solo”.
Referências bibliográficas
Bolker, B. 2007. Ecological Models and Data in R. New york, Princeton University Press.
Bozdongan. H. 1987. Model selection and Akaike's Information Criterion (AIC): The general theory and its analytical extensions. Psychometrika (52)3, 345-370.
Burnham, K. P & Anderson, D. R. 2001. Kullback-Leibler information as a basis for strong inference in ecological studies. Wildlife Research (28): 111-119.
Burnham, K. P & Anderson, D. R. 2002. Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach. New York, Springer.
Geaghan J. P. 2007. EXST7015 Statistical techniques II: Course notes. USA. 403pp.
Jerald B. Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. TRENDS in Ecology and Evolution 19(2): 101-108.
Quinn, G. P; Keough, M. J. 2002. Experimental Design and Data Analysis for Biologists. New York, Cambridge University Press.
Titon Júnior, B. 2010. Balanço hídrico e desempenho locomotor em espécies de anuros de Mata Atlântica e Cerrado. 72f. Dissertação (Mestrado em Ciências Biológicas) - Instituto de Biociências de Botucatu, Universidade Estadual Paulista, Botucatu, 2010.
Ullah, A. 1996. Entropy, divergence and distance measures with econometric applications. Journal of Statistical Planning and Inference (49): 137-162.
Whiters, P. C; Hillman, S. S; Drewes, R. C. 1984. Evaporative water loss and skin lipids of anuran amphibians. Journal of Experimental Zoology 232(1) :11-17.
Whittingham, M. J; Stephens, P. A; Bradbury, R. B; Freckleton, R. P. 2006. Why do we still use stepwise modelling in ecology and behaviour? Journal of Animal Ecology (75): 1182-1189.
Young, J. E., K. A. Christian, S. Donnellan, C. R. Tracy, D. Parry. (2005). Comparative Analysis of Cutaneous Evaporative Water Loss in Frogs Demonstrates Correlation with Ecological Habits. Physiol. Biochem. Zool. 78(5):847-856.
GLMs e os Modelos de Ocupação
Marina Xavier da Silva
Todos os tópicos abordados pela disciplina foram e serão bastante aplicáveis e úteis na análise dos meus dados de mestrado. Particularmente, a análise de dados com erros ou resíduos com distribuição não-normal eram especialmente menos incompreensíveis e despertavam maior curiosidade a respeito de sua aplicação e interpretação. Com a disciplina, fui apresentada aos Modelos Lineares Generalizados (GLMs) e pude relacioná-los aos modelos de ocupação que serão utilizados com dados coletados de mamíferos de médio e grande porte em meu mestrado.
GLMs são aplicáveis para situações onde a variância não é constante e/ou quando os erros não seguem uma distribuição normal. Situações como esta são particularmente comuns em dados coletados de campo como, por exemplo, uma variável resposta integral com zeros inflados, ou dados de proporção (número de sucessos em n tentativas Bernoulli) (Crawley, 2007). Mais simples e usuais são os modelos lineares clássicos (Y= Xβ + ε) com ε seguindo uma distribuição normal, µ=0 e σ=1. Modelos Lineares Generalizados, todavia, lidam bem com distribuições binomiais e poisson, e regressão logística, por exemplo, onde a variável resposta é categórica, e o melhor ajuste entre as variáveis se dá através de uma curva em formato de S, aumentando a partir de um mínimo até uma assíntota máxima (Gotelli & Ellison, 2011). O que os modelos GLMs fazem é usar uma função de ligação dos parâmetros para expressar a relação linear entre covariáveis (Mackenzie et al.,2006). A interpretação no caso da regressão logística, é que a relação entre os parâmetros passa a ser linear por conta da transformação (logit=ln(p/1-p) = β0 + β1X), mas não podemos usar esta interpretação diretamente nos nossos dados. O valor predito de y é obtido aplicando a equação inversa do logit (p=exp(β0 + β1X)/1+exp(β0 + β1X)).
A função logit é usada na regressão logística para dados Bernoulli, ou seja, uma variável aleatória que pode assumir apenas dois valores, como, por exemplo, se uma espécie está presente (1) ou ausente (0) em uma determinada área. Neste caso, podemos usar distribuições binomiais onde é possível verificar o número de sucessos em um conjunto finito de valores, em função de variáveis preditoras contínuas ou discretas. A função de transformação logit pega a combinação linear dos valores de covariáveis (que podem assumir qualquer valor entre + infinito) e converte estes valores para a escala da probabilidade que está entre 0 e 1. A melhor estimativa dos parâmetros e respectivos erros, neste caso, não pode seguir o método dos mínimos quadrados, já que o termo do erro da equação vem de uma distribuição binomial, em vez de uma distribuição normal como no modelo linear clássico. A melhor estimativa dos parâmetros e respectivos erros padrões são gerados por funções de máxima verossimilhança (Gotelli & Ellison, 2011).
Modelos de ocupação são utilizados para estimar a probabilidade de uma espécie ocupar um determinado sítio corrigido pela detecção imperfeita baseado em históricos de detecção/não detecção. A ocupação (Ψ) é a probabilidade de um sítio estar ocupado (x) por uma espécie (pelo menos um indivíduo da espécie de interesse) entre um total de sítios amostrados (s) (Ψ^ =x/s). Todavia, dado que x não é um valor conhecido devido a falsas ausências (a espécie está presente mas não foi detectada), teremos sempre, na verdade, a contagem de sítios onde a espécie foi detectada, subestimando o valor de x. Assim, o que os modelos de ocupação fazem é estimar a probabilidade de detecção e então o número de sítios ocupados (x) (Ψ^ =x^/s) (MacKenzie et al., 2006). Tais modelos são bastante úteis para estudos populacionais e de comunidade, principalmente para espécies de difícil detecção como mamíferos. Nos modelos de ocupação podemos utilizar várias hipóteses para calcular o estado de ocupação Oi (1 quando presente e 0 para o contrário) de uma amostra com sítios i, a partir dos resultados de uma variável Bernoulli com probabilidade de ocupação Ψ: Oi ~ Bernoulli (Ψ) (Sollmann et al., 2012).
Os parâmetros de ocupação (Ψ) e a detecção (p) podem ser modelados como funções de covariáveis como, por exemplo, tipo de hábitat, tamanho do fragmento, chuva, temperatura, distância de rodovias. Por se tratar de probabilidades de uma distribuição binomial, o logit é a função de ligação mais apropriada para estes modelos. Assim, temos: Ψ ou p= exp(βo + β1xi)/1+exp(βo + β1xi). Os coeficientes da regressão β1+ β2…. βu, que são estimados por máxima verossimilhança, determinam se o efeito existe, inexiste, se é positivo ou negativo e qual o seu tamanho. O coeficiente β0 é o intercepto da equação e o valor de referência, representando uma das covariáveis do modelo (MacKenzie et al., 2006).
Um exemplo da aplicação dos GLMs nos modelos de ocupação seria: supondo a hipótese que a probabilidade de detecção de cutias seja influenciada por três tipos distintos de hábitat em uma região hipotética de Mata Atlântica… Podemos representar este modelo através da equação: LOGIT(p)= βo + β1*HABITAT1+β2*HABITAT2. O intercepto dessa equação representa o habitat 3. Se os valores dos coeficientes β1 e β2 forem zero, podemos interpretar que cutias são mais detectadas no hábitat 3, sendo o hábitat 1 e 2 indiferente para a espécie. Olhando o sinal e o erro padrão da estimativa deste parâmetro, podemos concluir se o efeito é positivo ou negativo e, no caso de valores diferentes de zero para β1 e β2, podemos verificar sobreposição das estimativas dos erros padrão e tirar conclusões a respeito do efeito dos diferentes tipos de hábitat na detecção de cutias no local de estudo. Um olhar cuidadoso a respeito da estimativa dos parâmetros e respectivos erros padrão são um dos passos da seleção de modelos. O outro; refere-se à escolha do melhor modelo através do critério de seleção de Akaike.
Referências Bibliográficas
Crawley, M.J. 2007. The R Book. New York, Wiley.
Gotelli, N.J & Ellison. A.M. 2011. Princípios de estatística em ecologia. Artmed. Porto Alegre, 528p.
Mackenzie, D.I., Nichols, J.D., et al. 2006. Occupancy Estimation and Modeling. Inferring patterns and dynamics of species occurrence: Elsevier. 324 p.
Sollmann, R., Furtado, M.M., et al. 2012. Using occupancy models to investigate space partitioning between two sympatric large predators, the jaguar and puma in central Brazil. Mammalian Biology, 77: 41-46.
Abolindo a mágica da transformação dos dados
Michele Quesada da Silva
Diariamente, os pesquisadores buscam compreender a natureza contrapondo dados observados a hipóteses verbais, que acabam sendo expressas através de equações matemáticas ou modelos (Johnson and Omland, 2004). Para verificar suas hipóteses, os pesquisadores utilizam alguma inferência estatística como base. A inferência mais utilizada é a frequentista (testes de significância), o que decorre de uma questão histórica e do fato de ser, disparadamente, a mais ensinada em cursos de estatística (os quais, na maioria das vezes, se quer ensinam que existem outras inferências). No entanto, duas outras escolas estatísticas vem ganhando força no cenário científico com a ideia de seleção de modelos, que são a de verossimilhança e a Bayesiana (Bolker, 2008; Johnson and Omland, 2004).
Foi realizada uma pesquisa com 17 alunos de um programa brasileiro de pós-graduação em oceanografia biológica para tentar identificar qual a inferência estatística mais utilizada nesta área da ciência (Fig.1). Entre os alunos, a resposta mais frequente foi “não sei” (65%). A princípio esse resultado pode espantar, mas sabendo que os testes de significância são a estatística mais utilizada pelos alunos e lembrando que muitas vezes são ensinados como a única opção (sem se que dar nome à escola a qual eles pertencem), o resultado é bem plausível. Apenas quatro alunos conseguiram identificar a inferência que usam e assinalaram a frequentista, e destes quatro, um apontou que também usa a verossimilhança e dois, a Bayesiana.
Figura 1: Modelo da pesquisa aplicada para identificar a inferência estatística mais utilizada por alunos de um curso de pós-graduação em oceanografia biológica.
Muitos estudos na área de oceanografia biológica são descritivos e trabalham com dados de contagem de indivíduos pertecentes a algum táxon. Sendo (segundo a pesquisa realizada) a escola frequentista a mais utilizada nesta área, é sabido que a maioria dos pesquisadores tem o hábito de transformar os dados para que estes sigam uma distribuição gaussiana. No entanto, discutir processos biológicos e/ou oceanográficos em cima de dados transformados não é algo tão simples, apesar de ser feito indiscriminadamente. Pensando sobre todo esse cenário, apresentar as distribuições Poisson e Binomial Negativa, bem como a lei de verossimilhança para os pesquisadores da oceanografia biológica pode vir a facilitar o estudo de muitos deles.
Plotar a distribuição de probabilidades de dados de contagem de um determinado estudo dá um nó no estômago quando o gráfico não resulta em uma distribuição gaussiana. Porém, esse não é um resultado ruim. O tamanho da amostra é uma explicação plausível e muito mais do que refletir a impossibilidade de se usar a estatística frequentista, reflete a dificuldade de amostragem. Isto significa que tudo está perdido? Não. É comum dados de contagem seguirem outros tipos de distribuição que não uma Gaussiana e a mais comum é a Poisson. Essa distribuição trata de dados de contagem de eventos independentes de uma distribuiçao aleatória em uma determinada unidade de tempo ou espaço (Bolker, 2008).
No entanto, a distribuição Possion tem a premissa de que o valor esperado e a variância da distribuição sejam iguais (Bolker, 2008) e isso não ocorre quando os dados observados ocorrem de maneira agregada no espaço, resultando em uma grande quantidade de zeros na tabela de contagem. Mas isto também não é um problema! Alguns ecólogos perceberam que, nestas ocasiões, a distribuição binomial negativa é uma solução pois contem um parâmetro de sobredispersão que mede o grau de agregação dos dados observados (Bolker, 2008). A distribuição binomial negativa é uma ótima solução para pesquisadores que trabalham com organismos bentônicos, que costumam ter distribuição em manchas.
E como saber qual a distribuição dos dados? Agora cabe explicar o que é a lei de verossimilhança. Esta lei parte do pressuposto de que há mais de uma explicação (hipótese, modelo) para os dados e que cada explicação atribui uma probabilidade daquele conjunto de dados ocorrer, sendo a explicação mais plausível aquela com maior probabilidade. A razão entre a probabilidade de um modelo A (com probabilidade maior) e a probabilidade de um modelo B (com probabilidade menor) é chamada de força de evidência. Dois modelos são considerados moderadamente diferentes quando a razão entre eles é maior que 8 e fortemente diferentes quando a razão é maior que 32 (Royall, 2007).
E como criar os modelos a partir dos dados? Vamos supor que um pesquisador foi a campo e coletou 20 amostras do organismo bentônico Alien speciae, sendo que em cada amostra apareceu um número variável de indivíduos de zero a 50 e, além dos indivíduos, o pesquisador coletou também dados de salinidade, temperatura e teor de matéria orgânica em cada ponto amostrado. Um modelo inicial para os dados seria um com distribuição Poisson, já que se tratam de dados de contagem. Mas, como organismos bentônicos costumam se distribuir em manchas, um segundo modelo pode ter como base a distribuição binomial negativa. E como o pesquisador coletou três variáveis ambientais, ele pode criar modelos com distribuição Poisson ou binomial negativa colocando uma ou combinações das variáveis ambientais coletadas como variáveis preditoras da distribuição. Pronto! Com essa série de modelos, podemos descobrir qual é o mais plausível para representar o conjunto de dados coletados.
Há vários motivos para o uso da modelagem ser incipiente e o mais evidente é o desconhecimento das diferentes inferências estatísticas, que resulta em uma visão limitada - e desesperada - de transformar dados. O segundo motivo é o pré-conceito que muitos pesquisadores tem em relação à modelagem por não conhecerem os princípios matemáticos que estão por trás e acreditarem que ela é uma ferramenta de previsão. A modelagem é uma ferramenta de previsão? Sim, ela PODE ser. Mas antes de tudo a modelagem é uma ferramenta para descrever os dados.
O uso da modelagem como uma ferramenta descritiva em ecossistemas terrestres é mais comum do que em ecossistemas marinhos (Robinson et al., 2011). Nestes, a modelagem tem sido mais aplicada na área de recursos pesqueiros (Reiss et al., 2011), uma vez que os peixes são os organismos marinhos mais modelados (Robinson et al., 2011). Porém, já é possível encontrar trabalhos com organismos bentônicos (Gogina et al., 2010; Gogina and Zettler, 2010; Reiss et al., 2011) e, segundo Robinson et al. (2011), estes têm alto potencial de serem modelados uma vez que há muitos dados sobre distribuição de invertebrados marinhos e modelar organismos do bentos é mais fácil do que os do pelagial porque os bentônicos, em geral, dispersam menos. “Species distribution models”, “ecological niche models”, “bioclimatic envelopes”, “habitat models” e “resource selection functions” são sinônimos (Elith and Graham, 2009) e podem ser utilizados como palavras chaves para encontrar artigos científicos que utilizam modelagem.
Em suma, espera-se que este ensaio ajude a difundir ao menos a ideia de que há mais de uma escola estatística e que os pesquisadores (não só alunos, mas também professores) busquem aprender as diferenças entre uma e outra para que o uso de qualquer que seja a inferência estatística seja uma escolha consciente e não uma limitação pessoal do pesquisador.
Referências bibliográficas
Bolker, B. M. 2008. Ecological Models and Data in R. Princeton University Press. Elith, J., and Graham C. H. 2009. Do they? How do they? WHY do they differ? On finding reasons for differing performances of species distribution models. Ecography 32:66-77.
Gogina, M. & Zettler, and M. L. 2010. Diversity and distribution of benthic macrofauna in the Baltic Sea: data inventory and its use for species distribution modelling and prediction. Journal of Sea Research 64:313−321.
Gogina, M., Glockzin, M., and Zettler, M. L. 2010. Distribution of benthic macrofaunal communities in the western Baltic Sea with regard to near-bottom environmental parameters. 2. Modelling and prediction. Journal of Marine Systems 80:57−70.
Johnson, J.B., and Omland, K.S. 2004. Model selection in ecology and evolution. TRENDS in Ecology and Evolution 19(2):101-108.
Reiss, H., Cunze, S., König, K., Neumann, and H., Kröncke. 2011. Species distribution of marine benthos: a North Sea case study. Marine Ecology Progress Series 442:71-86.
Robinson, L. M., Elith, J., Hobday, A. J., Pearson, R. G., Kendall, B. E., Possingham, H. P., and Richardson, A. J. 2011. Pushing the limits in marine species distribution modeling: lessons from the land present challenges and opportunities. Global Ecology and Biogeography 20:789-802.
Royall, R. M. 2007. The likelihood paradigm for statistical evidence: 119-152 In: The nature of scientific evidence (eds. Taper, M. L. & Lele, S. R.). University of Chicago Press.
Seleção de Modelos para a Representação Estatística de Nichos Ecológicos de Espécies: Um Estudo de Caso com Peponapis fervens
Allan Koch Veiga
Nicho Ecológico
Segundo Hutchinson (1957), a definição de nicho é “um conjunto de pontos em um espaço n-dimensional abstrato”, onde cada dimensão representa uma camada ambiental (Godsoe, 2009). Essas camadas ambientais podem ser representadas por meio de Variáveis Aleatórias (VA), normalmente contínuas, como temperatura, altitude, precipitação, etc. A distribuição dessas VA pode seguir modelos de distribuição estatística, como a distribuição Gaussiana, Exponencial, Weibull, Gamma, entre outras (Bolker, 2008). A capacidade de cada modelo representar adequadamente uma VA, ou seja, a plausibilidade do modelo em relação aos dados, pode ser medida por meio de uma função de Verossimilhança, pelo seu logarítmo negativo (Log-Verrossimilhança Negativa) ou pelo Critério de Informação de Akaike (AIC).
Basedo nesses conceitos é possível escolher, dentro de um conjunto de modelos de distribuição candidatos, o melhor modelo para representar estatisticamente o nicho ecológico de uma espécie.
Seleção de Modelos
A seleção de modelos pode ser realizada por meio de três etapas: (1) Escolher um conjunto de modelos distribuição concorrentes; (2) Buscar o melhor ajuste para cada modelo; (3) Selecionar o melhor modelo do conjunto.
Na primeira etapa, um conjunto de modelos de distribuição estatística é escolhido para cada VA. Distribuição Gaussiana (ou Normal), Weibull, Gamma, Exponencial, Beta e Lognormal são exemplos de modelos de distribuição contínua; e Binomial, Poisson, Binomial Negativa e Geométrica são exemplos de modelos de distribuição discreta. A escolha de um conjunto de modelos concorrentes pode ser realizada arbitrariamente a partir de um conjunto pré-definido de modelos, baseada nas característica dos dados ou observando-se a forma do histograma dos dados.
A segunda parte consiste em encontrar os valores dos parâmetros de cada modelo concorrente que maximizem o ajuste de cada modelo aos dados. A mensuração desse ajuste pode ser dada por uma função de log-verossimilhança negativo, conforme fórmula a seguir.
Os parâmetros que maximizam o ajuste de cada modelo aos dados são Estimadores de Máxima Verossimilhança (MLE). Os MLEs representam os valore mais plausiveis dos parâmetro de um modelo, dado um conjunto de dados. As MLEs podem ser encontradas por meio de um método de otimização combinatória, testando valores de parâmetros, heristicamente escolhidos, na função de log-verossimilhança negativa.
Na terceira etapa os valores dos MLEs e as funções de log-verossimilhança negativa são utilizados para escolher o melhor modelo do conjunto. A seleção do melhor modelo pode ser realizado por meio do AIC, segundo a fórmula a seguir. Quanto menor o valor do AIC, melhor o modelo representa os dados.
As três etapas descritas neste ensaio permite identificar qual modelo de distribuição é mais adequado para representar cada VA (temperatura, altitude, precipitação, etc.) de um modelo de nicho ecológico de uma espécie.
Estudo de Caso
Nesta seção é apresentado um exemplo de como pode ser realizada a seleção de modelos para representar o nicho ecológico de uma espécie de abelha utilizando o processo de seleção de modelos descrito neste ensaio.
A espécie de abelha utilizada neste estudo de caso foi a Peponapis fervens. Foram utilizados dados de 89 ocorrências da espécie no Brasil. Os valores das VAs referentes as ocorrências, as quais descrevem o nicho ecológico dessa espécie, foram obtidos a partir de áreas climaticamente similares, gerada pelo algorítmo proposto por Baatz & Schape (2000). As VAs utilizadas foram: altitude mínima na área (AltMin), altitude máxima na área (AltMax), temperatura mínima no mês mais frio na área (TempMin), temperatura máxima no mês mais quente na área (TempMax), precipitação mínima no mês mais seco na área (PrecMin) e precipitação máxima no mês mais chuvoso na área (PrecMax).
A distribuição de cada VA é representada pelos seguintes histogramas.
Para realizar este ensaio foi utilizada a ferramenta R e as bibliotecas: sp, raster, gtools, maptools, dismo e bbmle.
Na primeira etapa da seleção de modelos, foram escolhidos arbitrariamente três modelos de distribuição fixos como conjunto de modelos concorrentes. Portanto, os modelos escolhidos foram: Gaussiano, Exponencial e Weibull.
A função de log-verossimilhança negativa para cada VA foi definida da seguinte maneira:
normVA <-function(mi,sigma){ -sum(dnorm(VA, mi, sigma, log=T)) } expVA <-function(lambda){ -sum(dexp(VA, lambda, log=T)) } weiVA <-function(shape,scale){ -sum(dweibull(VA, shape=shape, scale=scale, log=T)) }
Para buscar o melhor ajustes de cada modelo e os seus respectivos MLEs, foi utlizado a função mle2 da biblioteca bbmle, conforme script abaixo:
VA.mle.norm = mle2(normVA, start=list(mi=mean(VA),sigma=sd(VA))) VA.mle.exp = mle2(expVA, start=list(lambda=1/mean(VA))) VA.mle.wei = mle2(weiVA, start=list(shape=1,scale=max(VA)))
A partir desses MLEs foram obtidos os AIC de cada modelo com o seguinte script:
AICtab(VA.mle.norm,VA.mle.exp,VA.mle.wei, delta=T, sort=T, weights = TRUE)
Os valores de AIC de cada modelo foram:
<b>Altitude mínima</b>
dAIC df weight minAlt.mle.exp 0.0 1 0.747 minAlt.mle.wei 2.2 2 0.253 minAlt.mle.norm 73.5 2 <0.001
<b>Altitude máxima</b>
dAIC df weight maxAlt.mle.wei 0.0 2 0.776 maxAlt.mle.exp 2.5 1 0.224 maxAlt.mle.norm 44.2 2 <0.001
<b>Temperatura mínima</b>
dAIC df weight minTemp.mle.wei 0.0 2 0.956 minTemp.mle.norm 6.2 2 0.044 minTemp.mle.exp 31.2 1 <0.001
<b>Temperatura máxima</b>
dAIC df weight maxTemp.mle.wei 0.0 2 0.68 maxTemp.mle.norm 1.5 2 0.32 maxTemp.mle.exp 366.1 1 <0.001
<b>Precipitação mínima</b>
dAIC df weight minPrec.mle.exp 0.0 1 0.9431 minPrec.mle.wei 5.6 2 0.0569 minPrec.mle.norm 58.1 2 <0.001
<b>Precipitação máxima</b>
dAIC df weight maxPrec.mle.wei 0.0 2 0.585 maxPrec.mle.norm 0.7 2 0.415 maxPrec.mle.exp 80.2 1 <0.001
Com base nesses resultados, os modelos selecionados para cada VA e seus respectivos valores de parametrôs que maximizam a verossimilhança são apresentados na tabela abaixo:
Modelo Selecionado | Valores dos parâmetros | |
---|---|---|
AltMin | Exponencial | lambda=0.002238374 |
AltMax | Weibull | shape=1.195306, scale=625.746054 |
TempMin | Weibull | shape=1.793291, scale=89.999281 |
TempMax | Weibull | shape=13.75437, scale=313.41199 |
PrecMin | Exponencial | lambda=0.02627694 |
PrecMax | Weibull | shape= 2.597367, scale=192.783210 |
Utilizandos esses valores de parametro, o modelo de distribuição de cada VA é representada pelos seguintes gráficos:
Plotando a acumulada dos “Mínimos” (Azul) e “Máximos” (Vermelho) em um mesmo gráfico, tem-se:
Esses gráficos permite representar a probabilidade de ocorrer a espécie Peponapis fervens de acordo com cada condição abióticas representada pelas VAs utilizadas. Sobrepondo os valores das 89 ocorrências de Peponapis fervens sobre os gráficos dos modelos obtidos, tem-se o seguinte:
Os modelos obtidos indicam que dificilmente a espécie ocorre em uma temperatura máxima superior a 34 graus celsius. O modelo sugere que a espécie ocorre em locais onde a temperatura é menor. Os modelos demonstram que a espécie tem uma tolerância maior a temperaturas mais baixas, indicada pela variância maior na VA de temperatura mínima do que da temperatura máxima.
Os modelos sugerem também que a amplitude da VA de altitude é relativamente alta. Os modelos indicam que a espécie tem 95% de probabilidade de ocorrer em altitudes que vão de 0 m a 1566 m.
Em relação as VA referentes a precipitação, os modelos mostraram que a espécie pode ocorrer em locais a aonde precipitação no mês mais seco é de 0 mm e no mês mais chuvoso pode chegar a 294 mm com um intervalo de confiança de 95%.
Referências bibliográficas
Baatz, M., Schape, A (2000). Multiresolution segmentation: an optimization approach for high quality multi-scale image segmentation. In J. Strobl, editor, Angewandte Geographische Informationsverarbeitung XII. Beiträge zum AGIT-Symposium Salzburg 2000, Karlsruhe, Herbert Wichmann Verlag, pages 12-23.
Bolker, B.M. (2008). Ecological Models and Data in R. Princeton University Press, Princeton.
Godsoe, W (2009). I can’t define the niche but I know it when I see it: a formal link between statistical theory and the ecological niche. Oikos, v. 119 (1), p. 53-60.
Hutchinson, G. E. (1957). Concluding remarks. Cold Spring Harbor Symp Quantitative Biol., n. 22, p. 415-427.
Modelos estocásticos simulados em ecologia de comunidades
Cecilia Siliansky de Andreazzi
Segundo o paradigma atual, o conhecimento científico se constrói a partir do confronto de múltiplas hipóteses e os dados são a maior evidência a favor de uma ou outra hipótese (Hilborn & Mangel 1997). Nesse contexto, a inferência estatística através da abordagem de verossimilhança parece ser uma escolha adequada para confrontar hipóteses concorrentes. A verossimilhança de uma hipótese, dada uma observação, é proporcional à probabilidade do evento observado ocorrer segundo esta hipótese. O produtório das probabilidades atribuídas a cada observação é a chamada função de verossimilhança. Se diferentes hipóteses ou modelos atribuem probabilidades distintas a um resultado, a Lei da Verossimilhança postula que o modelo mais plausível é aquele que atribui maior probabilidade aos dados observados, ou seja, aquele que apresenta maior valor de verossimilhança. Além disso, a Lei postula que a razão entre as verossimilhanças é uma medida da plausibilidade de um modelo em relação a outro (Edwards 1972). Portanto, este método nos permite decidir, entre várias hipóteses concorrentes, qual recebe o maior apoio a partir dos dados (seleção de modelos), quantificar o apoio relativo dentro de um intervalo de valores de parâmetros possíveis (estimativa de parâmetros) e calcular a incerteza resultante de estimativas de parâmetros (estimativa de incerteza).
A forma mais simples de comparar modelos é por meio do teste de hipótese estatístico, no qual se contrasta os resultados experimentais contra uma hipótese nula (de ausência de efeito). A estatística que contrasta as informações obtidas nos tratamentos com as obtidas na situação controle é elaborada uma vez que se determine sua distribuição de probabilidade (ex: Poisson, binomial, normal). Desta forma, a hipótese nula pode ser avaliada quando sua probabilidade de rejeição pode ser determinada por intermédio da distribuição de probabilidade da mesma. Nas ciências experimentais, onde é possível controlar as fontes de variação e focar apenas no efeito do tratamento, esta abordagem é adequada. Em muitos sistemas ecológicos, no entanto, várias fontes de heterogeneidade interagem e muitas vezes só é possível observar algumas partes do sistema. Ademais, dificilmente se conhece o comportamento dos dados na ausência dos processos causais (sua distribuição de probabilidade). Dessa forma, o cálculo das verossimilhanças desses sistemas estocásticos se torna cada vez mais complexo e intratável (Hartig et al. 2011).
Modelos nulos são tentativas de gerar distribuições de valores para uma determinada variável de interesse na ausência do processo causal em questão, possibilitando, assim como nas ciências experimentais, estipular uma “situação controle”(Connor & Simberloff 1986). Quando o objetivo é realizar um teste de hipóteses, pode-se testar a hipótese nula calculando-se a probabilidade de que a variável de interesse observada (real) apresente, ou não, um valor igual ao da distribuição aleatória gerada (modelo nulo).
Modelos nulos adquiriram evidência em ecologia após o trabalho de Diamond (1975), que propôs a competição interespecífica como principal fator na estruturação de comunidades de pássaros em ilhas. Neste estudo, Diamond definiu um número de regras de montagem que predizem como a competição pode levar a padrões não aleatórios de co-ocorrência de espécies (Diamond 1975). Entretanto, as regras inicialmente propostas por Diamond (1975) foram alvo de diversas críticas devido a ausência de modelos nulos apropriados para testá-las (Connor & Simberloff 1979), ou seja, como definir quando um padrão de co-ocorrência é maior ou menor que o esperado ao acaso e como determinar um modelo estatístico minimamente realista para responder a essa pergunta. Essas críticas iniciaram um debate intenso que contribuiu para a melhoria na utilização e formulação de modelos nulos.
Os modelos nulos, portanto, constituem um teste estatístico para determinar se um padrão observado pode ocorrer na ausência de um processo particular (Gotelli & Graves 1996). Seu papel consiste em aleatorizar os dados da comunidade de espécies, de forma a remover todos os efeitos dos processos sob estudo, de forma que o padrão observado é um produto do acaso (Gotelli & Graves 1996). Entretanto, se o objetivo for contrastar distintas hipóteses, ou seja, comparar diferentes regras de montagem de comunidades, a simples comparação dos dados observados contra um modelo nulo é insuficiente. Uma das formas de se lidar este problema envolve a elaboração de modelos mecanísticos que descrevem os processos de interesse e a avaliação da capacidade desses modelos em reproduzir os padrões observados no mundo real. Enquanto modelos estatísticos convencionais permitem o cálculo da verossimilhança diretamente, a simulação de modelos estocásticos permite criar distribuições amostrais teóricas, a partir das quais é possível aproximar funções de verossimilhança (Hartig et al. 2011).
Existem vários métodos que podem ser utilizadas para aproximar a distribuição de amostras simuladas à verossimilhança (Hartig et al. 2011). Umas delas consiste em calcular estatísticas sumárias dos dados observados e simulados, e estimar as verossimilhanças que cada um dos modelos simulados atribui à métrica sumária calculada a partir dos dados observados. O objetivo destes métodos é estimar a probabilidade de se obter as métricas sumárias dos dados empíricos a partir dos modelos simulados. O modelo que atribuir a maior probabilidade à métrica é o mais plausível.
Essa técnica permite uma articulação entre os modelos de simulação estocásticos e a bem estabelecida teoria estatística e, portanto, fornece um quadro geral para a estimativa de parâmetros, seleção de modelos e estimativa de incerteza por comparação dos resultados do modelo simulado e dos dados (modelagem inversa). A comparação da estrutura das comunidades ecológicas contra modelos nulos testam se a estrutura é diferente de uma estrutura gerada ao acaso. Diferentemente, a simulação de modelos estocásticos que explicitam diferentes regras de montagem de comunidades permite uma avaliação mais direcionada acerca dos processos mais relevantes que atuam na estruturação das diferentes comunidades. Portanto, esta abordagem representa uma importante evolução no sentido de construir conhecimento científico a partir do confronto de múltiplas hipóteses.
No meu doutorado, investigarei como espécies antagonistas interagindo em redes multiespecíficas podem coevoluir. Algumas hipóteses sugerem que antagonismos, tais como interações entre parasitas e hospedeiros, favorecem a intensificação das defesas e contra-defesas entre pares de espécies. Em redes de interação multiespecíficas podem ser observadas outras dinâmicas coevolutivas, tais como a alternância coevolutiva ou uma combinação de alternância e intensificação, nas quais a seleção natural favoreceria indivíduos de espécies de parasitas que “preferem” as espécies de hospedeiros que apresentam menos defesas (Thompson 2005). A maior parte do desenvolvimento teórico feito sobre coevolução em antagonismos se baseou em modelos envolvendo pares ou pequenos conjuntos de espécies (Nuismer & Thompson 2006). Uma questão fundamental é como se dá a coevolução em interações que podem envolver dezenas de espécies em um mesmo local. Neste projeto, utilizarei dados ecológicos, teoria de redes e modelos evolutivos para desenvolver hipóteses sobre como se dá a dinâmica evolutiva e coevolutiva em redes antagonistas multiespecíficas, observando quais são as condições que favorecem a intensificação das características fenotípicas e/ou alternância coevolutiva. Investigarei ainda de que forma a estrutura e a complexidade da rede, além dos padrões de interação das espécies nas redes influenciam a dinâmica coevolutiva em redes complexas.
Neste contexto, a comparação entre os modelos evolutivos por meio da abordagem da verossimilhança me parece uma escolha adequada. No entanto, como os modelos evolutivos serão utilizados para simular a dinâmica coevolutiva em redes simuladas, precisarei utilizar a técnica supracitada para estimar a função de verossimilhança da distribuição das amostras simuladas (Hartig et al. 2011). O confronto de múltiplos modelos evolutivos construídos a partir de diferentes hipóteses sobre a dinâmica coevolutiva permitirá um avanço no sentido de compreender como ocorre coevolução entre espécies interagindo em redes antagonísticas multiespecíficas.
Referências bibliográficas
Connor, E. F. & Simberloff , D. 1979. Assembly of species communities: cjance or competition? Ecology 60: 1132-1140.
Connor, E. F. & Simberloff, D. 1986. Competition, scientific methods, and null models in ecology: Because field experiments are difficult to perform, ecologists often rely on evidence that is nonexperimental and that therefore needs to be rigorously evaluated. American Scientist 74: 155-162.
Diamond, J. M. 1975. Assembly of species communities. Pages 342–444 in M. L. Cody and J. M. Diamond, editors. Ecology and evolution of communities. Harvard University Press, Cambridge.
Edwards, A.W.F. 1972. Likelihood. Cambridge University Press, Cambridge.
Gotelli, N. J. & Graves, G. R. 1996. Null models in ecology. Smithsonian Institution Press, Washington.
Hartig, F; Calabrese, J. M.; Reineking, B.; Wiegand, T. & Huth, A. 2011. Statistical inference for stochastic simulation models - theory and application. Ecology Letters 14: 816-827.
Hilborn, R. & Mangel, M. 1997. The ecological detective: Confronting models with data. Princeton University Press, Princeton.
Nuismer, S. L. & Thompson, J. N. 2006. Coevolutionary alternation in antagonistic interactions. Evolution 60: 2207-2217.
Thompson, J. N. 2005. The Geographic Mosaic of Coevolution. The University of Chicago Press, Chicago.
Ajustes de modelos para la descripción del proceso de rehidratación en Thoropa taophora (Anura).
INES DA ROSA FARAVELLI
En nuestro trabajo las medidas que tomamos para describir un fenómeno corresponden a variables aleatorias, por lo tanto, su comportamiento puede ser descrito a través de un modelo probabilístico (Bolker 2008 cap. 4). Por medio de la verosimilitud es posible ajustar toda la variación de nuestros datos a diferentes modelos y evaluar la plausibilidad de cada uno de ellos de forma relativa, o sea, dentro de un conjunto de modelos que hayamos elegido poner a competir. Al mismo tiempo, a través de la máxima verosimilitud son estimados los parámetros de las distribuciones de interés y por medio del criterio de Akaike podemos seleccionar él o los modelos más plausibles siendo penalizados aquellos de mayor número de parámetros siguiendo el principio de parsimonia.
El área de mi interés aborda el efecto de la salinidad sobre las tasas de rehidratación en una especie de rana, Thoropa taophora. Esta especie presenta poblaciones que usan las paredes rocosas de algunas playas del litoral de San Pablo estando expuestas a la salinidad proveniente del mar. Dependiendo de su grado de hidratación los individuos ganan o pierde agua por la piel, esto ocurre porque la piel es extremadamente permeable al agua y a moléculas orgánicas e inorgánicas. Las tasas de rehidratación son estimadas mediante cambios en la masa corporal cuando los animales son sometidos a una solución, por ejemplo de agua dulce (poco concentrada), previa deshidratación hasta un porcentaje del peso inicial. La relación entre el tiempo que toma el proceso de rehidratación y los cambios en la masa, adjudicados a la ganancia de agua por la piel, es analizada tradicionalmente por medio de regresiones lineales simples o simplemente informando la tasa de incorporación de agua.
Esta forma de analizar los datos aparece como restrictiva y subutiliza la información presente. La incorporación de otros modelos, permitiría describir de forma más exhaustiva el comportamiento de los cambios de masa en el tiempo, y generar hipótesis biológicas que intenten explicar dicho comportamiento. Los componentes involucrados en el proceso de hidratación son la circulación sanguínea, la concentración osmótica del plasma, la actividad de las bombas celulares de Na+/K+ ATPasa, los canales de membrana celular de agua (acuaporinas), entre otros. Por lo tanto, si animales aclimatados a diferentes condiciones ambientales responden de forma diferente, o sea la variable respuesta se ajusta a distintos modelos, podría indicar variación en el comportamiento de los componentes de la fisiología mencionados.
Antes de describir la aplicabilidad de la verosimilitud en mi trabajo explicaré de qué trata la verosimilitud. La Ley de la Verosimilitud plantea que si nuestros datos pueden ser explicados por más de una hipótesis (o modelo probabilístico) entonces la hipótesis que atribuya mayor probabilidad a nuestros datos será la más plausible (http://cmq.esalq.usp.br/BIE5781/doku.php?id=08-inferencia:08-inferencia).
Por ejemplo, bajo dos hipótesis:
P(X=x/H1)=0.8 P(X=x/H2)=0.3
0.8/0.3=2.7; por lo tanto, H1 es 2.7 veces más plausible que H2. Esta razón se la nombra como la fuerza de la evidencia o razón de verosimilitud.
La función de verosimilitud es proporcional a la función de probabilidad asociada a la hipótesis seleccionada (http://cmq.esalq.usp.br/BIE5781/lib/exe/fetch.php?media=03-funcao-veros:aula4_funcao_verossim2012.pdf):
L∝P(x1/H)xP(x2/H)xP(x3/H)x…. P(xn/H)
Siendo cada x una observación independiente y H el modelo ajustado.
Por ejemplo, aquí presentamos como seria construida la función de verosimilitud en el caso de una distribución binomial. A partir de la distribución de probabilidades con el parámetro conocido, que es p, la distribución describe la probabilidad de 0 hasta x éxitos en N intentos
A) Función de probabilidad binomial: f(x)=N!/N!(N-x)! p^x(1-p)^(N-x) B) Función de verosimilitud binomial: f(p)=N!/N!(N-x)! p^x(1-p)^(N-x) (p: parámetro de la distribución binomial, x: número de éxitos, N: total de intentos)
La función de verosimilitud está basada en la función de probabilidad con los datos fijos y el parámetro variable. De esta manera se construye una distribución de plausibilidad del parámetro. No es probabilidad ya que la integral debajo de la curva de la distribución de verosimilitud no necesariamente suma 1. Si son más de una observación independiente, la verosimilitud total es el producto de cada una de las verosimilitudes calculadas para cada dato (http://cmq.esalq.usp.br/BIE5781/lib/exe/fetch.php?media=leituras:verossim.pdf).
La función de verosimilitud permite establecer todos los valores que el parámetro puede tomar dado nuestros datos. El valor más alto de verosimilitud corresponderá al valor del parámetro estimado más plausible y a través de la máxima verosimilitud se estima el valor del parámetro por medio de procesos de optimización, en definitiva L(☹;x) ∝ f(x; ☹), siendo ☹ el parámetro estimado.
Por otro lado, dada una regla canónica se establece el intervalo de verosimilitud del parámetro estimado. El intervalo de verosimilitud se puede construir relativizando los valores de la función de verosimilitud con respecto al valor máximo (i.e. verosimilitud relativa = cada uno de los valores de verosimilitud/verosimilitud máxima), de esta forma el valor máximo será = 1 en esta distribución de verosimilitud relativa. El intervalo de verosimilitud asume que todos los valores del parámetro que estén dentro del rango de valores de plausibilidad 1/8 de la distribución relativa serán igualmente plausibles.
Por otro lado, debido a que la probabilidad de obtener cada dato puede ser muy baja y el producto de ellos se acerca a cero, para facilitar los cálculos se realiza una transformación pasando todos los términos a logaritmo natural quedando la expresión en una suma que toma valores negativos:
LL∝lnP(x1/H)+lnP(x2/H)+lnP(x3/H)+…. +lnP(xn/H)
Por lo tanto la función de log-verosimilhança es negativa.
El valor del parámetro estimado más plausible es el menor y se encuentra calculando la derivada primera de la función, o sea cuando la tangente es igual a cero. Los estimadores de los parámetros son llamados MLEs y presentan las siguientes propiedades:
A) Cuando la muestra tiende a infinito: 1- Consistentes, o sea no son sesgados lo que quiere decir que convergen en probabilidad para el valor del parámetro. 2-Eficiencia asintótica, alcanzan menor varianza entre los estimadores no sesgados. 3-Normalidad asintótica, tienden a una distribución normal. B) Para cualquier muestra: invariancia, o sea cualquier transformación monotónica de los MLEs será un MLE.
A diferencia de la estadística frecuentista la estimación del parámetro no asume muestreos repetidos. O sea que el análisis y las decisiones que tomemos estarán basados en los datos y no en supuestos experimentos o muestreos que se repetirían muchas veces como sí sucede en la construcción de los intervalos de confianza de la estadística frecuentista (Lewin-Koh N. et al. 2004).
Resumiendo, el ajuste a través de la verosimilitud se expresa a través de un valor que es proporcional a la probabilidad de los datos a ser obtenidos dado el modelo seleccionado, cada uno de los modelos tendrá un valor asociado, siendo el de mayor valor el más plausible. Al mismo tiempo, a través de la máxima verosimilitud por medio de rutinas de optimización, serán calculados los MLEs de cada modelo, o sea las estimadaciones de cada parámetro. También puede ser construido un intervalo de verosimilitud para esos parámetros.
Por otro lado, cuando nosotros proponemos varios modelos para ser ajustados, es de nuestro interés acercarnos al modelo verdadero, o sea aquel modelo del cual surgen nuestros datos, pero nosotros desconocemos ese modelo, el verdadero. El criterio de Akaike (AIC) es una medida relativa que nos indica cuál de esos modelos, entre aquellos que nosotros seleccionamos para competir, estaría más cerca del verdadero (http://cmq.esalq.usp.br/BIE5781/lib/exe/fetch.php?media=07-selecao:aula-selecao_2012.pdf). AIC está basado en log-verosimilitud y se expresa de esta forma:
AIC = -2lnL(☹/y) +2K
Donde L(☹/y) es la verosimilitud del modelo y significa que es estimado un parámetro ☹ en función de nuestros datos, y K es el número de parámetros.
El cálculo de AIC penaliza los modelos por el número de parámetros a través del término K, esta penalización se sustenta en el principio de parsimonia que está a su vez relacionada con el sobreajuste que puede ocurrir cuando aumenta el número de parámetros en un modelo (Bolker 2008 cap. 2). En la expresión del cálculo de AIC, el primer término de la derecha disminuye con el aumento de parámetros y el segundo aumenta.
Para muestras igual o menores a 40 observaciones el cálculo de AIC se hace más conservador y pondera por el tamaño de la muestra n:
AIC = -2lnL(☹/y) +2K(n/(n-K-1)
Luego de tener los AIC de cada modelo se calcula la diferencia entre el AIC menor con el mismo y con los restantes. Se obtiene una lista que tendrá para el modelo de menor AIC una valor de diferencia de 0 y luego el modelo siguiente que presente una variación mayor a 2 será considerado el segundo más plausible. Si el siguiente modelo al menor presenta una diferencia menor a 2, entonces no podemos diferenciar cual de los dos es más plausible y se acerca más al modelo verdadero, por lo menos bajo el criterio AIC.
Retomando la relación entre el cambio de masa en el tiempo debido al proceso de rehidratación, en cada punto del tiempo habrá una población de datos de la variable respuesta que tendrá una media y una varianza que serán los parámetros si consideramos que la variable respuesta tiene distribución normal. Por lo tanto, esos parámetros van a variar en función del tiempo. El modelo de regresión lineal simple clásico se enmarca en el ajuste de la variable respuesta a una Normal con la media siendo una función lineal del tiempo y con varianza constante. µ = media; var = varianza
µ = b0 + b1Tiempo
var = constante.
También puede ser ajustado un modelo que admita que la varianza no sea constante, o sea que sea heterocedástico. Una posibilidad en ese caso:
µ = b0 + b1Tiempo
var = a0Tiempo^a1.
Si los datos presentan una forma que sugiere algo parecido con una saturación tal vez se podría ajustar un modelo donde la media de la variable respuesta sea una función cuadrática del tiempo y con varianza constante:
µ = b0 + b1Tiempo + b2Tiempo^2.
var = constante.
Los tres modelos colocados como ejemplo muestran comportamientos diferentes de la variable respuesta. Por lo que la interpretación de la causa de ese comportamiento sería diferente. Las posibilidades de ajustar modelos son muchas, pero es importante mencionar que las funciones que sean usadas para ajustar los datos para el cálculo de los parámetros, en este caso µ y varianza deben ser consistentes con los valores que pueden tomar esos parámetros. Luego de ajustar los datos a esos diferentes modelos cada uno tendrá su valor de log-verosimilitud, las estimaciones de los parámetros y los valores de AIC para elegir el modelo más plausible.
Bibliografía:
Bolker, B.M. 2008. Chapter 2. Exploratory data analysis and graphics. In: Ecological Models and Data in R Princeton: Princeton University Press.
Bolker, B.M. 2008. Chapter 4. Probability and stochastic distributions for ecological Modeling. In: Ecological Models and Data in R Princeton: Princeton University Press.
http://cmq.esalq.usp.br/BIE5781/doku.php?id=08-inferencia:08-inferencia
Lewin-Koh N., Taper, M. L. & Lele, S. R. (2004). A brief tour of statistical concepts. In: The nature of scientific evidence (eds. ML Taper and SR Lele), University of Chicago Press, pp 3 -16.
http://cmq.esalq.usp.br/BIE5781/lib/exe/fetch.php?media=07-selecao:aula-selecao_2012.pdf
http://cmq.esalq.usp.br/BIE5781/lib/exe/fetch.php?media=leituras:verossim.pdf
Aplicação de Modelos Lineares Generalizados em um estudo de preferência de habitat
Glaucia Cristina Del Rio
Modelos Lineares Generalizados
Modelos são representações simplificadas e abstratas da realidade frequentemente usados nos âmbitos científico e tecnológico. Em modelagem estatística nosso interesse reside em descobrir o que podemos aprender de padrões sistemáticos de dados empíricos contendo um componente aleatório. Supõe-se que algum mecanismo complexo de geração de dados produziu as observações, e assim desejamos descrever isso por meio de um modelo que seja simples, mas ainda assim, realístico, e que destaque aspectos específicos de interesse, embora, por definição, modelos não sejam “verdadeiros” em nenhuma instância (Lindsey 2007).
Modelos podem ser determinísticos ou probabilísticos. No primeiro caso os resultados são precisamente definidos, enquanto no segundo há variabilidade devido a fatores aleatórios desconhecidos, e são estes modelos, com um componente probabilístico, que são conhecidos como modelos estatísticos (Lindsey 2007). A importância estatística de qualquer modelo reside na sua capacidade de descrever relações entre uma variável explicatória e uma série de variáveis independentes, ou em servirem como uma teoria pela qual os dados são gerados, ou ainda por apenas sumarizarem os dados (Olsson 2002).
O modelo linear normal foi criado no início do século XIX e dominou os trabalhos científicos até meados do século XX, apesar de ser utilizado para explicar situações que não eram adequadamente explicadas pelo modelo linear normal. Assim surgiram os Modelos Lineares Generalizados (GLMs) (Nelder & Wedderburn 1972), que apesar de apresentarem algumas limitações como, ainda lidarem com uma estrutura linear, estarem restritos a distribuições da família exponencial e exigirem a independência das respostas, tem vindo a desempenhar um papel cada vez mais importante na análise estatística (Turkman & Silva 2000). Esta classe de modelos recebe tal nome porque tem por principal função generalizar os modelos lineares clássicos baseados na distribuição normal (Lindsey 2007). GLMs formam uma classe bastante geral de modelos estatísticos que incluem desde os modelos mais comumente utilizados, até casos mais específicos. Vários modelos estão inseridos neste cenário, como regressões lineares, análises de variância, análises de co-variância, modelos log-lineares para análises de tabelas de contingência, regressão probit/logit, regressão Poisson entre outros (Olsson 2002).
A maioria das situações em que modelagem estatística se faz necessária é mais complexa do que o que se pode descrever por simples distribuição de probabilidades. Circunstâncias não são homogêneas, e na maioria das vezes, estamos interessados em como as respostas mudam sob condições diferentes, e, nesse tipo de análise essas condições diferentes serão chamadas de, variáveis explicatórias (Lindsey 2007). Modelos Lineares Generalizados nos proporcionam escolher distribuições que a inferência frequentista não permite, devido a todas as suas exigências intrínsecas.
Adentrando em uma definição matemática simples, pode-se dizer que GLMs são uma extensão do modelo linear clássico Y=ZB+E, onde Z é uma matriz associada a um vetor B e E é um vetor de erros aleatórios. Estas hipóteses implicam que o valor esperado da variável resposta é uma função linear das co-variáveis (Turkman & Silva 2000). Dessa maneira, a distribuição considerada não precisa ser normal, podendo ser qualquer distribuição da família exponencial (Turkman & Silva 2000).
Geralmente, em um modelo, há uma distinção entre variabilidade sistemática e aleatória, onde a primeira descreve padrões de fenômeno no qual estamos particularmente interessados, embora, a distinção entre os dois dependa da questão particular que está sendo perguntada. Variabilidade aleatória pode ser descrita por uma distribuição de probabilidade, talvez multivariada, enquanto a parte sistemática geralmente envolva um modelo de regressão que é, mais frequentemente, mas não necessariamente (Lindsey, 1974), uma função do parâmetro média (Lindsey 2007)
Para modelar dados através de um GLM é preciso, antes de mais nada, formular modelos, ajustá-los, e depois selecionar e validar os modelos. Ao formular um modelo é preciso escolher a distribuição da variável resposta (Normal, Binomial, Poison, etc.), escolher as co-variáveis, ou variáveis preditoras, e, então escolher a função de ligação que seja compatível com a distribuição do erro proposto para os dados (Turkman & Silva 2000). Ao ajustar um modelo é preciso estimar seus parâmetros, ou seja, estimar os coeficientes que estão associados às co-variáveis. Ainda durante o ajuste faz-se importante estimar parâmetros que representem medidas da adequabilidade dos valores estimados, obter intervalos de confiança e realizar testes de bondade do ajustamento (Turkman & Silva 2000). Após esse passo, é possível fazer a seleção e validação dos modelos. É preciso avaliar suas adequabilidade, parcimônia e interpretação. Um bom modelo atingirá um equilíbrio entre esses três fatores. Partindo de um modelo que se pensa adequado, estimar seus parâmetros e a qualidade de seu ajustamento aos dados serão métodos baseados na verossimilhança (Turkman & Silva 2000). A inferência direta de verossimilhança supera diversos obstáculos presentes na estatística frequentista (Lindsey 1974; 1996).
Quando se trabalha com muitas co-variáveis, há interesse em saber qual é o modelo mais parcimonioso, ou seja, aquele que apresenta o menor número de variáveis explicativas, que ofereça uma boa interpretação do problema posto e que ainda se ajuste bem aos dados (Turkman & Silva 2000). O critério de seleção de modelos mais comumente utilizado é o de Akaike (1974). O AIC (Akaike Information Criterion), permite que o ajuste de um modelo estatístico seja medido mesmo com números diferentes de parâmetros estimados em modelos a serem comparados (Lindsey 2007).
Dessa forma, modelos lineares generalizados aparecem como uma opção interessante para analisar relações entre variáveis, descartando-se as limitações de regressões lineares simples, que partem de uma série de pressupostos muito distantes de dados reais.
Preferência de habitat do bicudinho-do-brejo-paulista
O bicudinho-do-brejo-paulista (Formicivora sp. nov.) pertence à família Thamnophilidae, uma das mais ricas da avifauna endêmica neotropical. Trata-se de uma espécie nova, ainda não descrita, e única endêmica do Estado de São Paulo. Descoberto em 2005, em brejos na região metropolitana da maior cidade da América do Sul, é atualmente classificada como “Criticamente em Perigo”, especialmente por habitar áreas tão vulneráveis. Suas áreas de ocorrência estão restritas às regiões da Bacia Hidrográfica do Alto Tietê e da Bacia do Paraíba do Sul, nos municípios de Arujá, Mogi das Cruzes, Biritiba-Mirim, Salesópolis e São José dos Campos, regiões bastante populosas marcadas por formas complexas de uso, ocupação e aproveitamento dos recursos naturais. Há uma grande lacuna de conhecimento envolvendo a espécie, o que impede qualquer estratégia para sua conservação. Assim, a atual pesquisa pretende apontar novos dados sobre seu habitat preferencial de acordo com a análise de parcelas espaciais quanto à fitofisionomia, qualidade da água que permeia os brejos e entomofauna.
Para tanto, pretende-se definir três tamanhos de parcelas, que servirão como amostras espaciais, de forma a analisar a preferência de habitat da espécie em três escalas (Martínez et al. 2003). Pretende-se trabalhar com uma parcela de menor tamanho que corresponderia ao sítio de nidificação, uma parcela de tamanho médio, que corresponderia ao território defendido pelos casais e uma parcela maior, correspondente à área de vida da espécie. As dimensões de território e área de vida de Formicivora sp. nov. serão medidas por meio de mapeamento das posições de espécimes marcados com anilhas coloridas, utilizando-se aparelho de GPS e mapas georreferenciados.
Considerando-se estas três escalas, pretende-se avaliar variáveis ambientais correspondentes a estrutura vegetal em termos de diversidade, densidade, homogeneidade, sociabilização e altura da vegetação e ainda grau de oxigenação da água e densidade de artrópodes (itens alimentares do bicudinho-do-brejo-paulista). Essa avaliação será feita em parcelas de três tamanhos diferentes, dentro de um grid construído sobre três brejos adjacentes na região dos municípios de Biritiba-Mirim e Mogi das Cruzes, nas quais a espécie não esteja presente, e em parcelas sabidamente habitadas pela espécie, e de nidificação. Tendo coletado tais dados buscar-se-á comparar parcelas ocupadas e não ocupadas por indivíduos de Formicivora sp. nov. quanto a suas características ambientais. Entender estes aspectos é essencial para a definição do real status de ameaça de Formicivora sp. nov de acordo com a elucidação do habitat preferencial da espécie, para que seja possível a definição de áreas prioritárias a sua conservação, ou ainda para que se escolha locais ideais de destinação em caso de eventuais translocações.
Variáveis categorizadas ou binomiais, neste caso, a variável resposta, presença ou ausência de bicudinhos dentro das áreas, não são bem descritas por modelos estatísticos lineares, assim modelos lineares generalizados aparecem como uma opção mais apropriada. Pretende-se usar GLMs para obter uma descrição matemática da seleção de habitat pelo bicudinho-do-brejo-paulista, de maneira a evitar co-variância de variáveis explicatórias (Martínez et al. 2003). Por meio do uso de GLM pretende-se avaliar se a probabilidade de encontrar bicudinhos em uma área varia de acordo com a densidade de vegetação, altura da vegetação, sociabilidade dos itens vegetais e outras variáveis citadas acima. Neste caso, a variável resposta obedeceria uma distribuição binomial, já que estamos lidando com presença e ausência do bicudinho (1=presença, 0=ausência) nas unidades amostrais que seriam as parcelas de área brejosa avaliadas, enquanto as variáveis preditoras seriam a densidade de vegetação na parcela, a altura da vegetação, a sociabilidade e homogeneidade dos itens vegetais, concentração de oxigênio na água que permeia a parcela e densidade de artrópodes. Levando-se em conta que a componente aleatória responde a uma distribuição binomial, a função de ligação utilizada será uma logit, por regra canônica, e as co-variáveis serão mistas, ou seja, um clássico modelo de regressão logística será testado em relação à verossimilhança (Martínez et al. 2003). Pretende-se ainda checar a presença de sobredispersão no modelo binomial , o que nos levará a utilizar um parâmetro de sobredispersão, caso haja necessidade de alterar a variância (Turkman & Silva 2000).
Dessa maneira, pretende-se, em três escalas espaciais distintas, ajustar modelos lineares generalizados que serão avaliados por análise de verossimilhança, quanto à sua adequabilidade aos dados. Essa análise permitirá avaliar a influência das variáveis preditoras sobre a probabilidade de ocorrência de Formicivora sp. nov., a variável resposta, em uma perspectiva multi-escalonar, podendo indicar as características ambientais preferenciais da espécie, quanto à sítio de nidificação, território e área de vida. Este cenário poderá então fornecer dados relevantes à realização de futuros esforços de conservação, quanto à criação de unidades de conservação que garantam o habitat mais adequado à sobrevivência e reprodução da espécie.
Referências bibliográficas
Akaike, H. (1974). A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19, 716-723.
Lindsey, J.K. (1974). Construction and comparison of statistical models. Journal of the Royal Statistical Society, B36, 418-425.
Lindsey, J.K. (1996). Parametric Statistical Inference. Oxford University Press.
Lindsey, J. K. (2007). Applying Generalized Linear Models.Springer.
Martínez, J. A., Serrano, D. and Zuberogoitia, I. (2003). Predictive models of habitat preferences for the Eurasian eagle owl Bubo bubo: a multiscale approach. – Ecography 26: 21–28.
Nelder, J. & Wedderburn, R. (1972). Generalized Linear Models, Journal of the Royal Statistical Society, 135, 370-384.
Olsson, U. (2002). Generalized Linear Models - An Applied Approach. Lund: Studentlitteratur.
Turkman, M. & Silva, G. (2000). Modelos Lineares Generalizados - da teoria à prática, Universidade Técnica de Lisboa.
Análise de sensibilidade por seleção de modelos
André Chalom
O que é análise de sensibilidade?
O uso de modelos matemáticos e de simulação está se tornando a cada dia mais comum na área de biologia. A modelagem permite a investigação de questões impossíveis de responder por estudos observacionais ou em laboratório, e auxilia o pesquisador a identificar quais processos devem ser melhor investigados no campo. Por outro lado, o uso de modelos mais complexos traz um número maior de parâmetros que precisam ser escolhidos, desde temperatura e pluviosidade até taxas metabólicas ou taxas de encontro, que podem ser difíceis de medir com precisão. Muitas vezes, é impossível determinar a priori se a variação em alguns desses parâmetros vai impactar em grande escala as previsões feitas pelo modelo.
As disciplinas de análise de incerteza e sensibilidade, que surgem no contexto das ciências exatas e engenharia, apresentam técnicas dedicadas a determinar as relações entre a variabilidade das entradas (ou parâmetros) de um modelo e a variabilidade na sua saída [1]. Uma das abordagens possíveis para determinar estas relações consiste em gerar amostras do espaço de parâmetros, rodar o modelo com estas amostras e analisar as propriedades quantitativas das saídas. No entanto, essa abordagem costuma ser fortemente baseada em conceitos de estatística frequentista, e classifica os parâmetros em importantes ou não baseada em testes de hipóteses [2]. Vou desenvolver aqui uma alternativa a essa visão utilizando um procedimento de seleção de modelos. Este texto usa um exemplo simplório, para efeitos didáticos, mas a abordagem é válida para modelos mais complexos.
(Convém notar que existe uma terceira alternativa, a qual não me dediquei por falta de espaço, que é o uso de modelos Bayesianos, como o GLUE [3].)
A abordagem da verossimilhança
A abordagem estatística que está sendo usada aqui é baseada no Princípio da Verossimihança [4]. Para dar uma explicação introdutória, considere uma variável aleatória X, com parâmetros $$\theta$$, e função de densidade de probabilidade $$p(X = x) = f(x | \theta)$$. Aqui, X maiúsculo é a variável de interesse, enquanto x minúsculo é uma variável livre.
Por exemplo, se X representa o número de caras em 10 lançamentos de uma moeda honesta, X é uma variável do tipo binomial com parâmetros p = 0.5 e N = 10. Na notação usual, X ~ Binom(n, p), e posso calcular com a ajuda de uma tabela ou software estatístico que a probabilidade de tirarmos 2 caras é de aproximadamente 4%.
Vou agora inverter a questão de quais são os resultados do processo e quais são os parâmetros subjacentes: em situações da vida real, frequentemente sabemos o resultado de um ensaio, mas não temos acesso ao parâmetro da função de distribuição. No mesmo exemplo, se eu tirei 2 caras em 10 lançamentos de moedas, será que é verossímil julgar que esta moeda é honesta? Para responder isso, vou recorrer à função de verossimilhança $$\mathcal{L} (\theta | X=x) = f(\theta | X = x)$$. Embora a função de verossimilhança, em si, não seja interpretável, a razão entre duas verossimilhanças dá a força de evidência de uma hipótese estatística. No caso, para comparar as hipóteses “a moeda é honesta”, e “a moeda cai com a cara para cima 20% das vezes”, fiz o cálculo simples de que $$\mathcal{L} (0.2 | X=2)$$ dividido po $$\mathcal{L} (0.5 | X=2)$$ é 0.30 / 0.04 = 6.9, portanto, a hipótese de a moeda é viciada e cai com cara para cima 20% das vezes é cerca de 7 vezes mais plausível.
(Como a verossimilhança costuma ser um número muito pequeno, é usual trabalhar com o logaritmo da verossimilhança, que do inglês logarithm of likelihood, vou usar a abreviação logLik).
O princípio da verossimilhança propõe que, ao realizar inferência sobre uma hipótese estatística, a função de verossimilhança, exposta acima, é necessária e suficiente. Ou seja, se por um lado é incorreto realizar inferência sem considerar a verossimilhança, por outro lado nenhuma informação adicional é necessária.
Note aqui que o teste frequentista clássico seria feito sob a ótica de privilegiar uma hipótese, dita a hipótese nula, de que a moeda é justa, contra uma única hipótese, dita alternativa, de que a probabilidade da moeda cair com cara para cima é um número diferente de 50%, mas não especificado. A abordagem de verossimilhança permite a comparação de muitas hipóteses ao mesmo tempo, mas sem realizar o privilégio de uma delas, que está embutida no conceito de teste de hipóteses clássico.
Seleção de modelos
Com a definição da função de verossimilhança em mãos, vou passar ao uso da abordagem de verossimilhança para realizar a seleção de modelos. Suponha que temos dois modelos concorrentes para explicar um conjunto de dados. O primeiro prevê que os dados foram gerados com uma distribuição gaussiana, e o segundo prevê que os dados foram gerados com uma distribuição poisson. Para comparar os dois, primeiro usei o método descrito acima para estimar as melhores estimativas para os parâmetros (mu e sigma no caso da gaussiana, lambda no caso da poisson) dado o meu conjunto de dados. Se o valor de logLik para o poisson é de -25, e o valor de logLik para o modelo gaussiano é de -28, podemos afirmar que o modelo poisson é muito mais razoável para descrever meu conjunto de dados. (Se não está convencido, calcule a exponencial de -25 e -28).
No entanto, o critério mais utilizado para realizar a seleção de modelos é o Critério de Informação de Akaike (em inglês, AIC) [5], que penaliza modelos pelo número de parâmetros. É esse método que usarei nas seções abaixo. O AIC de um modelo é calculado como $$ AIC = 2k -2 ll $$, onde k é o número de parâmetros de um modelo, e ll é a sua logLik. O modelo com menor AIC é o mais plausível, e dois modelos são julgados igualmente plausíveis quando a diferença entre seus AICs é menor do que 2. No exemplo acima, o AIC para o modelo poisson seria 52, enquanto para o modelo gaussiano, seria de 60, logo, escolheríamos o modelo poisson como a melhor explicação.
Definição do modelo e parâmetros
Findo esse preâmbulo, vou mostrar como a abordagem de seleção de modelos pode ser usada na análise de sensibilidade de um modelo matemático. Por favor, não confunda o modelo matemático que é o objeto de estudo da análise de sensibilidade com o modelo estatístico, que será usado para investigar as relações entre os parâmetros e a saída do modelo matemático. Tentei explicitar de qual estou falando sempre que pudesse haver ambiguidade.
Utilizei um modelo matemático simples, “livremente baseado” no mapa logístico, a versão em tempo discreto da equação de crescimento logístico. Apesar do modelo escolhido não ter correspondente biológico, ela apresenta um comportamento mais interessante:
Para realizar a amostragem, defini 4 parâmetros de interesse: a, b, a posição X0 e o tempo de simulação T. Para representar o estado de conhecimento prévio de nossas variáveis, utilizei uma distribuição uniforme para todos os parâmetros, nos seguintes intervalos:
a: de 0.25 a 2
b: de 0.02 a 0.1
X0: de 1 a 10
T: de 0 a 40
Como sei que esta função converge (e o tempo para convergência é pequeno), é razoável esperar que os parâmetros a e b sejam os mais importantes para determinar a saída final da função, e que os parâmetros X0 e T não tenham nenhuma relevância.
Sensibilidade clássica
Com esse modelo em mãos, a abordagem clássica de análise de sensibilidade consiste em geral uma amostra desse espaço de parâmetros que seja representativa, mas não exaustiva, e executar o modelo com cada vetor de parâmetros escolhido. Para gerar os valores, utilizei a técnica do Hipercubo Latino, dividindo o intervalo de cada variável em 500 sub-intervalos, e escolhendo 500 amostras aleatórias tais que cada sub-intervalo foi amostrado uma e uma única vez. As amostras foram então reordenadas para minimizar a correlação entre as variáveis [6].
A seguir, criei “espalhagramas” para analisar a relação entre as variáveis de entrada e a saída do programa. A linha sólida representa uma regressão linear levando em conta apenas a variável mostrada em cada painel.
A relação entre a variável de saída e os parâmetros a e b é bastante clara, mas com uma análise rápida desses gráficos, é difícil afirmar se existe ou não uma relação entre a saída e T. Uma análise mais robusta é aplicar uma medida de correlação parcial, ou seja, descontar o efeito das demais variáveis. Para isso, usei a correlação parcial de Pearson (em inglês, Partial Correlation Coefficient, PCC) [2]. As barras de erro na figura foram geradas por bootstraping (n=100).
Com essa análise, podemos inferir que os parâmetros relevantes para o modelo são, em ordem, a e b, e que T e X0 são irrelevantes, pois seus intervalos de confiança se sobrepõe ao zero, enquanto que o dos demais parâmetros não.
Outra análise, chamada eFAST, e de interpretação semelhante a uma ANOVA, é realizada para determinar qual fração da variabilidade do resultado pode ser explicada por cada variável ou combinação de variáveis. No gráfico abaixo, as barras brancas representam a contribuição individual de cada variável, e as barras cinzas representam a contribuição de interações envolvendo essas variáveis [7]. Esta análise sugere que a variabilidade da saída é devida aos parâmetros a e b, com uma pequena parcela atribuída a T ou X0. Embora eu não tenha feito aqui, também é possível testar a significância de cada um desses componentes.
É interessante notar aqui que os testes de significância são expressos em relação a modelos “nulos” que não foram explicitados. No caso do PCC, o modelo nulo é de que a correlação (parcial, portanto tomada entre resíduos) entre cada variável e a resposta é zero. O modelo nulo tomado no caso do eFAST é mais complexo: ele postula que a dispersão da saída do modelo é independente da variável ou interação entre variáveis considerada. Em ambos os casos, é importante notar que cada parâmetro deve ser testado individualmente, o que pode levar a problemas de múltiplos testes.
Seleção de modelos
Agora, vamos olhar o mesmo problema sob a perspectiva de seleção de modelos usando o princípio da verossimilhança. Primeiro, compararei modelos nos quais a variável resposta vai ser modelada como uma distribuição gaussiana de variância constante, e cuja média depende linearmente dos parâmetros dados. Veja que essa classe de modelos se assemelha à primeira análise que realizamos (PCC). A descrição e o resultado dos modelos está na tabela abaixo:
A tabela acima mostra a formulação de cada modelo em notação estatística, o número de parâmetros e a diferença de AIC entre o modelo e o melhor modelo ajustado (indicado por negrito). Esta análise indica que o modelo que incorpora os parâmetros a e b na determinação da média do resultado é mais provável do que os demais, e que a incorporação dos parâmetros T e X0 não apresenta uma melhora importante no modelo. O perfil de verossimilhança (não mostrado) indica que o valor de 0 é plausível para os coeficientes de ambos os termos.
A seguir, gerei os modelos de distribuição gaussiana onde a média é função de a e b, mas a dispersão é função dos parâmetros. Essa análise tem um papel que a abordagem clássica já não provê. Os resultados seguem abaixo:
Novamente, os parâmetros importantes foram identificados como sendo a e b, o que é esperado pela análise dos espalhagramas. Note que existem modelos melhores para serem propostos a estes dados, que podem ser testados facilmente dentro dessa mesma abordagem. Assim, a abordagem de seleção de modelos amplia o leque de possibilidades que um pesquisador pode investigar ao procurar a relação entre os parâmetros de entrada e o resultado de um modelo, fornecendo resultados coerentes com análises estabelecidas.
Conclusões
Propus aqui, embora de forma pouco formal, uma metodologia de seleção de modelos para ser utilizada no âmbito de análises de sensibilidade de modelos matemáticos. Essa metodologia agrega flexibilidade na escolha de quais modelos serão considerados, além de explicitar a escolha dos modelos nulos utilizados. Os próximos passos a se realizar são a formulação formal desse algoritmo e uma comparação rigorosa entre os resultados encontrados pelos métodos estabelecidos e a abordagem de verossimilhança.
Bibliografia
[1] Helton J.C. & Davis J.D. Latin hypercube sampling and the propagation of uncertainty in analyses of complex systems. Reliability Engineering and System Safety, 81:23–69, 2003.
[2] Kleijnen J.P.C. & Helton J.C. Statistical analyses of scatterplots to identify important factors in large-scale simulations, 1: Review and comparison of techniques. Reliability Engineering and System Safety, 65:147–185, 1999.
[3] Beven K.J. & Binley A.M. The future of distributed models: model calibration and uncertainty prediction. Hydrol Proc 6:279–298, 1992.
[4] Bolker, B.M. Ecological Models and Data in R. Princeton University Press, 2008.
[5] Akaike, H. A new look at the statistical model identification. IEEE Transactions on Automatic Control 19 (6): 716–723, 1974.
[6] Huntington D.E. & Lyrintzis C.S. Improvements to and limitations of latin hypercube sampling. Prob. Engng. Mech., 13(4):245–253, 1998.
[7] Marino S.; Hogue I.B.; Ray C.J. & Kirschner D.E. A methodology for performing global uncertainty and sensivity analysis in systems biology. Journal of Theoretical Biology, 254:178–196, 2008.
Uso e seleção de modelos de ocupação na investigação da liberação meso-predador
Francesca Belem Lopes Palmeira
Introdução
A hipótese da “liberação meso-predador” (MRH – Mesopredator Release Hypothesis) supõe que com o declínio ou o desaparecimento de predadores de topo ocorra a substituição deste nicho por meso-predadores que afetam negativamente a diversidade e a abundância de presas silvestres (Ritchie & Johnson 2009). Ou seja, a presença de predadores de topo inibe a explosão na população de meso-predadores que são espécies de menor porte, mais generalistas e resilientes. A hipótese da “liberação meso-predador” vem sendo bastante discutida desde o final da década de 80 (Soulé et al. 1988). Desde então, várias tentativas evidenciaram tal fenômeno entre diferentes espécies (Crooks & Soulé 1999, Elmhagen & Rushton 2007, Johnson et al. 2007, Brashares et al. 2010). Ao contrário, outras não encontraram suporte científico necessário para comprovar tal hipótese que continua a ser um tema polêmico da ecologia (Gehrt & Prange 2006, Lloyd 2007, Hodges 2012, Squires et al. 2012). Em alguns casos, a liberação meso-predador tem sido resultado de interações interespecíficas como a predação e competição (Donadio & Buskirk 2006). Em outros, a heterogeneidade ambiental e a mudança na paisagem também podem influenciar a ocorrência e a detecção de predadores de topo e meso-predadores (Crooks & Soulé 1999, Cove et al. 2012). A expansão da agropecuária tende a afetar negativamente a população de predadores de topo mas, ao contrário, pode favorecer os meso-predadores que são mais tolerantes às alterações.
Neste sentido, pretendo dedicar um dos capítulos da minha tese de doutorado para a investigação a liberação meso-predador entre mamíferos carnívoros em uma fronteira agrícola no Sul da Amazônia. A questão central é saber se em caso de evidência da liberação meso-predador, esta será causada por uma conseqüência de interações tróficas ou será influenciada pela mudança na paisagem? Desta forma, alguns padrões de modelos de ocupação serão investigados para as quatro espécies mais comuns de carnívoros, tendo uma única espécie de predador de topo, a onça-pintada (Panthera onca), seguida por meso-predadores como a onça-parda (Puma concolor), a jaguatirica (Leopardus pardalis) e o cachorro-do-mato (Cerdocyon thous). A escolha de poucas espécies (< 4) para elaborar os modelos de ocupação tende a facilitar a interpretação das interações entre as espécies (Mackenzie et al. 2004).
Além da questão central do estudo, diversas hipóteses foram levantadas (Tabela 1), por isso, escolhi a abordagem da verossimilhança como evidência relativa para se comparar hipóteses e modelos (Batista 2008). A seleção de modelos tem se tornado uma alternativa ao tradicional teste da hipótese nula e pode ser usada para identificar o melhor modelo ou para inferir no peso de evidência de vários modelos competindo, especialmente, quando existe mais de uma hipótese plausível (Johnson & Omland 2004).
Tabela 1. Descrição e resultados esperados para os modelos a priori (com exceção do modelo global com todas as co-variáveis “modelo nulo”) de detecção de predadores.
Métodos
A liberação meso-predador tem sido investigada por meio da utilização de diferentes métodos incluindo a presença-ausência de predadores e meso-predadores, a diversidade de espécies, a abundância, a mudança comportamental, a ecologia alimentar, entre outros. Neste estudo, optei em utilizar (1) a ocorrência, (2) a diversidade e (3) a abundância de espécies registradas por armadilhas fotográficas. As máquinas foram instaladas em 10 pontos de amostragem (carreiros, trilhas e estradas) distribuídos em áreas de floresta nativa e de reflorestamento e funcionaram por cerca de 90 dias consecutivos, totalizando cerca de 900 dias de esforço amostral anual e 3603 dias de esforço amostral total (de 2008 a 2011).
Apesar da maioria dos estudos ecológicos sobre predadores utilizar índices de abundância relativa (Crook & Soulé 1999) ou taxas de capturas (capturas/100 dias de amostragem) (Disney et al. 2008, Kelly & Holub 2008), estes índices não são apropriados para predizer a verdadeira relação entre a abundância de espécies e a heterogeneidade ambiental (Cove et al. 2012). Como alternativa, utilizarei modelos de ocupação para investigar a influência da paisagem e do esforço amostral na ocorrência e na detectabilidade das espécies. O uso da variável de ocupação (ψ) contribuirá para elucidar a relação entre ambiente e a distribuição da espécie (Mackenzie et al. 2006). Para isto, um histórico binário de detecção (detectada = 1 e não-detectada = 0) será criado para cada espécie a partir dos registros de captura dos predadores. Lembrando que se as espécies estavam presentes mas não foram detectadas (falsa-ausência), isto poderá resultar em uma interpretação equivocada sobre a interação entre as espécies.
Neste sentido, a função de máxima verossimilhança auxiliará a estimar essa ocupação incorporando o parâmetro de probabilidade de detecção (ρ) que poderá variar em função do resultado das co-variáveis do modelo. Neste estudo, considerei como co-variáveis ambientais do modelo a quantidade de floresta nativa e de reflorestamento. Com auxílio do ArcGis 9.3.1, será criado um buffer de 2 km de raio em torno das armadilhas fotográficas (considerada o centroíde do buffer) para se quantificar a proporção de floresta nativa e de reflorestamento de cada ponto amostrado. O esforço de amostragem também será incluído como co-variável para ser usada nos modelos. As co-variáveis ambientais tem efeitos na probabilidade de detecção das espécies e poderá causar viés nos índices de abundância caso os mesmos não sejam considerados nas análises a priori (Cove et al. 2012).
Também utilizarei nos modelos apenas aquelas variáveis preditoras de abundância das espécies consideradas importantes para o sistema biológico local. Novamente, a função de máxima verossimilhança será extremamente útil para a seleção dos modelos de melhor performance baseado no Critério de Informação Akaike corrigido para pequenas amostras (AICc) e com peso de evidência (wi). Para avaliar o melhor ajuste serão realizadas 10.000 simulações (bootstrap) do modelo global com todas as co-variáveis incluídas para determinar a ocorrência de sobredispersão. Para dar suporte aos melhores modelos, os mesmos serão considerados dentro de um intervalo de confiança (CI) de 90% (wi=0.900) (Burnham & Anderson 2002).
Considerações Finais
Como uma alternativa a estimativa de abundância das espécies, será criado um modelo de ocupação (ψ) para elucidar a relação entre as áreas amostradas e a distribuição dos predadores (Mackenzie et al. 2006). Está técnica de análise estimará a ocupação das espécies incorporando como parâmetro adicional a probabilidade de detecção (ρ), que também pode variar em função das co-variáveis do modelo. Portanto, incluirei a probabilidade de detecção nas análises para evitar viés nas estimativas de abundância das espécies nas áreas de floresta nativa e de reflorestamento. Também poderei avaliar os efeitos de outros fatores que influenciam na estimativa dos parâmetros do modelo: (1) número de locais amostrados (N), (2) número de repetições (T) e (3) probabilidade de detectar cada espécie (ρ). Assumindo que a detecção de cada espécie será independente da detecção da outra (δ = 1), a probabilidade de detecção será constante ao longo do tempo e igual para todas as espécies (ρA = ρB) mesmo quando uma ou mais espécie estiver presente (r = ρ).
Finalmente, ressalto a importância da utilização da abordagem da verossimilhança para se fazer inferências estatísticas utilizando uma combinação de teoria ecológica e dados de campo, especialmente, quando se tem mais de uma hipótese plausível. A seleção de modelos é uma opção aos métodos tradicionais de análise de dados e apresenta vantagens ao selecionar os modelos que melhor se ajustam aos dados coletados. Em adição, a seleção de modelos vem sendo amplamente utilizada em estudos de captura-recaptura de espécies por considerar que a probabilidade de detecção varia em função de co-variavéis como o tempo, o ambiente, as características individuais da espécie, entre outras. Desta forma, espero investigar a hipótese da liberação meso-predador incorporando apenas as variáveis consideradas importantes para o sistema local.
Referências Bibliográficas
Batista, J. L. F. 2008. Inferência em Recursos Florestais e Ecologia: a abordagem da verossimilhança. Palestra no Ciclo de Seminários do Programa de Pós-Graduação em Estatística e Experimentação Agronômica, ESALQ/USP, Piracicaba, SP. 24 pp.
Brashares, J. S.; Prugh, L. R.; Stoner, C. J. & Epps, C. W. 2010. Ecological and conservation implications of mesopredator release. In: Terborgh, J. & Estes, J. A. (Eds.) Trophic cascades: predators, prey, and the changing dynamics of nature. Island Press, Washington. 221-240 pp.
Burnham, K. P. & Anderson, D. R. 2002. Model selection and multimodel inference: A practical information-theoretic approach. 2st ed. Springer-Verlag, New York.
Cove, M. V.; Niva, L. M. & Jackson, V. L. 2012. Use of probability of detection when conducting analyses of surveys of mesopredators: a case study from the Ozark Highlands of Missouri. The Southwestern Naturalist 57(3): 257-261.
Crooks, K. R. & Soulé, M. E. 1999. Mesopredator release and avifaunal extinctions in a fragmented system. Nature 400: 563-566.
Disney, M. R.; Hellgren, E. C.; Davis, C. A.; Leslie Jr., D. M. & Engle, D. M. 2008. Relative abundance of mesopredators and size of oak patches in the cross-timbers ecoregion. Southwestern Naturalist 53: 214–223.
Donadio, E. & Buskirk, S. W. 2006. Diet, morphology, and interspecific killing in Carnivora. The American Naturalist 167(4): 524-536.
Elmhagen, B. & Rushton, S. P. 2007. Trophic control of mesopredators in terrestrial ecosystems: top-down or bottom-up? Ecology Letters 10: 197-206.
Gehrt, S. D. & Prange, S. 2006. Interference competition between coyotes and raccons: a test of the mesopredator release hyphotesis. Behavioral Ecology, DOI: 10.1093/beheco/arl075.
Hodges, K. E. 2012. Data-free speculation does not make for testable hypotheses: a reply to Ripple et al. Wildlife Society Bulletin, DOI: 10.1002/wsb.180.
Johnson, C. N.; Isaac, J. L. & Fisher, D. O. 2007. Rarity of a top predator triggers continent-wide collapse of mammal prey: dingoes and marsupials in Australia. Proc. R. Soc. B. 274: 341-346.
Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution 19: 101-108.
Kelly, M. J. & Holub, E. L. 2008. Camera trapping of carnivores: trap success among camera types and across species, and habitat selection by species, on Salt Pond Mountain, Giles County, Virginia. Northeastern Naturalist 15(2): 249-262.
Lloyd, P. 2007. Predator control, mesopredator release, and impacts on bird nesting sucess: a field test. African Zoology 42(2): 180-186.
Mackenzie, D. I.; Bailey, L. L. & Nichols, J. D. 2004. Investigating species co-ocurrence patterns when species are detected imperfectly. Journal of Animal Ecology 73: 546-555.
Mackenzie, D. I.; Nichols, J. D.; Royle, J. A.; Pollock, K. H.; Bailey, L. L. & Hines, J. E. 2006. Occupancy estimation and modeling. Academic Press, Burlington, Massachusetts.
Ritchie, E. G. & Johnson, C. N. 2009. Predator interactions, mesopredator release and biodiversity conservation. Ecology Letters 12: 982-998.
Squires, J. R.; DeCesare, N. J.; Hebblewhite, M. & Berger, J. 2012. Missing Lynx and trophic cascades in food webs: a reply to Ripple et al. Wildlife Society Bulletin, DOI: 10.1002/wsb.186.
Soulé, M. E.; Bolger, D. T.; Alberts, A. C.; Wright, J.; Sorice, M. & Hill, S. 1988. Reconstructed dynamics of rapid extinctions of chaparral-requiring birds in urban habitat islands. Conservation Biology 2: 75-92.
A inferência da verossimilhança na análise do manejo florestal da amazônia
Tito Nunes de Castro
Introdução
A exploração da Amazônia é de grande importância no futuro estratégico do Brasil. Com seu estoque de madeira de 650 bilhões de metros cúbicos, seu valor ecônomico é estimado em 4 trilhões de reais (Barros e Veríssimo, 2002). Para uma boa pratica do manejo florestal nessa região, afim de garantir sua prosteridade, várias técnicas e normas foram criadas com a finalidade de reduzir o impacto causado pela exploração à floresta. A técnica que foi mais difundida nessa região foi a da Exploração de Impacto Reduzido (EIR).
A EIR consiste em um total planejamento da exploração, no qual todas suas etapas são previamente decididas tentando maximizar o uso da floresta diminuindo ao máximo seu impacto causado à ela. Para garantir a utilização dessa técnica, foi criada uma legislação específica. A primeira a ser adotada foi a Instrução Normativa n. 5 do MMA de 2006, revisada e modificada com a Resolução CONAMA n. 406 de 2009, no qual intensidade e duração do ciclo de corte, diâmetro mínimo de corte foram estabelecidos afim de garantir a sustentabilidade da exploração (Brasil, 2009). Em contrapartida, essas definições impostas pela legislação foram estabelecidas sem um prévio conhecimento do comportamento da floresta após essas intervenções.
Para isso, estudos que detalham esse comportamento da floresta após a exploração são importantes para definir novas técnicas e melhorar as existentes. Mesmo assim, poucos são os estudos que abordam esse tema, assim como poucas são as áreas em território brasileiro que completaram um ciclo de corte. Para contornar esse problema, a modelagem dos dados com o objetivo da projeção dos parâmetros da floresta surge como uma alternativa na análise da exploração.
Ajuste de modelos pela inferência da verossimilhança
A inferência estatística da verossimilhança se baseia basicamente em ajustar um modelo através dos dados, dado que os dados são fixos e os parâmetros dos modelos são variáveis. A seguir uma breve explicação desse princípio.
Considerando uma variável X que pode ter seu comportamento explicado por duas hipóteses (A e B), a probabilidade de se observar X=x épara cada hipótese é de pA(x) e pB(x). Dessa forma, a lei da Verossimlihança afirma que a observação X=x é uma evidência que favorece a hipótese A sobre a hipótese B apenas se pA(x) > pB(x). Sendo assim, a razão de verossimilhança ( pA(x)/pB(x) ) mede a força de evidência em favor da hipótese A sobre a hipótese B (Batista, 2009).
Para estimar os melhores parâmetros que se ajustam aos dados observados é utilizada o Método da Máxima Verossimilhança. O método da máxima verossimilhança consiste em estimar os parâmetros do modelo utilizando as estimativas desses parâmetros o qual tornam máximo o valor da função de verossimilhança. A função de verossimilhança, por sua vez, é basicamente a função de densidade no qual a observação é fixa e os parâmetros são variáveis, que nesse caso deixa de ser a função de densidade e se torna uma função de verossimilhança.
O Princípio da Verossilmilhança implica que duas hipóteses são consideradas equivalentes se, e apenas se, elas gerarem a mesma função de verosimilhança, ou seja, todas as razões de verossimilhança serão iguais o que significa que elas possuem a mesma função de verossimilhança (Royall, 2007). Apesar de a lei da verossimilhança ser bastante difundida em todas as vertentes estatísticas, o Princípio da verossimilhança ainda sofre uma resistência das outras vertentes.
Para a seleção dos modelos é utilizado o Critério de Seleção de Akaike (AIC). O AIC é um estimador da distância de Kullback-Leiber, no qual é uma medida de distância entre a realidade conceitual e o seu modelo aproximado. Essa distância é estimada através da função de máxima verossimilhança (Burnham e Anderson, 2002). Dessa forma, esse critério é uma importante ferramenta na seleção de modelos, indicando o modelo que mais se aproxima do modelo verdadeiro. O AIC é definido pela seguinte expressão:
AIC = - 2 x ln[L(modelo)] + 2p
No qual L(modelo) é a função de verossimilhança do modelo e p é o número de parâmetros do modelo. Esse critério é mais seletivo que a log-verossimilhança negativa, pois o AIC penaliza ela pelo número de parâmetros. O modelo que obtiver o menor valor do AIC é o que estará mais próximo do modelo real.
Para a análise da exploração florestal na Amazônia brasileira, será utilizada a inferência estatística da Verossimilhança. Em uma parte deste estudo será definida o comportamento do volume, em metros cúbicos por hectare, da área explorada após a exploração com o objetivo de uma melhor definição tempo necessário de ciclo de corte da exploração madeireira da Amazônia.
O conjunto de dados é de uma área que passou por exploração de impacto reduzido em 1993 em Paragominas, nordeste do Pará. Antes da exploração foi coletados dados de todas as árvores com DAP acima de 25 cm em 14 parcelas de 3,5 hectares. A área foi mensurada também nos anos de 1994, 1995, 1996, 1998, 2000, 2003, 2006 e 2009.
Para isso, modelos serão ajustados em diferentes distribuições probabilísticas utilizando o método da máxima verossimilhança para a determinação dos parâmetros dos modelos, sendo a seleção destes modelos determinada pelo Critério de Informação de Akaike. Nesse caso o volume será a variável dependente que será modelada sob diversas distribuições contínuas. Com essa abordagem será possível englobar os mais diversos tipos de modelos, sem ficar preso a modelagem clássica por regressão linear que aborda apenas a distribuição gaussiana com a média sendo uma função linear e a variância constante.
Essa é a grande vantagem dessa inferência em relação as outras, a modelagem torna-se mais flexível possibiltando um maior entendimento do seu conjunto de dados e da situação que o pesquisador está trabalhando. Sendo que o “modelo se ajusta aos seus dados e não os dados se ajustam ao seu modelo”.
Referências bibliográficas
Barros, A. C.; Veríssimo, A. 2002. A Expansão madeireira na Amazônia: Impactos e perspectivas para o desenvolvimento sustentável no Pará. Imazon, Belém. 166 p.
Batista, J.L.F. 2009 Verossimilhança e Máxima Verossimilhança.
Brasil. Resolução CONAMA n. 406 de 2 de fevereiro de 2009. Estabelece parâmetros técnicos a serem adotados na elaboração, apresentação, avaliação técnica e execução de Plano de Manejo Florestal SustentávelPMFS com fins madeireiros, para florestas nativas e suas formas de sucessão no bioma Amazônia. Publicação Diário Oficial da União, n. 26, 6 fev. 2009.p.100.
Burnham, K.P.; Anderson, D.R. 2001 Kullback-Leibler information as a basis for strong inference in ecological studies. Wildlife Research, v.28, p.111-119.
Royall, R. M. 2007. The likelihood paradigm for statistical evidence. In: The nature of scientific evidence (eds. ML Taper and SR Lele), University of Chicago Press, pp 119–152.
O uso de seleção de modelos para investigar processos históricos de comunidades
Kate Maia
Apresentação e vantagens do uso de seleção de modelos
A seleção de modelos é uma abordagem estatística que permite a comparação entre diversos modelos estatísticos ou matemáticos. O objetivo dessa abordagem é encontrar aquele que, dentre os modelo propostos, é melhor apoiado pelos dados. Idealmente, modelos são hipóteses que estabelecem relações matemáticas entre um fenômeno de interesse e os fatores (variáveis preditoras) que potencialmente influenciam esse fenômeno. Entre as diferentes formas de selecionar modelos, a seleção com base na máxima verossimilhança e em critérios como o AIC, se mostra um método vantajoso por dois motivos. O primeiro deles, é que o uso de critérios como o AIC, nos permite não apenas escolher o modelo que mais se aproxima da realidade, mas também considera a complexidade do modelo para fazer esta escolha. Modelos mais complexos, geralmente, se aproximarão mais da realidade, de forma que no extremo de um gradiente de complexidade existe um modelo que descreve perfeitamente a realidade. Portanto, a vantagem da seleção de modelos com base no AIC é que ela prioriza modelos simples, permitindo identificar aquelas hipóteses que possuem os mecanismos fundamentais. A segunda vantagem da seleção de modelos com base em critérios, é que vários modelos são confrontados com os dados simultaneamente, o que permite comparar o suporte relativo que os dados dão a cada modelo.
Quando a seleção de modelos é particularmente vantajosa
“Model selection is well suited for making inferences from observational data, especially when data are collected from complex systems or when inferring historical scenarios where several different competing hypotheses can be put forward” – Johnson & Omland (2004)
A seleção de modelos se torna particularmente vantajosa em alguns tipos de estudo comuns em ecologia. Na estatística frequentista, a hipótese sobre qual processo gerou os dados é confrontada com a hipótese de que os dados não foram gerados por nenhum processo diferente do acaso. Porém, em muitas circunstâncias, sugerir que apenas o acaso está por trás dos padrões observados não é realista, pois, com base na teoria e em observações podemos sugerir diversos mecanismos plausíveis que poderiam ser investigados. Confrontar cada uma dessas hipóteses com a ausência de efeito indica apenas quais processos são melhores preditores da realidade do que o acaso, porém não indica qual hipótese com mecanismo subjacente recebe o maior apoio dos dados. Portanto, quando somos capazes de sugerir mais de uma explicação plausível para nossos dados, a seleção de modelos pode ser uma abordagem construtiva.
Quando o objeto de estudo é um sistema muito complexo, como uma comunidade ecológica, a realização de experimentos capazes de isolar o efeito de um ou alguns fatores em particular torna-se impraticável. Diversos fatores podem estar atuando simultaneamente na organização de sistemas complexos. Nesses casos, a seleção de modelos permite a comparação entre modelos que apresentem esses diferentes fatores de forma isolada ou combinada, e ainda modelos com diferentes relações funcionais entre os fatores que estão sendo avaliados.
O uso de seleção de modelos em estudos que envolvem a história evolutiva de espécies e sistemas também é benéfico, já que experimentos não são possíveis e, muitas vezes, não existem dados que descrevam os processos por meio dos quais espécies surgiram ou comunidades se estruturaram. Normalmente o que temos são os dados atuais: as espécies que existem, em que locais vivem, com quais outras espécies coexistem, e com quais destas interagem. Utilizando esses dados, podemos desenvolver modelos que são hipóteses sobre árvores de parentesco que associam as espécies com base no tempo de divergência e características compartilhadas. Podemos também criar modelos que incorporem os possíveis mecanismos que determinam as interações atuais entre espécies, ou ainda modelos que descrevam como as espécies chegaram nos locais onde vivem hoje. Nesses casos, com a seleção de modelos, podemos buscar quais processos históricos são mais plausíveis na geração dos padrões atuais, mesmo não possuindo os dados que representem estes processos.
Estudo de caso: quando o estudo de comunidades é histórico
Usarei como exemplo um projeto que pretendo desenvolver durante meu mestrado. Neste projeto, utilizarei inferência por verossimilhança, já que estou interessada nos processos históricos que estruturaram comunidades atuais.
Interações ecológicas são pontos chave da compreensão da ecologia e evolução das espécies (Thompson 2005). As interações mutualísticas, interações entre indivíduos de espécies diferentes que aumentam a aptidão de seus participantes, são de particular importância nesse contexto, pois frequentemente estão relacionadas à emergência de evolução com reciprocidade, i.e., coevolução. (Thompson 2005). Nesse sentido, mutualismos são centrais na geração da biodiversidade e na sua manutenção (Bascompte & Jordano 2007). Por essas razões, compreender quais fatores determinam a ocorrência de interações mutualísticas, é hoje uma questão fundamental em ecologia.
Os atributos das espécies, como caracteres morfológicos, ecológicos e comportamentais, são um fator importante para determinar a ocorrência de interações como os mutualismos. Esses atributos podem influenciar o número de parceiros com os quais uma espécies interage, assim como a identidade dos parceiros de interação (Jordano 1995; Krishna et al. 2008). Espécies aparentadas podem possuir características similares em decorrência de sua história evolutiva compartilhada (Wiens & Graham 2005). Em alguns casos, as similaridades entre espécies aparentadas se manifestam diretamente na identidade dos parceiros com os quais as espécies interagem (Gómez et al. 2010). Portanto, atributos com potencial para determinar a ocorrência de uma interação não são necessariamente espécie-específicos, ou seja, podem ser compartilhados em outras escalas taxonômicas mais abrangentes do que no nível especifico.
Meu projeto de pesquisa tem com objetivo compreender em quais níveis taxonômicos de polinizadores e plantas estão os atributos que determinam a ocorrência das interações entre essas espécies. Compreender em quais níveis taxonômicos emergem os padrões de interação é importante pois: (1) permite uma maior compreensão de como os padrões atuais são gerados (2) fornece pistas para encontrarmos os atributos mais importantes em definir esses padrões, uma vez que podemos rastrear os atributos compartilhados nos diferentes níveis e (3) fornece pistas da redundância das espécies, revelando como a diversidade taxonômica e diversidade de interações se relacionam.
Comunidades de polinizadores e plantas podem ser representadas por meio de redes, que são coleções de elementos que interagem (Proulx et al. 2005). Em redes de polinização os elementos são geralmente as espécies que são divididas em dois grupos: polinizadores e plantas. Portanto, a interação entre as unidades do sistema ocorre quando uma espécie de polinizador poliniza uma espécie de planta, e as interações ocorrem apenas entre os dois grupos das redes. Redes podem ser representadas na forma de matrizes de interação M nas quais cada linha representa uma espécie de animal, e cada coluna representa uma espécie de planta, e o elemento mij representa a possível interação entre a espécie de animal i e a planta j. Quando uma interação entre uma espécie i e uma espécie j ocorre, a célula correspondente da matriz é preenchida por 1, quando não ocorre é preenchida por 0. Compilarei da literatura redes de polinização e filogenias dos grupos de polinizadores e plantas que compõem as redes. Com base nas redes de interação e filogenias compiladas construirei matrizes de probabilidade de interação, nas quais o elemento mij será a probabilidade da ocorrência da interação entre a espécie de animal i e de planta j. A probabilidade de cada interação será a conectância da rede, que é a razão entre o número de interações observadas e o número de interações possíveis da rede. Se uma rede for dividida em blocos menores, novas conectâncias podem ser calculadas para cada bloco, e essas novas conectâncias passarão a ser as novas probabilidades de ocorrência das interações daquele bloco.
Dividirei as redes em blocos menores com base nos níveis taxonômicos espécie, gênero, família, ordem e classe de plantas e polinizadores (Figura 1). Para cada matriz criada, um nível taxonômico será escolhido independentemente para plantas e polinizadores, o que resultará em 25 matrizes de probabilidade de interação, que é o número de combinações possíveis entre os níveis taxonômicos. Cada uma dessas matrizes de probabilidade representa uma hipótese sobre qual nível taxonômico de plantas e polinizadores é o melhor preditor das interações atuais entre essas espécies.
Figura 1: Matrizes de interação, nas quais linhas representam espécies de polinizadores e colunas espécies de plantas, e filogenias das espécies que compõem as matrizes. a) Dividindo a rede com base em um nível taxonômico dos polinizadores (linha vermelha) as conectâncias dos blocos branco e cinza são recalculadas. b) Dividindo a rede com base em um nível taxonômico das plantas (linha vermelha) as conectâncias dos blocos azul, laranja e roxo são recalculadas. c) Com base em um nível taxonômico dos polinizadores e plantas (linhas vermelhas) as conectâncias de cada bloco (ao todo seis) são recalculadas.
Utilizarei a seleção de modelos baseada na máxima verossimilhança de cada modelo e no critério de seleção AICc. Os modelos concorrentes são representados pelos conjuntos de regras que geram as matrizes de probabilidade de interação, e os dados são as redes. Os parâmetros de cada modelo são o número de blocos em que cada rede vai ser dividida. Para selecionar qual das matrizes de probabilidade geradas é uma melhor hipótese sobre o nível taxonômico que determina os padrões de interação atuais entre plantas e polinizadores, utilizarei o método de máxima verossimilhança. Para isso, calcularei a verossimilhança de cada modelo da seguinte forma:
onde h é a hipótese ou modelo, M é a matriz de interação empírica e mij são as células da matriz empírica. Com base no valor de verossimilhança e número de parâmetros de cada modelo, calcularei o valor de AICc de cada modelo. O modelo com menor AICc é o modelo mais plausível para aquele conjunto de dados.
Neste exemplo, existem diferentes hipóteses plausíveis a respeito da organização de comunidades de polinizadores e plantas. Como esse processo se deu no passado, e temos apenas dados das interações atuais, a seleção de modelos se torna o método mais promissor na tentativa de desvendar como essas interações se estruturaram.
Para saber mais:
Johnson, J.B. & K.S. Omland. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-108.
Pires, M.M. & P.R Guimarães Jr.. 2012. Interaction intimacy organizes networks of antagonistic interactions in different ways. Jounal of the Royal Society Interface, (in press).
Referências bibliográficas:
Bascompte, J. & P. Jordano. 2007. Plant-animal mutualistic networks: the architecture of biodiversity. Annual Review of Ecology, Evolution and Systematics, 38:567-593.
Gómez, J.M.; M. Verdú & F. Perfectti. 2010. Ecological interactions are evolutionarily conserved across the entire tree of life. Nature, 465:918-922.
Krishna, A., P.R. Guimarães, P. Jordano, & J. Bascompte. 2008. A neutral-niche theory of nestedness in mutualistic networks. Oikos, 117:1609-1618.
Jordano, P. 1995. Angiosperm fleshy fruits and seed dispersers: a comparative analysis of adaptation and constraints in plant-animal interactions. American Naturalist, 145: 163-191.
Proulx, S.R.; D.E.L. Promislow, & P.C. Phillips. 2005. Network thinking in ecology and evolution. Trends in Ecology & Evolution, 20:345-353.
Thompson, J. N. 2005. The Geographic Mosaic of Coevolution. The University of Chicago Press, Chicago.
Wiens, J.J. & C.H. Graham. 2005. Niche conservatism: integrating evolution, ecology and conservation biology. Annual Review of Ecology, Evolution and Systematics, 36: 519-539.
Caminhando para uma maior compreensão de fenômenos naturais
Paula Lemos da Costa
A análise de máxima verossimilhança é uma técnica estatística para seleção de modelos que tem ganhado espaço na ecologia e em outras áreas das ciências biológicas. A popularização da abordagem de máxima verossimilhança possivelmente é consequência da versatilidade que a técnica oferece em termos de teste de hipóteses. Hipóteses concorrentes relacionadas a um dado fenômeno podem ser expressas na forma de modelos que formalizam a relação entre possíveis processos e padrões observados. A seleção de modelos é uma abordagem especialmente adequada quando existem várias hipóteses sobre um dado fenômeno. Em contraposição à abordagem frequentista, na qual apenas um modelo ou hipótese é confrontado com uma expectativa nula, na seleção de modelos diversas hipóteses podem ser confrontadas simultaneamente para avaliar qual delas é mais verossímil em relação às observações empíricas. Em outras palavras, a seleção de modelos indica qual hipótese melhor explica os dados.
Hipóteses e modelos podem ser compreendidos como formalizações distintas de uma mesma ideia. Hipóteses seriam formalizações verbais sobre uma possível explicação para um fenômeno, enquanto modelos seriam a formalização matemática sobre o mesmo fenômeno. Por exemplo, um biólogo pode observar animais em campo e hipotetizar que o peso de um animal aumenta conforme o seu comprimento. Supondo que uma relação entre essas variáveis é que o peso do animal dobre com o comprimento deste animal, a hipótese formalizada da relação entre peso e altura pode ser descrita pela expressão matemática p = 2c, onde p representa o peso do animal e c representa o seu comprimento. Esse exemplo ilustra de forma simples como hipóteses podem ser descritas por expressões matemáticas. Na prática, ecólogos e biólogos buscam desenvolver modelos que expliquem dinâmicas complexas que ocorrem na natureza. Considerando-se que modelos determinísticos têm limitações consideráveis perante tal tarefa, a incorporação de estocasticidade na modelagem de sistemas biológicos é um imperativo.
Uma das maneiras de se estudar a natureza incorporando sua estocasticidade é por meio de modelos estatísticos. Modelos estatísticos são expressões matemáticas que descrevem a relação entre variáveis aleatórias com outras variáveis, que podem ou não ser aleatórias. O uso de modelos estatísticos em questões biológicas permite o uso do corpo teórico desenvolvido para inferência estatística para fazer afirmações sobre quais valores para as variáveis do modelo são mais plausíveis com base nos dados biológicos. Um dos componentes-chave dos modelos estatísticos são as distribuições de probabilidade teóricas que caracterizam suas variáveis. Distribuições de probabilidade teóricas atribuem uma probabilidade a cada valor que a variável do modelo pode assumir. Por exemplo, a altura de homens adultos pode ser descrita por uma distribuição normal, na qual o parâmetro μ (mu) pode ser aproximado pela média de valores de altura da amostra e o parâmetro σ (sigma) pode ser aproximado pelo desvio padrão desta amostra. Assim, a incerteza dos dados pode ser incorporada nos parâmetros da distribuição normal. É possível ainda aumentar a complexidade dos modelos estatísticos ao modelar os parâmetros destes modelos como variáveis aleatórias. Por exemplo, é possível que para um certo conjunto de dados o desvio padrão seja melhor descrito por uma relação linear ao invés de uma constante. Nesse caso, é possível incorporar este tipo de complexidade no modelo ao considerar que o desvio padrão segue uma relação linear com outras variáveis.
Modelos estatísticos com distribuições de probabilidade teóricas que descrevem os dados são o ingrediente essencial para o uso da abordagem de verossimilhança e seleção de modelos. Uma vez que existam diferentes modelos, eles serão confrontados com os dados e para cada modelo será atribuído um valor de verossimilhança. O valor de verossimilhança descreve a plausibilidade do modelo ao atribuir a cada dado uma probabilidade que segue a distribuição de probabilidade escolhida para descrever o modelo. O modelo mais plausível será aquele que apresentar maior valor de verossimilhança.
Apesar das vantagens associadas a modelos estatísticos, como a possibilidade de se incorporar a estocasticidade presente nos sistemas naturais e a possiblidade de se criar modelos complexos nos quais os parâmetros podem ser modelados por funções, descrever alguns fenômenos biológicos usando este tipo de modelo pode ser um problema não trivial. Alguns estudos exploram fenômenos naturais nos quais diversas camadas de heterogeneidade interagem resultando em um padrão de interesse. Estudos que abordam ecologia de dispersão, descrevendo os padrões de movimentação de organismos, são um exemplo da limitação dos modelos estatísticos. Aspectos da fisiologia, ecologia e filogenia da espécie atuam juntamente com outros fatores para determinar os padrões de dispersão associados com a espécie. Assim, dependendo da questão de interesse, definir modelos estatísticos capazes de integrar as camadas de heterogeneidade que compõe o fenômeno observado pode ser um desafio. Para estudos desse tipo, outras abordagens de modelagem podem ser mais adequadas como, por exemplo, modelos baseados em indivíduos, também chamados modelos estocásticos simulados.
Modelos estocásticos simulados integram componentes conhecidos do sistema em um algoritmo que pode simular a interação entre diferentes processos que afetam o fenômeno de interesse. O produto final da simulação de um modelo estocástico simulado geralmente é composto por diversos elementos que descrevem o fenômeno. Esses elementos em muitos casos não podem ser descritos por distribuições de probabilidade, o que impede o uso da abordagem de verossimilhança para tais modelos. Entretanto, em alguns casos componentes do produto final da simulação podem ser transformados em uma métrica sumária que descreve algum aspecto do resultado do modelo. Ao final de diversas simulações, portanto, é possível construir um histograma com a distribuição dos valores da métrica obtida ao final de cada simulação. A partir dessa distribuição de valores é possível, após um grande número de simulações, aproximar uma função de densidade probabilística. Uma vez aproximada a função de densidade probabilística da métrica sumária de um dado modelo, é possível definir um valor de densidade probabilística calculada a partir dos dados empíricos. Como a verossimilhança é proporcional à função de densidade probabilística, é possível determinar um valor aproximado de verossimilhança para cada modelo estocástico simulado e selecionar qual modelo gera produtos finais mais verossímeis.
Ao integrar-se modelagem estocástica por simulação com seleção de modelos por verossimilhança é possível incorporar elementos heterogêneos do sistema de estudo que não podem ser modelados de forma estatística e ainda assim utilizar o arcabouço teórico da inferência estatística por meio da seleção de modelos. Essa combinação de modelos simulados com abordagem de seleção de modelos permitirá um grande avanço teórico na compreensão de fenômenos que não podem ser modelados apenas com o uso de modelos estatísticos. Modelos estocásticos simulados permitem que o cientista explicite possíveis mecanismos subjacentes aos padrões encontrados na natureza. Assim, o uso deste tipo de abordagem permite a criação de modelos simulados que descrevam mecanismos ou processos distintos. Através da seleção de modelos podemos comparar diretamente qual mecanismo ou processo pode ser considerado mais verossímil segundo o conjunto de dados estudado, o que contribuirá para uma maior compreensão dos mecanismos e processos subjacentes aos padrões naturais.
Os passos necessários para a utilização da abordagem de verossimilhança para modelos estocásticos simulados podem ser resumidos da seguinte forma:
(1) Determinar os modelos estocásticos simulados concorrentes;
(2) Determinar a métrica sumária que descreve um aspecto do resultado dos modelos;
(3) Rodar diversas (1000 ou mais) simulações dos modelos, armazenando em cada simulação o valor da métrica;
(4) Gerar histogramas com os valores simulados das métricas sumárias para cada modelo;
(5) Aproximar a função de densidade probabilística da métrica para cada um dos modelos concorrentes;
(6) Atribuir um valor de verossimilhança para cada modelo com base no valor da métrica sumária empírica;
(7) Selecionar o modelo mais verossímil;
Para saber mais
Hartig, F.; Calabrese, J. M.; Reineking, B.; Wiegand, T.; and Huth, A. 2011. Statistical inference for stochastic simulation models – theory and application. Ecology Letters, 14:816-827. Johnson, J. B.; and Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-108.
Pires, M. M.; Prado, P. I.; and Guimarães Jr., P. R. 2011. Do food web models reproduce the structure of mutualistic networks? PloSOne, 6(11):1-8.
Modelos clima / crescimento para uma população relictual de //Podocarpus lambertii// (PODOCARPACEAE) no Nordeste do Brasil
Giuliano Maselli Locosselli
Introdução
O crescimento das árvores, como um resultado da atividade dos meristemas primários e secundários, é intimamente dependente das condições do ambiente no qual os indivíduos estão inseridos. O meristema responsável pela produção do xilema é o câmbio, o qual pode possuir uma atividade sazonal que resulta na formação de anéis concêntricos no lenho denominados anéis de crescimento (Schweingruber 1989).
Quando estes anéis de crescimento são formados dentro de um intervalo de tempo conhecido, em geral, num período de um ano, estes podem ser datados por meio de métodos dendrocronológicos. Por serem produzidos anualmente, e devido à intima relação do crescimento com as condições ambientais, os anéis de crescimento podem formar um registro que possui uma série de informações sobre a vidas das plantas. O clima é reconhecido como um dos fatores ambientais mais importantes no desenvolvimento das plantas, e as variações inter-anuais de temperatura e precipitação podem ficar registradas no lenho como anéis de crescimento mais estreitos e mais largos (Schweingruber 1996).
A relação entre o clima e o crescimento mostrou-se linear em grande parte dos trabalhos publicados na área de dendroclimatologia, com raros exemplos de relações clima / crescimento não lineares. Numa análise mais ampla, este resultado é surpreendente, pois os processos fisiológicos que são a base da formação dos anéis de crescimento, possuem uma relação não linear com as variáveis climáticas (Hughes 2002). Por exemplo, as taxas de assimilação possuem uma relação não linear com a temperatura, com um valor ótimo de assimilação (exemplo: Avola et al. 2008) . Acredita-se que esta relação linear, comumente encontrada, seja um resultado das estratégias de seleção dos ambientes, de árvores, e dos parâmetros analisados nos anéis de crescimento nos estudos dendroclimatológicos (Hughes 2002). Apesar do exposto, uma relação não linear entre do clima e o crescimento é, ao menos, teoricamente plausível e pode depender da espécie alvo e do ambiente em que se encontra a população.
Seleção de modelos e Verossimilhança
Ao iniciar um estudo científico, o pesquisador elabora uma série de hipóteses que podem ser testadas por meio da obtenção de dados empíricos. Tanto em dados experimentais, quanto em dados observacionais, espera-se que uma parte relevante das informações da população alvo esteja presente (Burnham & Anderson 2002). As hipóteses a serem testadas podem ser traduzidas como modelos matemáticos que têm como objetivo expressar de uma forma mais sistemática e simplificada um fenômeno. Para isso, as variáveis de interesse devem ser identificadas e as funções matemáticas que descrevem o fenômeno biológico devem ser escolhidas (Johnson & Omland 2004).
Estes modelos podem possuir um ou mais parâmetros, as quais podem seguir um gradiente de influência sobre o fenômeno estudado, desde parâmetros que o explicam muito o fenômeno, a parâmetros de influências intermediária e pequena. Na natureza, as variáveis preditoras atuam de formas diversas, possuindo ou não interações, o que resulta numa complexidade que não pode ser completamente reproduzida nos modelos. A escolha dos parâmetros para a construção de um modelo segue o princípio da parcimônia, já que modelos hiperparametrizados, ou seja, com muitas variáveis preditoras, podem resultar num ajuste às variações provenientes da população, mas também, às particularidades da amostra. Por outro lado, os modelos com poucos parâmetros podem negligenciar informações relevantes sobre a população. Assim, deve-se escolher o melhor modelo para a representação do fenômeno de interesse (Burnham & Anderson 2002).
Ao utilizar a abordagem de verossimilhança, o pesquisador elabora as hipóteses pertinentes ao estudo, com base em informações teóricas e experiências práticas, e atribui a cada hipótese um modelo. Destarte, o pesquisador avalia a probabilidade de cada modelo (hipóteses) com base no conjunto de dados empíricos e compara as probabilidades destes para avaliar qual é o mais plausível (Bolker 2007). Por exemplo, digamos que a probabilidade do crescimento da planta ser influenciado pela temperatura é de 0.5, e a probabilidade do mesmo ser influenciado pela temperatura e precipitação seja de 0.25, podemos dizer que a primeira hipótese é 2 vezes (0.5/0.25) mais plausível do que a segunda com base nos dados amostrados. A razão entre estas probabilidades também é conhecida de razão de verossimilhança e mede a força de evidência a favor da primeira hipótese (Batista 2009).
Um dos motivos para o uso da seleção de modelos é a estimação dos parâmetros dos modelos, que possuem significados biológicos ou identificar o melhor modelo para realizar previsões. A estimação de máxima verossimilhança é uma ferramenta poderosa para a estimação dos parâmetros dos modelos de interesse (Johnson & Omland 2004). Existem algumas medidas de distância que podem ser calculadas para descobrir qual o modelo que se aproxima mais da realidade. Quando o modelo real é conhecido, utiliza-se uma medida de distância absoluta denominada de distância de Kullback-Leibler (Figura 1A). De fato, esta medida indica muito mais uma relação de discrepância entre dois modelos. Porém, o modelo “real” é raramente conhecido, salvo algumas situações como a simulação, o que impede que uma distância absoluta seja calculada em termos práticos (Burnham & Anderson 2002).
Por outro lado, a distância relativa entre dois ou mais modelos e o modelo real, não conhecido, pode ser calculada. O critério de informação de Akaike (AIC) avalia a plausibilidade dos modelos calculados pela log-verossimilhança negativa com uma penalização devido ao número de parâmetros utilizados no modelo. Esta penalização é uma medida de parcimônia para evitar que os modelos hiperparametrizados sejam considerados mais próximos da realidade. Como é possível ver na Figura 1B, com o AIC, podemos saber a distância relativa dos três modelos em relação à realidade, mesmo sem conhecer a distância real. Com isso, podemos dizer que o modelo 3 é o mais próximo da realidade, e portanto é o mais plausível.
Na prática, o modelo que possui a menor distância em relação à realidade, é o que possui o menor valor de AIC e, portanto, é o mais plausível. A diferença entre os valores de AIC de cada modelo em relação ao modelo de menor valor de AIC é representada por Δi. Um valor de Δi maior que dois indica que o modelo de menor valor de AIC é mais de oito vezes mais plausível, podendo ser escolhido como o que melhor representa a realidade. Quando o Δi é menor do que dois, diz-se que os dois são igualmente plausíveis. É importante ressaltar dois pontos, o valor de Δi maior do que dois é um valor canônico escolhido pela comunidade ciêntifica; e o melhor modelo encontrado num processo de seleção de modelos, não é o melhor modelo em absoluto, pois sempre se pode propor um novo modelo (hipótese) que seja ainda mais plausível (Burnham & Anderson 2002).
Por fim, é possível calcular os pesos de Akaike (wi), os quais indicam o peso da evidência a favor do melhor modelo (Δi igual a zero). Sempre que um modelo for adicionado ou retirado da seleção de modelos, os pesos devem ser recalculados (Burnham & Anderson 2002).
Figura 1: Esquematização simplificada da A) distância de Kullback-Leibler e B) do Critério de Informação de Akaike.
Exemplo de aplicação em Dendroclimatologia
A seleção de modelos clima / crescimento é de grande relevância em estudos de Dendroclimatologia. A precipitação e a temperatura em geral são os fatores climáticos mais relevantes sobre a taxa de crescimento radial de espécies lenhosas. Algumas espécies são moduladas preferencialmente pela temperatura (ex: Hoshino et al. 2008, Oliveira et al. 2009), outras pela precipitação (Worbes 1999, Schongart et al. 2005), e por fim, algumas respondem tanto à temperatura, quanto à precipitação (Heinrich et al 2008, Giantomasi et al. 2009). Como apresentado na Introdução, o modelo mais comumente testado é o linear na literatura especializada, mas um modelo não linear também é plausível.
Como estudo de caso, uma população de Podocarpus lambertii (Podocarpaceae) foi amostrada num sítio de condições extremas para a espécie, próximo ao limite norte de distribuição. A temperatura é um fator limitante ao crescimento desta espécie, a qual é relacionada a ambientes com clima frio e úmido (Ledru et al. 2007). Foram levantadas três hipóteses, a primeira considera que a temperatura não possui um efeito sobre o crescimento radial da espécie (modelo 1), a segunda considera que a temperatura possui um efeito linear (modelo 2) e, por fim, a terceira considera que a temperatura possui um efeito quadrático, com um valor de ótimo (modelo 3).
A tabela 1 apresenta o resultado da seleção dos modelos descritos. O melhor modelo entre os propostos é o modelo 3, com o ajuste quadrático. Este modelo é cerca de 16 vezes mais plausível que o modelo de ausência de efeito e 244 vezes mais plausível que o modelo de efeito linear. A figura 2 mostra o ajuste dos modelos com os parâmetros estimados pelo método de máxima verossimilhança.
Tabela 1: Resultado da seleção dos três modelos propostos para a influência da temperatura no crescimento radial de P. lambertii.
Figura 2: Ajuste dos modelos A) ausência de efeito (modelo 1), B) efeito linear (modelo 2), e efeito quadrático (modelo 3) por meio de estimação de parâmetros utilizando a extimativa de máxima verossimilhança. Os resíduos, são os resíduos dos modelos de crescimento e auto-regressivos ajustados aos dados de largura dos anéis de crescimento.
Script
tempmed=read.csv("tempmed.csv", sep=",", head=TRUE) library(bbmle) library(stats4) library(MASS) library(car) temp=tempmed$TempMed res=tempmed$Res #Modelo sem efeito llsemefeito = function(media,desvio){ -sum(dnorm(res,mean=media, sd=desvio, log=TRUE)) } mod.1=mle2(llsemefeito, start=list(media=mean(res), desvio=sd(res))) plot.profmle(profile(mod.1)) #Modelo linear lllinear= function(a,b,desvio){ media=a+b*temp -sum(dnorm(res, mean=media, sd=desvio, log=TRUE)) } mod.2=mle2(lllinear, start=list(a=coef(lm(res~temp))[1], b=coef(lm(res~temp))[2], desvio=sd(res))) plot.profmle(profile(mod.2)) #quadráticos com os dados centrados llquadr=function(a,b,c,desv){ media=a+b*(tempmed$TempMed)+c*((tempmed$TempMed-mean(tempmed$TempMed))^2) -sum(dnorm(tempmed$Res, mean=media, sd=desv, log=TRUE)) } mod.3=mle2(llquadr, start=list(a=2.3, b=-0.048, c=-0.18, desv=0.21)) plot.profmle(profile(mod.3)) AICctab(mod.1, mod.2, mod.3, nobs=length(res), weights=TRUE, base=TRUE) #Elaboração das figuras com os coeficientes estimados pelo método de estimação de máxima verossimilhança. coeflim=coef(mod.2) coefquad=coef(mod.3) tiff("tempmed2.tiff", width=1900, height=1400, unit="px",) par(cex=7, mai=c(3,3,0.1,0.1), bty="l") plot(tempmed$Res~tempmed$TempMed, type="p", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) pol2 <- function(x) coefquad[3]*x^2 + coefquad[2]*x + coefquad[1] curve(pol2, col="red", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) points(tempmed$Res~tempmed$TempMed, type="p", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) dev.off() set.seed(42) x=runif(1, min=20, max=23) y=mean(tempmed$Res) tiff("tempmed1.tiff", width=1900, height=1400, unit="px",) par(cex=7, mai=c(3,3,0.1,0.1), bty="l") plot(x=(mean(tempmed$Res)), type="p", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3), col="red") points(tempmed$Res~tempmed$TempMed, type="p", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) abline(a=mean(tempmed$Res), b=0, lwd=6, col="red") dev.off() tiff("tempmed3.tiff", width=1900, height=1400, unit="px",) par(cex=7, mai=c(3,3,0.1,0.1), bty="l") plot(tempmed$Res~tempmed$TempMed, type="p", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) lin <- function(x) coeflin[2]*x + coeflin[1] curve(lin, col="red", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) points(tempmed$Res~tempmed$TempMed, type="p", lwd=6, xlim=c(20,23), ylim=c(0.4,1.3)) dev.off()
Referências bibliográficas
Avola G., Cavallaro V., Patanè C. & Riggi E. 2008. Gas Exchange and photosynthetic water use efficiency in response to light, CO2 concentration and temperature in Vicia faba. Journal of Plant Physiology 165(8): 796-804.
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Burnham, K. P., & Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical-Theoretic Approach, 2nd ed. New York, Springer-Verlag.
Giantomasi M.A., Juñent F.A.R., Villagra .E., Srur A.M. 2009. Annual variation and influence of climate on the ring width and Wood hydrosystem of Prosopis flexuosa DC trees using image analysis. Trees, structure and function 23: 117-126
Heinrich I., Weidner K., Helle G., Vos H. & Banks J.C.G. 2008. Hydroclimatic variation in Far North Queensland since 1860 inferred from tree rings. Paleogeography, Paleoclimatology, Paleoecology 270: 116-127
Hoshino Y., Yonenobu H., Yasue K., Nobori Y. & Mitsutani T. 2008. On the radial-growth variations of Japanese beech (Fagus crenata) on the northernmost part of Honshu Island, Japan. Journal of Wood Science 54:183-188
Hughes M. K. 2002, Dendrochronology in climatology—the state of the art. Dendrochronologia 20:95–116
Johnson, J. B. & Omland, K. S. (2004). Model selection in ecology and evolution. Trends in Ecology and Evolution 19:101-108
Oliveira J.M., Roig F.A. & Pillar V.D. 2009. Climatic signals in tree-rings of Araucaria angustifolia in the southern Brazilian highlands. Austral Ecology 35: 134-147
Schongart J., Piedade M.T.F., Wittmann F., Junk W.J. & Worbes M. 2005. Wood growth patterns of Macrolobium acaciifolium (Benth.) Benth. (Fabaceae) in Amazonian black-water and white-water floodplain forest. Oecologia 145: 454-461
Schweingruber F.H., 1996, Tree rings and environment dendroecology, Birmensdorf, Swiss Federal Institute for Forest, Snow and Landscape Research, Berne, Stuttgart, Vienna, Haupt
O uso do desvio-padrão em contextos evolutivos: indo além da média
Renato Chaves de Macedo Rego
É comum dar início a análises estatísticas investigando se os dados coletados/amostrados apresentam alguma tendência central [1]. Essa tendência central pode ser avaliada com base na mediana (valor central dos dados quando dispostos em ordem crescente), na moda (valor mais comum entre os dados) e na média [1], também chamada de esperança [2]. A média/esperança representa o valor esperado para um determinado conjunto de dados ou para uma distribuição de probabilidades e pode ser simbolizada por μ, E[•] ou por uma barra sobrepondo uma variável (e.g.) [2; 3]. A média é calculada dividindo-se a soma dos valores pelo número total de valores existentes no conjunto de dados analisados [4], ou seja: [1; 5]. Por exemplo, para um conjunto de dados com valores x1=5, x2=10, x3=15 e x4=30, a média será obtida somando-se os 4 valores e dividindo a soma por 4: (5+10+15+30)/4=15. Eventualmente, a variável analisada pode assumir valores infinitos, sendo provável que não exista média [3]. Contudo, sistemas biológicos costumam apresentar valores finitos (e.g. número de elefantes por manada), mesmo em casos em que os valores se afastam muito de 0 (e.g. número total de células existentes em cada elefante).
Média, mediana e moda permitem que, com um único número, representemos a tendência central de um conjunto de dados [1]. Dentre as três, a média é a mais utilizada, pois é facilmente calculada e apresenta boas propriedades matemáticas: a média da soma é equivalente à soma das médias e a média de um conjunto equivale à média ponderada das médias de seus subconjuntos. Contudo, a média é muito sensível a valores extremos e seu uso como referência para análises estatísticas pode ser inadequado quando os dados apresentam muita variação [4]. Como a média situa-se exatamente no centro de massa da distribuição, alterando-se valores extremos da amostra, modifica-se a média amostral [1]. Reutilizando o exemplo anterior, se modificamos o valor de x4 para ‘50’ (x1=5, x2=10, x3=15 e x4=50), temos que μ=20. A média deslocou-se no mesmo sentido em que se efetuou o deslocamento do valor extremo superior (para x4=30, μ=15; para x4=50, μ=20). Da mesma forma, caso se diminuísse o menor valor da amostra, a média também decresceria. Diante disso, é recomendável descentralizar o foco sobre a média e também analisar a variabilidade existente nos dados [1].
A variação dos valores existe porque eles diferem quanto a suas distâncias em relação à média. A soma dessas distâncias dividida pelo número total de valores delinearia a variação existente nos dados, contudo, como os valores se distribuem antes e depois da média, a soma de suas respectivas distâncias em relação à própria média será sempre igual a 0. Para contornar esse problema, as distâncias são elevadas ao quadrado. Os resultados obtidos são somados e divididos pelo número de valores presentes no conjunto, obtendo-se a variância do conjunto de dados [1]. Assim como a média, a variância apresenta boas propriedades matemáticas (e.g. a variância da soma de variáveis independentes é a soma das variâncias individuais) [4]. Contudo, como seu cálculo requer que se elevem ao quadrado as distâncias entre valores e média, a variância é sensível a valores extremos e apresenta unidade diferente da média. Para manter as unidades iguais, utiliza-se o desvio-padrão, que é simbolizado por σ e consiste na raiz quadrada da variância: [1; 4]. Por apresentar a mesma unidade que a média, não ser tão influenciado por valores extremos e apresentar propriedades matemáticas semelhantes às da variância, o desvio-padrão é mais comumente usado do que a variância [4]. Com x1=5, x2=10, x3=15 e x4=50, a variância é: [(5-20)² + (10-20)² + (15-20)² + (50-20)²]/4=312,5. Assim, . O cálculo apresentado utilizou o divisor n, pois, ao invés da média populacional real (desconhecida), utilizou-se a média da amostra (x1=5, x2=10, x3=15 e x4=50). Não é raro definir a variância de um conjunto de dados usando-se o divisor n – 1, mas, neste caso, calcula-se a estimativa da variância da amostra e não a variância propriamente dita [4].
Na Biologia, para análise de média e desvio-padrão, é comum assumir que determinado conjunto de dados apresenta uma distribuição normal sem que se verifique se isso realmente ocorre. A popularidade da distribuição normal se justifica, em parte, por algumas de suas particularidades: abrange todos os valores reais; média e desvio-padrão são parâmetros [2]; média, mediana e moda são numericamente iguais; traçando-se retas paralelas ao eixo x, tem-se que aproximadamente 68% dos dados encontram-se a não mais que um desvio-padrão de distância da curva e que aproximadamente 95% dos dados encontram-se a não mais que dois desvios-padrão de distância da curva* [1]. Com a popularidade da distribuição normal, procedimentos estatísticos específicos para essa distribuição são usados na análise de dados que não satisfazem as condições necessárias para serem tidos como normais. Na maioria das distribuições, média e desvio-padrão estão correlacionados e não são parâmetros, embora possam ser expressos como funções dos parâmetros. Por outro lado, na distribuição normal, média e variância são parâmetros e são independentes. Assim, embora muitas distribuições se aproximem da normal sob determinadas condições [2], como não é de se esperar que dados em sistemas biológicos apresentem média e desvio-padrão independentes, não é justificável assumir que um conjunto de dados se ajusta bem a uma distribuição normal sem que haja evidências para isso.
Muitos trabalhos calculam a média ou ajustam uma regressão linear, quantificam o desvio-padrão para delimitar os intervalos de confiança (ICs) e realizam comparações (baseadas na média ou na regressão linear) entre tratamento e controle para investigar se eles diferem. Como o uso do desvio-padrão limitou-se à determinação dos ICs, o significado biológico da variação dos valores é marginalizado [6]. O problema disso é evidente, dado que o mundo vivo é dotado de uma grande diversidade, caracterizando-se pela singularidade [7] e apresentando dados com valores muito discrepantes [6]. Desse modo, biólogos deveriam destinar muita atenção à variabilidade dos dados estudados. Contudo, por fatores históricos e tradições filosóficas platônicas, muitos pesquisadores centram suas atenções tão somente às tendências centrais, abrindo mão de várias possibilidades analíticas relativas à variabilidade biológica, o que Bennet (1987) chama de a tirania da média dourada. Segundo Bennet (1987), para alguns pesquisadores, a variabilidade presente nos dados é um mero ruído, cuja existência, contudo, não impede que, via análise estatística adequada, se faça emergir o valor verdadeiro: a tendência central. Alguns pesquisadores depositariam pouca confiança sobre valores extremos por considerarem que eles são atípicos ou resultam de erros na coleta dos dados. Todavia, caso se deposite menos confiança em valores extremos, não se pode utilizar análises estatísticas baseadas na aplicação de pesos e confiança iguais para todos os valores, devendo-se, assim, abandonar estatísticas paramétricas normais [6].
A tirania da média dourada pode ser particularmente nociva a estudos com contexto evolutivo. Como a evolução por seleção natural só é possível graças à variabilidade (herdável) existente em uma população [8], se a variabilidade interindividual for ignorada, será mais difícil compreender os processos evolutivos. Se, por exemplo, estudos de etologia, seleção sexual ou ecofisiologia (áreas nas quais meu projeto de mestrado se insere) tiverem a média como único ponto de interesse, questões como ‘o que produz a variabilidade?’ e ‘quais são as consequências da variabilidade?’ permanecerão sem resposta em um contexto evolutivo*². Além disso, a meu ver, a tirania da média dourada contribui para o programa adaptacionista [9], em que se confere um caráter adaptativo a determinadas características do organismo sem evidência de que elas evoluíram por seleção natural. O ajuste de determinada característica ao contexto atual em que o organismo vive não é suficiente para se inferir a ação pretérita da seleção natural sobre a característica analisada [9]. A meu ver, fixar-se às tendências centrais dos dados torna mais fácil ajustar a característica analisada ao contexto ecológico em que o organismo se encontra e facilita a atribuição de um caráter adaptativo ao presente papel da característica. Por outro lado, caso a variabilidade existente seja efetivamente considerada, é mais difícil conseguir ajustar todos os valores ao nicho ecológico ocupado pelo organismo. Se o ajuste não é (quase) perfeito, enfraquece-se a visão de uma seleção natural onipotente e onipresente e dificulta-se a implementação do programa adaptacionista.
A seleção natural deve ser testada e há diferentes formas de fazê-lo, como: seleção natural em laboratório, seleção artificial [10] e manipulações fenotípicas [11]. Em experimentos de seleção natural em laboratório, determinada espécie é testada frente a diferentes condições ao longo de várias gerações [10]. Manipula-se determinada característica do ambiente (e.g. temperatura ou umidade) ou da população (e.g. densidade demográfica ou razão sexual) e mede-se/registra-se, ao início e ao fim do experimento, a variabilidade interindividual de alguma característica do organismo-modelo (é importante replicar o procedimento e estipular grupos controle). Esse procedimento pode culminar na ocorrência de seleção natural e ajudar a elucidar a(s) causa(s) das variabilidades existentes ao fim e ao início do experimento (caso algum tratamento tenha simulado as condições naturais em que a espécie vive). Se os dados coletados ao início e ao fim fossem analisados com base somente na tendência central dos valores não seria possível identificar se ocorreu seleção estabilizadora, seleção direcional ou se não ocorreu seleção*³, pois, nestes 3 casos, a média pode manter-se estável. Por sua vez, a variância aumenta sob seleção disruptiva, diminui sob seleção estabilizadora e se mantém constante na ausência de seleção, o que dá suporte à minha defesa de uma análise cuidadosa da variabilidade presente nos dados.
Na seleção artificial, a variabilidade apresentada pela população é arbitrariamente reduzida. Mantém-se uma população cativa e a cada geração permite-se que somente os indivíduos com determinado fenótipo se reproduzam [10]. Assim, a tendência é que a característica desejada seja fixada na população em detrimento de suas variantes contra-selecionadas [8]. Como os organismos são sistemas integrados (e não somente um conjunto de atributos independentes) e devido à existência de pleiotropia, a seleção da característica desejada pode provocar alterações fenotípicas em outras características [9], vide a criação das raças de cachorro a partir do lobo [12]. Experimentos de seleção artificial são muito efetivos para corroborar esse cenário e mostrar as consequências da redução da variabilidade populacional. Por sua vez, as causas e as consequências de aumento de variabilidade podem ser investigadas através de manipulações de características fenotípicas. Por exemplo, trabalhos com o lagarto Sceloporus jarrovi [13; 14] mostraram que o aumento dos níveis de testosterona em machos aumenta sua agressividade (o que facilitaria seu acesso a fêmeas), mas diminui sua sobrevivência [11]. Ou seja, a manutenção de uma determinada variância nos níveis de testosterona parece ser derivada do custo/benefício de se ter muita ou pouca testosterona. Machos com pouca testosterona conseguem poucas cópulas, mas machos com muita testosterona apresentam maior taxa de mortalidade.
Por fim, é necessário fazer algumas ponderações. Não há dúvidas de que o estudo das tendências centrais tem contribuído e ainda pode contribuir muito para o progresso científico. O que devemos evitar é que nossa predileção pelas médias nos impeça de analisar adequadamente a variabilidade existente na natureza. Além disso, devo salientar que neste ensaio não há qualquer crítica à Teoria da Seleção Natural. O próprio Darwin defendeu veementemente que a seleção natural não é o único processo evolutivo atuante [15; 16] e solidificou considerável parte de sua argumentação analisando a variabilidade dos dados naturais [15; 17]. Deveríamos seguir seu exemplo.
*o desvio-padrão permite o cálculo de intervalos de confiança (e.g. IC=95%), que representam um conjunto de valores entre os quais, com uma probabilidade específica, encontra-se o verdadeiro valor do parâmetro analisado [3].
*²estudos comparativos são úteis e não deveriam se limitar ao nível interespecífico. A comparação de indivíduos coespecíficos (o que é equivalente a analisar a variabilidade dos dados) permite, por exemplo, a detecção da existência de morfotipos em uma espécie. O foco (exclusivo) na média populacional dificultaria a detecção desse fato.
*³seleção direcional – modificação direcional em determinada característica da população (e.g. seleção dos animais mais velozes); seleção disruptiva – favorece formas que se distanciam da média; seleção estabilizadora – favorece as formas próximas à média [8].
Referências bibliográficas
[1] Allman, E.S. & Rhodes, J.A. (2004). Mathematical models in biology - An introduction. Cambridge University Press, Cambridge.
[2] Bolker, B. (2007). Ecological models and data in R. Princeton University Press, Princeton.
[3] Ewens, W. & Grant, G. (2005). Statistical methods in bioinformatics: an introduction. Springer Science+Business Media, Inc, New York.
[4] Bolstad, W.M. (2004). Introduction to bayesian statistics. John Wiley & Sons, Hoboken.
[5] Manly, B.F.J. (2009). Statistics for environmental science and management. CRC Press, London.
[6] Bennett, A.F. (1987). Interindividual variability: an underutilized resource. Pp. 147–169. In New directions in ecological physiology. Feder, M.E, Bennett, A.F, Burggren, W.W & Huey, R.B. (eds.). Cambridge University Press, Cambridge.
[7] Mayr, E. (1997). Isto é biologia – A ciência do mundo vivo. Companhia das Letras, São Paulo.
[8] Ridley, M. (2006). Evolução. Artmed, Porto Alegre.
[9] Gould, S.J. & Lewontin, R.C. (1979). The spandrels of San Marco and the panglossian paradigm: a critique of the adaptationist programme. Proc. R. Soc. Lond. B 205, 581-598.
[10] Garland, T., Jr. (2003). Selection experiments: an under-utilized tool in biomechanics and organismal biology. Pp 23–56. In Vertebrate biomechanics and evolution. Bels, V.L., Gasc, J.P. & Casinos, A. (eds.). BIOS Scientific Publishers, Oxford, U.K.
[11] Sinervo, B. & Basolo, A.L. (1996). Testing adaptation using phenotypic manipulations. Pp. 149-185. In Adaptation. Rose, M.R. & Lauder, G.V. (eds.). Academic Press, San Diego.
[12] Diamond, J. (1997). Armas, germes e aço. Record, Rio de Janeiro.
[13] Moore, M.C. & Marler, M.A. (1987). Effects of testosterone manipulations on non-breeding season territorial aggression in free-living lizards, Sceloperus jarrovi. Gen. Comp. Endocrinol. 65, 225-232.
[14] Marler, C.A. & Moore, M.C. (1988). Evolutionary costs of aggression revealed by testosterone manipulations in free-living male lizards. Behav. Ecol. Sociobiol. 23, 21-26.
[15] Darwin, C.R. (1859). On the origin of species – By means of natural selection or the preservation of favoured races in the struggle for life. John Murray, London.
[16] Darwin, C.R. (1880). Sir Wyville Thomson and natural selection. Nature 23, 32.
[17] Darwin, C.R. (1868). The variation of animals and plants under domestication. John Murray, London.
O Paradigma da Verossimilhança, a Seleção de Modelos e a Ecologia de Comunidades
THIAGO A. PIRES
Pós-graduação em Ecologia, Universidade Estadual de Campinas (UNICAMP), Campinas, Brasil
Inferências biológicas: principais abordagens e conceitos
Biólogos utilizam diferentes abordagens estatísticas para fazerem suas inferências sobre processos biológicos (Johnson & Omland, 2004). Existem três paradigmas principais que têm sido usados ??para delinear inferências biológicas (Batista, 2008). Esse ensaio tem por objetivo expor de forma breve e concisa esses paradigmas e contextualizar a utilização da Seleção de Modelos por máxima verossimilhança dentro da ecologia de comunidades.
No paradigma predominante nas ciências biológicas, o chamado “paradigma Frequentista”, gera-se uma hipótese nula (que normalmente possui pouco ou nenhum significado biológico) e outra complementar (que ao contrário da hipótese nula, possui um significado biológico, que deve ser passível de interpretação). Em seguida questiona-se se a hipótese nula pode ser rejeitada a luz dos dados observados. Essa rejeição ocorre quando o resultado de um determinado teste estatístico, de escolha do usuário, gerado a partir dos dados observados incide além do limite arbitrário de probabilidade (geralmente P= 0,05), o que é interpretado como um apoio implícito para hipótese alternativa (Anderson, et al. 2000; Batista, 2008).
O segundo é o paradigma Bayesiano, a qual assume a existência de uma distribuição teórica a priori, que deve ser considerada pelo usuário na construção de seus modelos. Os parâmetros desses modelos são construídos com os dados observados, que representam as hipóteses a serem testadas e devem considerados como variáveis aleatórias. Apesar de existirem diferenças entre esses dois paradigmas expostos até agora, ambos delimitam a inferência estatística tomando o conceito de probabilidade, como a medida de evidência estatística para se testar hipóteses (Raftery, 1995).
O terceiro paradigma é o de verossimilhança, uma teoria que rapidamente tem conquistado apoio em diversas áreas da biologia, como por exemplo, ecologia, recursos naturais e evolução, como uma alternativa estatística preferível ao paradigma dominante Frequentista. Esse paradigma se apóia em dois conceitos básicos. O primeiro deles é a Lei da Verossimilhança que é de aceitação geral na disciplina Estatística. Essa lei afirma que os dados observados, nos quais uma determinada variável aleatória X assume um valor x, são a única evidência necessária a favor de uma dada hipótese A contra uma dada hipótese B. Isso ocorre quando e somente se a probabilidade da hipótese A é maior que B, ou seja, pA(x) > pB(x), a lei afirma ainda que a razão de verossimilhança ( pA(x) / pB(x) ), implica a força de evidência dessas hipóteses (Hacking, 1965)
Já o segundo conceito, o Princípio da Verossimilhança, não é tão bem aceito pelos defensores de outros paradigmas. O princípio da verossimilhança assegura que os dados observados que geram funções de verossimilhança idênticas, são equivalentes em termos de evidência, ou seja, a função de verossimilhança caracteriza completamente a evidência contida nos dados observados (Berger & Wolpert, 1984). Por essa afirmação, ainda existem fortes discussões sobre à validade desse princípio. Porém, tanto a lei quanto o princípio, são construídos sob conceitos estatísticos fundamentais, sobre os quais toda inferência estatística deve se apoiar e dessa forma eles são considerados válidos (Hacking, 1965).
A função de verossimilhança é construída com base na teoria de verossimilhança e nos dados observados, expressando matematicamente o modelo ou hipótese biológica proposta, ou seja, a função de verossimilhança indica a verossimilhança de uma dada hipótese (Batista, 2008). Assim através do método da Estimativa de Máxima Verossimilhança ou MLE é possível estimar os parâmetros de um modelo, utilizando as estimativas que tornam máximo o valor da função de verossimilhança (Bolker, 2008). Porém, para facilitar os cálculos matemáticos é necessária uma transformação na função de verossimilhança, para tanto se utiliza a função de log-verossimilhança negativa, que consiste em aplicar o logarítmico (natural ou neperiano), e inverter o sinal da função original: L{µ|X} = - log [ L{µ|X}]. Isso equivale a dizer que, agora, se estima parâmetros que retornam valores mínimos para a função de Log-verossimilhança negativa (ao invés de valores máximos como na função de verossimilhança) (Batista, 2008).
Para exemplificar, idealizemos uma população hipotética de sapos, e por algum motivo biológico, podemos nos interessar no tamanho dos machos dessa população (CRC ou comprimento rostro-cloacal). É plausível assumir que o CRC dessa população é normalmente distribuído (modelo estatístico gaussiano), mas ainda desconhecemos a sua média e a variância (parâmetros do modelo gaussiano). Devido ao tempo, recursos financeiros e humanos escassos, não poderemos medir toda a população, assim amostramos apenas parte da população. Com o MLE, poderemos estimar valores para esses parâmetros que maximizam a função de verossimilhança, e assim teremos a média e a variância do CRC estimados para a população de anfíbios anuros machos, mesmo só amostrando parte da população.
Com o MLE e o número de parâmetros da função de verossimilhança para cada modelo, é possível obter o AIC (Critério de Informação de Akaike). O AIC é um estimador da distância relativa esperada ou discrepância entre dois modelos probabilísticos concorrentes. É o mais difundido critério de informação, e é definido como: AIC =-2L + 2k, onde L é a Log-verossimilhança e k é o número de parâmetros, assim o modelo é penalizado pelo número de parâmetros contidos no mesmo, então entre modelos com máxima verossilhança similar ou equivalente, o que contiver menor numero de parâmetros terá menor AIC, e por isso será o mais plausível, de acordo com o princípio da parcimônia (Akaike, 1973).
Agora, com os valores de AIC de todos os modelos concorrentes é possível realizar a Seleção de Modelos por máxima verossimilhança sobre um determinado conjunto de modelos, onde o que obtiver o menor AIC será o mais plausível dentro do conjunto avaliado. Essa abordagem possibilita a escolha da(s) melhor(es) hipótese(s) entre um conjunto pré-definido de diversas hipóteses concorrentes. Para diferenciar dois modelos, é utilizada uma regra canônica, onde modelos com AIC ≤ 2, são igualmente plausíveis, e para facilitar a comparação, calculamos o Δi= AICi -min(AIC) (Sakamoto et al. 1986).
Há diversas variações de AIC, por exemplo, existe o AICc que é adequada para pequenas amostras, e o QAIC, que é adequado para sobre-dispersão de dados, cujo os detalhes matemáticos e conceituais não fazem parte do escopo desse ensaio, mas são discutidos mais detalhadamente em outro trabalho (ver Burnham & Anderson, 2002).
Para melhor elucidar esses conceitos, usando o mesmo exemplo citado acima, podemos suspeitar que por algum motivo, o CRC de sapos machos da mesma população não segue uma distribuição gaussiana e sim uma distribuição Log-normal, então construímos modelos com parâmetros estimados por máxima verossimilhança (MLE) e através da Seleção de Modelos por máxima verossimilhança e usando o AIC de cada modelo, verificamos qual melhor modelo de distribuição teórica (gaussiana ou Log-normal), aos que os dados amostrados mais se ajustam.
A Seleção de Modelos e a Ecologia
Embora a filosofia estatística por trás da Seleção de Modelos por máxima verossimilhança ter sido formulada há 30 anos (Akaike, 1973), só recentemente ecólogos e biólogos evolucionistas incorporam esta ferramenta em seus estudos. Na ecologia, a seleção de modelos por máxima verossimilhança vem ganhando força e apoio em diversas vertentes, por exemplo, em estudos de marcação-recaptura, dinâmicas populacionais e em macroecologia (Johnson & Omland, 2004; Diniz-Filho, et al., 2008; Turchin, 2003, Anderson et al., 1994).
As análises de marcação e recaptura são formas de analises amplamente utilizadas para estimar abundância e probabilidades de sobrevivência de populações (Lebreton et al., 1992, Schwarz e Seber, 1999, Turchin, 2003). Um desafio fundamental dessas análises é o de separar a probabilidade que um indivíduo marcado que morreu, da probabilidade que o mesmo simplesmente não foi recapturado, apesar de ter sobrevivido no período (Anderson et al., 1994). Os ecólogos tentam abordar esse problema através da geração de um conjunto de modelos concorrentes que retratam, de diferentes formas, as probabilidades de sobrevivência e de detecção, que podem variar em função de diversos fatores como: tempo, condições ambientais, ou características individuais (e.g., sexo, classe de idade). O modelo escolhido (ou conjunto de modelos) é, então, utilizado para estimar os parâmetros de interesse, ou para inferir os processos biológicos que regem a sobrevivência ou abundância de populações (Lebreton et al., 1992).
Essa abordagem estatística também é utilizada em estudos de dinâmicas populacionais, onde podemos usar modelos para explorá-las, propondo hipóteses concorrentes que tentam explicar os padrões de flutuações populacionais ao longo tempo (Johnson & Omland, 2004). Sendo então possível, por exemplo, inferir sobre processos e mecanismos envolvidos em ciclos e dinâmicas populacionais (Lima et al. 2001; Turchin & Hanski 2001).
Outra vertente que vem utilizando essa abordagem é a Macroecologia, onde se busca compreender, por exemplo, os padrões gerados por modelagem de distribuição de espécies e os efeitos de auto-correlação espacial na distribuição de espécies, utilizando a abordagem de seleção de modelos, baseada no AIC (e.g. Diniz-Filho et al., 2008).
A Seleção de modelos e a ecologia de comunidades
Na minha área de interesse, a ecologia de comunidades, existem diversas perguntas que norteiam as diferentes linhas de pesquisas. Meus interesses principais são os padrões de diversidade e estrutura de comunidades de anfíbios anuros, e os processos geradores desses padrões, que podem ser de natureza ecológica (e.g., competição, predação, facilitação) e histórica (e.g., restrições filogenéticas, eventos biogeográficos), e que muitas vezes não são passíveis de direta observação em campo. Como se trata de um modelo de estrutura complexa, se faz necessária a medição de variáveis preditoras (e.g., estrutura física e ambiental). Essas variáveis podem afetar diretamente ou indiretamente padrões de diversidade e muitas vezes podem estar correlacionadas ou possuir forças equivalentes. É possível também a utilização de matrizes de relações filogenéticas, de características funcionais e espaciais. Assim, podemos obter um conjunto de diversas variáveis de naturezas distintas, se fazendo necessário um “julgamento” das variáveis mais importantes para o entendimento dos padrões de diversidade e estrutura encontrados na natureza.
Com a Seleção de Modelos por máxima verossimilhança, é possível a construção de modelos sob hipóteses biológicas coerentes, que contenham parâmetros de variáveis mesmo que de naturezas distintas, e assim selecionar o(s) melhor(es) modelo(s) que explicam os padrões encontrados.
Seguindo essa área, essa abordagem têm obtido sucesso em diversos estudos e diferentes trabalhos publicados. Por exemplo, é possível entender através dela, quais fatores mais importantes são responsáveis para a conservação da estabilidade de características funcionais de uma comunidade (Wittebolle et al. 2009). É possível também, entender padrões espaciais e temporais de comunidades marinhas, o qual não seria possível sem a mesma. (Godínez-Domínguez & Freire 2003). É possível ainda, inferir sobre a influência de variáveis climáticas na presença e ausência de determinadas espécies (Stephens & Wiens, 2009).
Considerações Finais
Como pode ser deduzido desse ensaio, é de extrema importância para a interpretação mais correta possível dos padrões encontrados em comunidades naturais, o emprego de um método de inferência que seja robusto e capaz de lidar com a complexidade estrutural de comunidades biológicas, e mediante o seu uso, coerente com suas premissas e o conhecimento dos conceitos envolvidos na Seleção de Modelos, é possível vislumbrar os processos e fatores estruturadores de comunidade biológica mais importantes.
Referências Bibliográficas
Anderson, D. R., M. A. Wotawa, & Rexstad, E. A. 1993.”Trends in the analysis of recovery and recapture data“. Pages 373-386 in J.-D. Lebreton and P. M. North, editors. Marked individuals in the study of bird population. Birkhauser Verlag, Basel, Switzerland. Anderson, D. R., Burnham K.P. & Thompson, W. L. 2000, Null hypothesis testing: problems, prevalence, & an alternative. J. Wildl. Manage. 64, 912 – 923
Anderson, Author D R, K P Burnham, & G C White. 2012. “AIC Model Selection in Overdispersed Capture-Recapture Data.” Ecology 75 (6): 1780–1793.
Burnham, K. P., & Anderson, D. R.. 1998. “Model selection and inference”: A practical information-theoretic approach, 1st ed. SpringerVerlag, New York.
Diniz-Filho, José Alexandre Felizola, Thiago Fernando L. V. B. Rangel, & Luis Mauricio Bini. 2008. “Model Selection and Information Theory in Geographical Ecology.” Global Ecology and Biogeography 17 (4): 479–488.
Godínez-Domínguez, E, & J Freire. 2003. “Information-theoretic Approach for Selection of Spatial and Temporal Models of Community Organization.” Marine Ecology Progress Series 253: 17–24.
Hacking, I. 1965 “Logic of statistical inference”. Cambridge: Cambridge at the University Press.
Johnson, Jerald B, & Kristian S Omland. 2004. “Model Selection in Ecology and Evolution.” Trends in Ecology & Evolution 19 (2): 101–8.
Lebreton, J.D., Burnham, K. P., Clobert, J & David, R. 1992. “Modeling Survival and Testing Biological Hypotheses Using Marked Animals?: A Unified Approach with Case Studies Reviewed Work ( s ): Source?: Ecological Monographs , Vol . 62 , No . 1 ( Mar ., 1992 ), Pp . 67-118 Published by?: Ecological Society of Ameri.” Ecological Monographs 62 (1): 67–118.
Lima, M, Romain J., Nils Chr. S., and Jaksic, F. M.. 2001. “Demographic Dynamics of a Neotropical Small Rodent (Phyllotis Darwini): Feedback Structure, Predation and Climatic Factors.” Journal of Animal Ecology 70 (5): 761–775.
Stephens, P.R. & Wiens, J.J. (2009). ”Bridging the gap between historical biogeography and community ecology: niche conservatism and community structure in emydid turtles“. Mol. Ecol., 18, 4664–4679..
Turchin, P. & Hanski, I. 2001. “Contrasting Alternative Hypotheses About Rodent Cycles by Translating Them into Parameterized Models.” Ecology Letters 4 (3): 267–276.
Wittebolle, L., Marzorati, M., Clement, L., Balloi, A., Daffonchio, D., Heylen, K., De Vos, P., Verstraete, W., and Boon, N. 2009. “Initial Community Evenness Favours Functionality Under Selective Stress.” Nature 458: 623–6.
Seleção de autovetores filogenéticos: Como selecionar milhares de modelos?
Vanderlei Júlio Debastiani
A ecologia de comunidades busca encontrar padrões e entender processos relacionados a distribuição de populações para várias espécies, focando principalmente em fatores ambientais, espaciais, históricos e em interações entre as espécies co-ocorrentes. Os dados usados em ecologia de comunidades frequentemente são multivariados, onde vários conjuntos de variáveis preditoras poderiam determinar de alguma forma a composição das espécies. Um dos conjuntos de dados que vem sendo utilizado para determinar a composição de espécies é o que trata das relações de parentesco entre espécies, já que a distribuição das espécies pode estar em maior ou menor grau associado as próprias características das espécies. Tais características permitem, por exemplo, que os organismos superem condições climáticas e competição com outras espécies. Estas respostas das espécies ao ambiente ou a outras espécies que coexistem irão inevitavelmente depender da informação genética de cada espécie.
Um dos primeiros passos para usar informação filogenética em ecologia de comunidades é saber se espécies evolutivamente próximas são ou não similares em termos de suas características, isso é chamado de sinal filogenético ou mesmo de conservação filogenética de nicho (Wiens e Graham 2005). Como as espécies compartilham história evolutiva com suas espécies irmãs, estas podem ou não ser mais similares entre si em termos das suas características ecológicas quando comparadas com espécies menos aparentadas. Para explicar padrões de co-ocorrência de espécies a informação filogenética é importante pois espécies filogeneticamente próximas poderiam por um lado ter capacidade de permanecer em ambientes similares e por outro lado competir mais intensamente pelos mesmos recursos (Webb, et al. 2002). Existem vários métodos para avaliar o padrão de sinal filogenético, como por exemplo, teste de Mantel (Mantel 1967), PVR (Diniz-Filho, et al. 1998), métricas de λ de Pagel (1999) e estatística K (Blomberg, et al. 2003).
O método de Regressão dos Autovetores Filogenéticos (PVR) consiste em estimar a magnitude do sinal filogenético pelo coeficiente de determinação de um modelo gerado a partir dos autovetores filogenéticos. A ideia é que a característica da espécie, ou atributo da espécie, pode ser particionado em um componente filogenético e outro componente específico, sendo que neste último a variação no valor do atributo não é expressada pela filogenia. O procedimento envolve a aplicação de uma técnica de ordenação sob uma matriz de distâncias filogenéticas extraída de uma filogenia completa para o grupo de espécies em questão. A matriz de distâncias filogenéticas é submetida a Análise de Coordenadas Principais (PCoA), que gera autovetores ortogonais, não correlacionados, da filogenia do grupo. Cada autovetor desta ordenação sintetiza um percentual de variação da filogenia e representa uma parte específica de cada filogenia, podendo ser usado como descritor da filogenia destas espécies. Para chegar ao coeficiente de determinação os autovetores são usados para modelar um determinado valor de atributo para o conjunto de espécies. Os modelos usados para esta modelagem são modelos de regressões lineares, ou seja, modelos com distribuição de probabilidade gaussiana, sendo a média descrita por uma equação linear com um ou mais autovetores e a variância constante.
Em uma filogenia com 100 espécies a técnica do PVR geralmente gera 99 autovetores ortogonais, neste caso o número de combinações possíveis para este conjunto de variáveis é nada menos que 6.338253e+29. Mas como abordar o problema com um número tão grande de combinações de modelos? Burnham e Anderson (2002) discutem cinco possíveis abordagens para selecionar entre um grande número de modelos: (1) Testar um único modelo global; (2) selecionar um modelo por stepwise; (3) selecionar um modelo por critério de informação (AIC ou AICc); (4) usar múltiplas inferências de modelos sobre todos os modelos e (5) reduzir o número de preditores baseado em teoria ou lógica para depois fazer a seleção com um número menor de modelos. Este tipo de problema de seleção não é uma exclusividade desta análise mas também um problema em outras abordagens em ecologia, como por exemplo, Coordenadas Principais de Matrizes Vizinhas (PCNM) (Borcard e Legendre 2002) e Coordenadas Principais de Estrutura Filogenética (PCPS) (Duarte 2010), onde o número de variáveis é muito grande.
O primeiro ponto deste problema é um único modelo global com todos os autovetores filogenéticos gera um modelo super parametrizado, já que o número de parâmetros será igual ao número de observações. Para estimar a magnitude do sinal filogenético, obrigatoriamente deve ser selecionado um subconjunto de autovetores para ser usado no modelo. Em relação a seleção por stepwise padrão Burnham e Anderson (2002) criticam esta abordagem principalmente pela falta de base teórica para a seleção, tanto nos critérios de seleção subjetivos, quanto pela falta de alguma forma de calcular os peso dos modelos neste contexto de seleção stepwise. O Critério de Informação de Akaike (AIC) (Akaike 1974) é uma maneira de selecionar modelos com uma base teórica consolidada na teoria de informação e no princípio de verossimilhança. O AIC é definido da seguinte maneira: AIC= -2(L(θ|y)) + 2K onde, L(θ|y) é a máxima verossimilhança do modelo e K é o número de parâmetros deste mesmo modelo. O AIC é uma medida de distância entre o modelo ajustado e o verdadeiro mecanismo que gerou os dados, levando em consideração não apenas o ajuste do modelo em relação aos dados, mas também o princípio da parcimônia, a quantidade de parâmetros do modelo. Além do AIC há uma modificação que corrige o viés quando as amostras são pequenas em relação ao número de parâmetros que é chamado de AICc (Sugiura 1978). O AICc é definido como: AICc=-2(L(θ|y)) + 2K(n/n-K-1) onde, n é o tamanho amostral. Os valores de AIC ou AICc não são interpretáveis em termos absolutos, mas apenas em comparação com outros modelos para o mesmo conjunto de dados. Com base na interpretação relativa dos valores de AIC é possível ranquear os modelos do mais plausíveis ao menos plausíveis. Ainda é possível calcular a diferença entre os modelos ΔAIC (ΔAICc) para expressar a diferença entre o melhor modelo no conjunto e os demais modelos. A diferença é simplesmente obtida da seguinte maneira: ΔAIC= AICi-AICmin. Com os critérios de informação é possível fazer múltiplas inferências dos modelos, como por exemplo, os pesos de AIC, que são o peso da evidência de um modelo em favor de outro modelo. O peso de AIC é definido como: Wi=exp(-1/2Δi)/sum(exp(-1/2Δr) e expressa o suporte relativo de cada modelo em uma escala que soma um entre todo o conjunto de modelos comparados. Usando os critérios de informação é possível chegar em modelos que seriam igualmente plausíveis, ou seja, com ΔAIC menor que 2, neste caso os dados não permitem distinguir entre dois ou mais modelos (Bolker 2008).
O uso de critério de informação poderia facilmente ranquear os melhores modelos dentre as várias combinações de autovetores filogenéticos. O problema no caso do PVR é que os modelos não são definidos a priori, mas testando combinações que resultarão no melhor modelo. No exemplo com 100 espécies e 99 autovetores filogenéticos provavelmente não seria possível testar todas as combinações de modelos devido a várias limitações computacionais. O problema principal, neste caso, é que não há nenhuma ideia de como reduzir o número de variáveis baseado na teoria ou lógica, embora esta deveria ser a opção mais sensata em relação a seleção de modelos por critério de informação. Para a seleção de autovetores filogenéticos os procedimentos de seleção não estão bem definidos (ver Diniz-Filho, et al. 2012). Há várias abordagens para chegar ao subconjunto de autovetores que expressam a relação entre os componentes filogenéticos e os específicos. Os procedimentos de seleção envolvem abordagem sequencial de construção dos modelos com avaliação do comportamento do coeficiente de determinação, teste dos autovetores significantemente relacionados com o atributo de interesse, seleção por stepwise padrão e minimização da autocorrelação filogenética nos resíduos do modelo.
Para ilustrar a problemática testou-se a seleção de autovetores filogenéticos usando critério de informação em um pequeno exemplo simulado. Gerou-se uma filogenia com 16 espécies simulando um processo de especiação e extinção, com taxa de especiação de 0.01 e taxa de extinção 0. Usando como base a filogenia simulou-se um atributo sob movimento Browniano de evolução, onde os atributos evoluem constantemente e as diferenças entre as espécies são acumuladas com o passar do tempo evolutivo (Freckleton e Harvey 2006). Teoricamente usando este exemplo o coeficiente de determinação dos melhores modelos da seleção deveriam ser intermediários, não muito baixos nem muito elevados. Com base na distância entre espécies na filogenia calculou-se os 15 autovetores filogenéticos. Construiu-se todas as 32766 combinações de autovetores e mais um modelo apenas com o intercepto usando modelos lineares generalizados (GLM) (Nelder e Wedderburn 1972) com distribuição gaussiana sem interações entre os preditores. Após isso, os modelos foram ranqueados com base nos valores de AICc e calculado o ΔAICc e os peso de AIC. O exemplo foi executado algumas vezes e os melhores modelos ranqueados foram modelos com muitos parâmetros, com combinações de 14 autovetores filogenéticos. Estes modelos acabam tendo uma alta verossimilhança e o número de parâmetros não é suficiente para diminuir o ranque destes modelos super parametrizados.
Além da simulação com todas as combinações construiu-se todas as combinações com no máximo oito autovetores filogenéticos em um único modelo, embora este critério seja subjetivo. Neste caso foram 22818 modelos ranqueados com base no critério de informação. Os resultados mostraram vários modelos com mesma plausibilidade, sendo modelos tanto com muitos e quanto com poucos parâmetros. Uma outra maneira de reduzir o número de modelos seria usar apenas os autovetores com as maiores porcentagens de explicação ou remover os últimos autovetores filogenéticos, mas mesmo assim, estes critérios são subjetivos, sem nenhuma base teórica para isso. Os critérios de seleção apresentados acima são usados para selecionar modelos, mas também poderiam ser usados para selecionar variáveis. Poderia-se construir modelos apenas com o valor do atributo sendo modelado por cada um dos autovetores e usar o peso de AIC para avaliar a importância relativa de cada autovetor, embora perderíamos toda informação da interação entre autovetores. Neste caso, os empates entre modelos igualmente plausíveis poderiam não ser interpretados como um problema, mas como uma maneira de reduzir o número de combinações na seleção de modelos. Usou-se os mesmos modelos de GLM com o atributo sendo modelado para cada um dos autovetores filogenéticos. Novamente ranqueou-se os modelos com base nos valores de AICc e calculado o ΔAICc e os peso de AIC. No exemplo, em alguns casos apenas um dos autovetores era o mais plausível, já em outros casos vários autovetores eram igualmente plausíveis. Esta poderia ser uma solução para a seleção de autovetores filogenéticos, mas teria-se que testar com um exemplo mais realista, com mais espécies e outras combinações de sinal filogenético.
Usando seleção de autovetores filogenéticos seria possível verificar sinal filogenético nas característica das espécies avaliando o coeficiente de determinação do melhor modelo. Neste exemplo não chegou-se a nenhuma definição de como usar critérios de informação para seleção de autovetores filogenéticos. Talvez o exemplo seja pouco realista com apenas 16 espécies ou talvez sempre modelos de autovetores com muitos parâmetros sejam os melhores pelo critério de AIC. Mesmo que se usasse combinações com menos variáveis em cada modelo ou se excluísse os autovetores com pouca informação os critérios de informação ficariam subjetivos. A seleção de modelos por AIC não foi criada para selecionar qualquer combinação de modelos, embora ela possa fazer isso (Burnham e Anderson 2002; Bolker 2008). Os modelos deveriam ser pensados pelos pesquisadores para incluir apenas modelos que fazem sentido e que depois da seleção pudessem ser interpretados. Além das abordagens discutidas acima talvez poderia-se pensar em outras soluções para o mesmo problema. Talvez a filogenia pudesse ser expressada com menos variáveis de uma maneira mais direta ou mesmo pudesse ser usado modelos com distribuição de probabilidade multivariadas estabelecidas com base na filogenia. Nestes casos seria possível construir modelos pensando-se nas perguntas e em como responder-las de uma maneira mais direta e assim os critérios de informações poderiam selecionar os modelos de uma maneira mais efetiva.
Bibliografia
Akaike, H. 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19:716-723.
Blomberg, S. P., et al. 2003. Testing for phylogenetic signal in comparative data: behavioral traits are more labile. Evolution, 57:717–745.
Bolker, B. M. 2008. Ecological models and data in R. Princeton University Press.
Borcard, D. e Legendre P. 2002. All-scale spatial analysis of ecological data by means of principal coordinates of neighbour matrices. Ecological Modelling, 153:51–68.
Burnham, K. P. e Anderson, D. R. 2002. Model selection and multimodel inference: A pratical information - Teoretic approach. Springer.
Duarte,L.S. 2011. Phylogenetic habitat filtering influences forest nucleation in grasslands. Oikos, 120:208–215.
Diniz-Filho, J. A. F. et al. 1998. An eigenvector method for estimating phylogenetic inertia. Evolution 52:1247–1262.
Diniz-Filho, J. A. F. et al. 2012. On the selection of phylogenetic eigenvectors for ecological analyses. Ecography 35:239–249.
Freckleton, R. P. e Harvey, P. H. 2006. Detecting non-Brownian trait evolution in adaptive radiations. PLoS Biol, 4:e373.
Mantel, N. 1967. The detection of disease clustering and a generalized regression approach. Cancer Res, 27:209–220.
Nelder, J. e Wedderburn, R. 1972. Generalized Linear Models. Journal of the Royal Statistical Society. Series A, 135(3): 370–384.
Pagel, M. D. 1999. Inferring the historical patterns of biological evolution. Nature, 401:877–884.
Sugiura, N. 1978. Further analysis of the data by Akaike’s information criterion and the finite corrections. Communications in Statistics, Theory and Methods, A7:13–26.
Webb, C. O. et al. 2002. Phylogenies and community ecology. Ann Rev Ecol Evol Syst, 33:475–505.
Wiens, J. J. e Graham, C. H. 2005. Niche Conservatism: Integrating Evolution, Ecology, and Conservation Biology. Ann Rev Ecol Evol Syst, 36:519-539.
Comandos aplicados em R
# Carregar pacotes require(ape) require(bbmle) require(geiger) require(vegan) require(picante) # Simular a filogenia para 16 espécies tree<-birthdeath.tree(b=0.01, d=0,taxa.stop=16, return.all.extinct=FALSE) for (y in 1: length(tree$edge.length)) { if (tree$edge.length[y] == 0.00000000 ) tree$edge.length[y] = 0.01 } # Transformar os comprimentos de ramos iguais a zero em 0.01 tree$tip.label=sprintf("Sp_%.3d",1:length(tree$tip.label)) tree # Calcular os autovetores filogenéticos distancia<-cophenetic(tree) ordination<-wcmdscale(sqrt(distancia),eig=TRUE) values<-as.vector(rep(NA,length(ordination$eig))) for (i in 1:length(ordination$eig)){ values[i]<-sum((ordination$eig/sum(ordination$eig))[1:i]) } values<-cbind(ordination$eig,ordination$eig/sum(ordination$eig),values) colnames(values)=c("Eigenvalues","Relative_eig","Cumul_eig") rownames(values)=1:dim(values)[1] values vectors<-ordination$points colnames(vectors)=colnames(vectors,do.NULL=FALSE,prefix="Axis.") vectors # Simular o atributo por movimento Browniano trait1<-rTraitCont(tree,model="BM") min(trait1) trait1<-trait1+5 # Adicionar uma constante para os valores não ficarem negativos # Plotando a filogenia e os atributos plot(tree) barplot(trait1-min(trait1),horiz=T,las=1) # Organizar os dados dados<-as.data.frame(cbind(trait1,vectors)) dados y<-trait1 y # Ver qual o número de combinações de 15 autovetores em subconjuntos de no máximo 14 s<-1:14 m<-15 possibilidades<-factorial(m)/(factorial(s) * factorial(m - s)) sum(possibilidades) # Testar todas as combinações de modelos com um glm resposta <- vector("list", 32767) for(i in 1:14){ combinations <- combn(colnames(vectors), i, simplify = TRUE) for (j in 1:possibilidades[i]) { resposta[[(j + sum(possibilidades[1:i - 1]))]] <- glm(as.formula(paste("y ~ ", paste(combinations[, j], collapse= "+"))),data=dados) } } resposta[[32767]]<-glm(y~1) # Calcular um modelo sem preditores (Apenas com o intercepto) # Obter o AICc para todas as possibilidades selecao<-AICctab(resposta,nobs=16,base=T,weights=T) str(selecao) selecao # Ver qual o número de combinações de 15 autovetores em subconjuntos de no máximo 8 s<-1:8 m<-15 possibilidades<-factorial(m)/(factorial(s) * factorial(m - s)) sum(possibilidades) # Testar as combinações de modelos com um glm resposta2 <- vector("list", 22819) for(i in 1:8){ combinations <- combn(colnames(vectors), i, simplify = TRUE) for (j in 1:possibilidades[i]) { resposta2[[(j + sum(possibilidades[1:i - 1]))]] <- glm(as.formula(paste("y ~ ", paste(combinations[, j], collapse= "+"))),data=dados) } } resposta2[[22819]]<-glm(y~1) # Calcular um modelo sem preditores (Apenas com o intercepto) # Obter o AICc selecao2<-AICctab(resposta2,nobs=16,base=T,weights=T) str(selecao2) selecao2 # Testar individualmente cada autovetor com o atributo mod1<-glm(trait1~Axis.1,data=dados) mod2<-glm(trait1~Axis.2,data=dados) mod3<-glm(trait1~Axis.3,data=dados) mod4<-glm(trait1~Axis.4,data=dados) mod5<-glm(trait1~Axis.5,data=dados) mod6<-glm(trait1~Axis.6,data=dados) mod7<-glm(trait1~Axis.7,data=dados) mod8<-glm(trait1~Axis.8,data=dados) mod9<-glm(trait1~Axis.9,data=dados) mod10<-glm(trait1~Axis.10,data=dados) mod11<-glm(trait1~Axis.11,data=dados) mod12<-glm(trait1~Axis.12,data=dados) mod13<-glm(trait1~Axis.13,data=dados) mod14<-glm(trait1~Axis.14,data=dados) mod15<-glm(trait1~Axis.15,data=dados) # Obter o AICc para os modelos selecao_autovetores<-AICctab(mod1,mod2,mod3,mod4,mod5,mod6,mod7,mod8,mod9,mod10,mod11,mod12,mod13,mod14,mod15,base=T,weights=T,nobs=16) selecao_autovetores
A Seleção de Modelos para a Quantificação do Fruto da Juçara
Andréa Bittencourt
Introdução
A Euterpe edulis Martius, uma das espécies de maior densidade na Floresta Atlântica. Popularmente conhecida como içara, juçara, palmito-juçara, palmito-doce, entre outros nomes, pertencente à família Arecaceae (Palmae) e encontrada preferencialmente ao longo do litoral brasileiro.
O principal produto obtido a partir do E. edulis, o palmito, alimento extraído do interior da bainha das folhas, região próxima ao meristema apical da planta. Por ser uma palmeira monocaule, é necessária a morte de toda a planta para obtenção do produto. Além do palmito propriamente dito, a espécie ainda fornece outros produtos: o estipe novo para uso de suas fibras na fabricação de vassouras, o estipe maduro para caibros e ripas de construção, as folhas são usadas para coberturas temporárias e forrageio, e os frutos fornecem um ‘vinho’ (FISH, 1998).
A partir do processamento dos frutos das palmeiras do gênero Euterpe, é obtido tal ‘vinho’, mais conhecido como açaí. No norte do Brasil esse produto é extraído do açaizeiro, Euterpe oleracea Martius, que é uma palmeira com tronco múltiplo, e também da Euterpe precatoria Martius, que é uma palmeira monocaule, semelhante ao Euterpe edulis.
O desmatamento e fatores como o comércio ilegal que acometem a Mata Atlântica, promovem ameaça de extinção a inúmeras espécies de animais e plantas como a Euterpe edulis, que tem seu desaparecimento iminente, pois o palmito, produto extraído dessa palmeira, representa uma importante renda suplementar para os pequenos produtores. Sua exploração em larga escala por grandes empresas, a produção clandestina de palmito, o roubo, o processamento e a comercialização ilegais foram às causas da devastação da espécie no seu habitat natural (FANTINI et al, 2000).
A utilização dos frutos do palmiteiro para produção de açaí é uma forma de preservação da espécie, uma vez que essa atividade não leva a morte da planta, e, sendo feita com planejamento, a fauna não será prejudicada. Além de representar uma alternativa como fonte de alimento para as populações de baixa renda, o cultivo sustentado dos frutos do palmiteiro gera recursos para subsistência e contribui para preservar todo o ecossistema uma vez que as comunidades tradicionais não extrairão o palmito de forma inconsciente.
Na minha dissertação, “Estudo de mensuração da palmeira juçara (Euterpe edulis M.) como subsídio para o desenvolvimento de um sistema visando a produção de frutos”, o objetivo principal é construir modelos dendrométricos para a predição da produção do fruto e produção da polpa.
Verossimilhança e Seleção de Modelos
A Lei de Verossimilhança, aceita em todas as escolas de inferência, afirma que uma hipótese A é mais plausível que uma hipótese B se a probabilidade atribuída ao valor observado for maior em A do que em B. A Lei também implica que a Razão de Verossimilhança, ou seja, a razão das probabilidades dos valores observados na hipótese A e na hipótese B, mede a força de evidência em favor da hipótese A sobre a hipótese B.
Função de Verossimilhança é o produto das probabilidades atribuídas a cada observação, caracteriza toda evidência contida nos dados a respeito de uma hipótese. Para tornar mais fácil a manipulação dos números, por conveniência se utiliza a função de Log-Verossimilhança Negativa, que consiste em aplicar a função logaritmo e transformar o sinal (Batista, 2009). Como probabilidades são números menores que um, e a função da verossimilhança é o produto das probabilidades, se tornam números muito pequenos, a transformação logarítmica faz com que a função de uma amostra seja o somatório das log-verossimilhanças negativas das observações. A mudança de sinal é realizada para que a log-verossimilhança negativa seja um valor positivo, na maioria das vezes é o que ocorre.
O método da Máxima Verossimilhança é utilizado para ajustar os modelos estatísticos, consiste em encontrar o valor para os parâmetros do modelo que maximizam o valor da função de verossimilhança, no caso da função de log-verossimilhança negativa será o valor que torna mínima esta função (Batista, 2009). Esses valores são chamados de Estimadores de Máxima Verossimilhança (MLE), são os valores mais plausíveis que melhor se ajustam aos dados observados (Bolker, 2007).
O Princípio da Verossimilhança já não é tão aceito nas escolas de inferência como a Lei da Verossimilhança, ele afirma que se tenho duas hipóteses em relação a observação X e outras duas hipóteses em relação a observação Y, e a razão de verossimilhança dessas hipóteses forem iguais, então as observações são equivalentes em termos de evidência estatística.
A Seleção de Modelos quando se tem modelos ajustados pelo método da máxima verossimilhança é feito através do Critério de Informação de Akaike (AIC). Este critério de seleção estabelece uma relação entre a distância relativa de Kulbach-Leibler entre dois modelos, e a função de máxima log-verossimilhança, além de levar em consideração o número de parâmetros dos modelos. A vantagem dessa metodologia é permitir a comparação de modelos não-hierarquicos, considerando-os apenas concorrentes. É importante ressaltar que este critério não mede a qualidade de ajuste do modelo, então não pode comparar modelos ajustados a banco de dados diferentes. Assim, para selecionar o melhor modelo, escolhe-se o que tenha menor valor de AIC. Caso ocorra um 'empate' entre os modelos, ou seja, os dados observados não contem informações suficientes para identificar o melhor modelo, é seguido o Princípio da Parcimônia, onde o melhor modelo é o mais simples, com o menor número de parâmetros (Burnham & Anderson, 2002).
Importância para a minha pesquisa
O objetivo do meu trabalho é construir modelos lineares em que a variável resposta seja a produção de frutos e a produção de polpa, que serão ajustados pelo método da máxima verossimilhança, e selecionar o melhor modelo através do Critério de Informação de Akaike, o AIC.
Tenho 50 matrizes da palmeira juçara na minhas área de estudo, na qual foram identificadas e coletadas as seguintes variáveis: altura, diâmetro, número de folhas, luminosidade (método de Dawkins), número de cachos maduros e cachos verdes. Os cachos maduros foram colhidos, pesados, os frutos foram debulhados do cacho e pesados. Foi feita a despolpa desses frutos e determinada a massa seca dos mesmos.
Meu conjunto de dados envolve muitas variáveis preditoras, portanto, será realizada uma seleção de variáveis através da seleção de modelos, ou seja, a escolha do modelo que contenha as variáveis que explicam melhor a minha variável resposta, que melhor representa o meu conjunto de dados.
Os modelos serão construídos com as possíveis combinações de variáveis, ajustados pelo Método da Máxima Verossimilhança e comparados pelo Critério de Informação de Akaike. Esse tipo de análise é muito conveniente quando temos um grande número de variáveis, como é o caso, pois podemos comparar modelos com diferentes variáveis, diferentes distribuições, se forem modelos ajustados ao mesmo banco de dados.
Concluindo, a parte principal do meu trabalho é predizer a produção de fruto e polpa da palmeira juçara, estudo esse que será facilitado pela verossimilhança e a seleção de modelo pelo AIC, metodologias que ficaram claras no decorrer da disciplina.
Referências bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Bolker, B.M. Likelihood and all that. In: Bolker, B.M. Ecological Models and Data in R. .Princeton: Princeton University Press,2007. pp 227-292.
Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
Fantini, A.C.; Ribeiro, R.J. Guries, R.P. Produção de palmito (Euterpe edulis Martius-Arecaceae) na Floresta Ombrófila Densa: potencial, problemas e possíveis soluções. Sellowia: Anais botânicos do Herbário Barbosa Rodriques, Itajaí, v. 49-52, p.256-280, 2000.
Fisch, S. T. V. Dinâmica de Euterpe edulis na floresta ombrófila densa atlântica em Pindamonhangaba. 1998. 126 p. Tese (Doutorado) - Instituto de Biociências, Universidade de São Paulo. São Paulo.
Modelos de distribuição de probabilidade e crescimento em florestas tropicais
Marcos A. S. Scaranello
Modelos estocásticos e seleção de modelos
Modelos matemáticos ou determinísticos representam o comportamento esperado de um sistema, em média, na ausência de variações aleatórias (Bolker, 2008). Eles tratam a variabilidade do sistema não controlada pelo cientista, os chamados resíduos, de uma maneira “ruim”. De uma forma geral, tal variabilidade sob a abordagem dos modelos determinísticos pode atrapalhar as conclusões sobre o sistema de estudo. Os modelos estocásticos, por outro lado, incorporam aleatoriedade e ruídos de alguma maneira (Bolker, 2008). Essa característica de incorporar a variabilidade do sistema, que na maioria das vezes é inerente ao sistema, torna essa classe de modelos muito mais atraente para a área de Ecologia ou de Recursos Florestais. Essa variabilidade inerente ao sistema de estudo pode ser classificada em “estocasticidade demográfica” e “estocasticidade ambiental”. A estocasticidade demográfica é uma variação aleatória que ocorre mesmo quando o cientista controla todo o ambiente e o genótipo da população que está estudando. A estocasticidade ambiental, por outro lado, já é imposta pelo ambiente externo como, por exemplo, variação de clima ou variações de topografia e solo. Existe ainda uma terceira fonte de variação que são os erros de medidas, resultado dos métodos utilizados para mensuração das variáveis.
Os modelos estocásticos também são conhecidos como modelos de distribuição de probabilidade (Bolker, 2008). Uma distribuição de probabilidade atribui uma probabilidade a cada um dos possíveis resultados de uma variável aleatória dentro de um determinado espaço amostral. Uma variável aleatória denominada “X” é uma variável cujo valor “x”, pertencente a “X”, não é fixo e pode assumir mais de um valor devido a variações ao acaso. As distribuições de probabilidades podem ser divididas em discretas e contínuas, dependendo da natureza da variável numérica em estudo. Nas distribuições de probabilidade contínuas os resultados da variável aleatória são um conjunto de números inteiros. Um exemplo são os dados de contagem com números não negativos. A distribuição de probabilidade discreta é descrita pela função de probabilidade que atribui uma probabilidade a cada valor da variável aleatória. Ela também é chamada de função de massa probabilística. Alguns exemplos de distribuição de probabilidade discretas utilizados em Ecologia e Recursos Florestais são: Poisson, Geométrica, Binomial, Binomial negativa, entre outras. As distribuições de probabilidade contínuas, por outro lado, trata de todos os números reais (incluindo os negativos). É descrita pela função de densidade probabilística, ligeiramente diferente da função de massa das variáveis discretas. A função de densidade probabilística atribui probabilidade igual a zero para um valor exato da variável aleatória e atribui uma densidade probabilística ao redor de um determinado valor. A função de probabilidade acumulada atribui certo valor de probabilidade ao um intervalo da variável aleatória. Alguns exemplos de distribuições de probabilidades contínuas são: Normal ou Gaussiana, em homenagem ao grande astrônomo e físico Johann Gauss, Log-normal, Gamma, Exponiencial, Weibull, entre outras.
Os modelos de distribuição de probabilidade associados à lei e ao princípio da verossimilhança fornecem uma poderosa ferramenta para inferência estatística, ou seja, resolução de questões científicas (Bolker, 2008). A função de probabilidade possui parâmetros, semelhantes aos dos modelos determinísticos. Quando possuímos os dados, selecionamos um modelo de distribuição de probabilidade e desconhecemos o valor do parâmetro essa função de distribuição de probabilidade torna-se a função de verossimilhança (Batista, 2009). A lei da verossimilhança afirma que uma determinada observação “x” pertencente a variável aleatória “X” é uma evidencia que favorece uma determinada hipótese “A” confrontando com outra hipótese “B” se e somente se a probabilidade atribuída ao dado condicionada a hipótese “A” for maior que a probabilidade atribuída ao dado condicionado a hipótese “B”. Ainda, a razão da probabilidade de observar “x” condicionada a hipótese “A” sobre a probabilidade de observar “x” condicionada a hipótese “B”, também chamada de razão de verossimilhança, mede a força de evidência em favor da hipótese “A”. O princípio da verossimilhança afirma que a razão de verossimilhança é uma medida absoluta da força de evidência na comparação de duas hipóteses e que a função de verossimilhança contém toda a evidência contida no dado a respeito de uma dada hipótese. Sendo assim, um conjunto de modelos de distribuição de probabilidade candidatos a explicar um conjunto de hipóteses associado à lei e ao princípio da máxima verossimilhança proporciona ferramentas para a inferência estatística baseada na seleção de modelos utilizando a verossimilhança (Burnham & Anderson, 2002).
Aplicando modelos estocásticos e seleção de modelos em estimativas de crescimento em florestas tropicais
Os ecólogos e florestais que trabalham com florestas tropicais, tanto como um sistema de estudo quanto como um reservatório de recurso madeireiro, frequentemente se deparam com questões na qual existe a necessidade de se estimar o “crescimento médio” que represente um determinado povoamento florestal (Vanclay, 1996). O incremento em diâmetro, uma das variáveis operacionais do crescimento de uma floresta tropical, é frequentemente estimado a partir da diferença entre medidas de diâmetro em épocas distintas de uma mesma árvore. Como toda variável de mensuração, está sujeita a erros de medidas e variações estocásticas. As variações estocásticas de dados de crescimento, denominados de outliers de crescimento (crescimentos extremos), em florestas tropicais são frequentemente tratados da seguinte maneira: os crescimentos maiores que 5 mm ano-1 e menores que -2 mm ano-1 são excluídos do calculo da média ou simplesmente substituídos por valores médios de crescimento da classe de diâmetro correspondente (Chave et al. 2008). Vamos denominar esse caso específico de “parcela de inventário tratada”. A principal pergunta que emerge desse procedimento é: será que um indivíduo de rápido crescimento, principalmente quando se trata de comunidade arbórea, ou um indivíduo senescente (crescimento negativo) não está sendo considerado? Essa variabilidade pode ser importante e pode ser incorporada nas estimativas de crescimento utilizando modelos de distribuição de probabilidade contínuos. O valor esperado, ou esperança, da distribuição contínua que melhor se ajusta aos dados de crescimento representa então o valor de crescimento do povoamento florestal. A esperança de uma distribuição de probabilidade é um ponto no “centro de massa” da distribuição dos dados e mesmo se um dado extremo de crescimento estiver presente no conjunto de dados ele terá um valor de verossimilhança baixo e será considerado com o “devido valor”. Um teste preliminar em dados de crescimento diamétrico em uma área de floresta tropical Atlântica revelou o potencial do uso de modelos de distribuição de probabilidade contínuos aplicados a dados de crescimento de florestas tropicais. Um teste de desempenho de funções de densidade probabilísticas contínuas foi aplicado a uma mesma parcela de inventário “tratada” do modo convencional e sem tratamento. O tratamento convencional aplicado foi substituir todos os valores fora do quantil de 2,5% e 97,5% dos dados de crescimento em diâmetro em milímetros por ano por valores de crescimento médio correspondente a cada classe de diâmetro (o crescimento em diâmetro é dependente de tamanho). No presente teste, 74 indivíduos considerados outliers de crescimento foram substituídos por valores médios de crescimento da classe. O modelo de distribuição de probabilidade contínuo que melhor se ajustou ao dado da parcela não tratada foi o modelo de distribuição Gamma e a parcela tratada foi a distribuição normal. Esse resultado evidenciou o primeiro grande problema de “tratar” os dados de crescimento, o tratamento mudou a distribuição original dos dados. Os resultados também mostraram que a média amostral da “parcela tratada”, melhor descrita pela distribuição normal, caiu dentro do intervalo de plausibilidade da esperança da distribuição gamma da parcela não tratada (com valores quase idênticos). É possível então incorporar os valores extremos de crescimento, que podem fazer parte do sistema, e poupar tempo de “tratamento” dos dados de crescimento.
Referências bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Apostila.
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Burnham, K. P., & Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical-Theoretic Approach, 2nd ed. New York, Springer-Verlag
Chave, J. et al. (38 co-autores) 2008. Assessing Evidence for a Pervasive Alteration in Tropical Tree Communities. PLoS Biol 6(3): e45.
Seleção de modelos utilizando modelos estatísticos e modelagem baseada em indivíduos
Vitor Passos Rios
Modelagem estatística convencional
A modelagem matemática ou estatística busca representar os padrões observados na natureza através de equações que representam a relação entre variáveis preditoras e variáveis respostas. Essas relações podem ser aparentemente simples, como o efeito do aumento da incidência de luz sobre a produtividade de uma colheita, ou bastante complexas, como a variação observada nas populações de um sistema predador-presa. Sejam estas relações simples ou complexas, devido à própria natureza dos dados biológicos, dificilmente duas medidas independentes do mesmo sistema terão o mesmo valor: uma parcela dificilmente terá o mesmo número de árvores que a outra, a biomassa de uma árvore dificilmente será igual à de sua vizinha, e duas populações de um predador dificilmente terão a mesma abundância no mesmo ponto no tempo. Como esta variação nos dados faz parte do sistema estudado, ela é incorporada na representação que se faz do sistema, chamada de modelo estatístico, na forma de uma distribuição de probabilidades. Esta distribuição é uma representação matemática da probabilidade que a variável resposta tem de apresentar um dado valor em função do valor da variável preditora, por exemplo, que a biomassa das árvores seja 500, 1000 ou 957 kilos, dada uma certa incidência de luz.
Embora medir esta variação possa ser tão simples quanto contar ou medir indivíduos, representar estatisticamente a distribuição de probabilidades dos dados pode ser mais complicado. A distribuição de probabilidade pode pertencer a uma de várias famílias de distribuições, cada qual com propriedades diferentes. A mais conhecida é a distribuição Normal ou Gaussiana, em que os dados se distribuem igualmente em torno de uma média, o que dá à distribuição uma forma de sino, com a amplitude da variação em torno da média sendo dada pela variância. A média e a variância são chamadas de parâmetros da distribuição, e na Gaussiana elas variam independentemente. São estes parâmetros que determinam as propriedades das distribuições, e cada tipo de distribuição tem seu conjunto de parâmetros, com diferentes tipos de relações entre eles. Fazer um modelo estatístico de seus dados nada mais é do que encontrar a distribuição de probabilidades que melhor os descreve, com os valores de parâmetros que proporcionam o melhor ajuste, isto é, que dão valores teóricos da variável resposta mais próximos aos valores observados. Entretanto, dada a alta variação e os baixos números amostrais comuns aos dados biológicos, podem haver várias distribuições (vários modelos) que descrevam bem os dados.
Para diferenciar entre estes modelos, e encontrar aquele que, dentro de um conjunto de modelos possíveis, se ajusta melhor aos dados, são utilizadas as técnicas de máxima verossimilhança e seleção de modelos.
Máxima verossimilhança
A técnica de máxima verossimilhança é baseada na lei de verossimilhança: a explicação mais plausível é aquela que atribui maior probabilidade aos dados. Se temos dois modelos diferentes, A e B, que descrevem o comportamento de um sistema, cada modelo apresentará um conjunto diferente de valores possíveis das variáveis resposta, isto é, em cada modelo, haverá uma probabilidade diferente de encontrarmos um conjunto de valores igual ao observado na natureza. Segundo a lei da verossimilhança, o modelo com a maior destas probabilidades é o mais plausível, ou mais verossímil. Em outras palavras, o modelo mais plausível é aquele cuja distribuição de probabilidades melhor se ajusta aos dados, e este ajuste é dado pelo conjunto de parâmetros da distribuição.
Se temos os dados e um conjunto de modelos, com suas distribuições de probabilidades associadas, podemos verificar o quanto cada modelo é verossímil. Para isso utilizamos a função de verossimilhança , que é o produto das probabilidades atribuídas a cada valor dos dados por um dado modelo. Para encontrar as combinações de parâmetros que deem aos dados a maior probabilidade possível, buscamos as combinações que forneçam a máxima verossimilhança. Por uma questão de tratabilidade matemática, o valor de verossimilhança é convertido em log-verossimilhança negativa, e o modelo com maior verossimilhança é o que possui a menor log-verossimilhança negativa.
Seleção de modelos
Tendo os valores de menor log-verossimilhança negativa de cada modelo, podemos então escolher o melhor dentre o nosso conjunto de modelos, isto é, aquele que atribui a maior probabilidade aos dados observados. O modo mais usual de fazer isso é através do critério de informação de Akaike (AIC). O AIC se baseia no conceito de que há um “modelo real”, que gerou os dados na natureza, e que o melhor modelo teórico possível seria aquele que fosse idêntico a este modelo real. Diferentes modelos teóricos estariam a diferentes “distâncias” do modelo real, baseado em o quanto as previsões do modelo teórico difeririam das observações do modelo real, e que dentro de um conjunto de modelos, o melhor seria aquele que estivesse à menor distância, independente de o quanto ele estivesse longe da realidade, desde que estivesse mais perto do que os outros. Para medir esta distância, Akaike utilizou a distância de Kullback-Leibler, que é uma diferença relativa entre duas distribuições, neste caso a distribuição da realidade e a distribuição do modelo teórico. Akaike considerou a realidade como sendo constante, e é matematicamente possível comparar dois modelos teóricos diferentes com base em sua distância ao modelo real, mesmo que o modelo real seja desconhecido. Essa distância é proporcional à log-verossimilhança do modelo, portanto podemos utilizar a mínima log-verossimilhança negativa como medida da qualidade relativa do modelo. Como forma de penalizar o uso excessivo de parâmetros, que enviesa o ajuste do modelo, o valor da log-verossimilhança negativa é penalizado pelo dobro do número de parâmetros. Assim, de um conjunto de modelos, aquele que possuir o menor AIC é considerado o modelo que melhor se aproxima dos dados.
Modelagem baseada em indivíduos
Na modelagem baseada em indivíduos (IBM), que irei utilizar em minha tese, para comparar os efeitos da memória de encontros sobre a agregação espacial dos indivíduos, os sistemas de interesse são modelados de forma intrinsecamente diferente daquela usada na modelagem matemática tradicional. Ao invés de modelar a distribuição dos dados, IBMs podem modelar explicitamente os processos biológicos que regem o comportamento de um sistema, tratando seus componentes de forma separada, com propriedades e comportamentos individuais determinados pelo modelador, com base nos padrões apresentados pelo sistema. Por exemplo, em um modelo de variação de biomassa em relação à variação de incidência de luz, cada indivíduo da cultura pode ter sua própria taxa de crescimento em função da luz, que pode variar com sua idade, e receber uma quantidade de luz que não é necessariamente a mesma para toda a cultura. Em um modelo de distribuição de árvores em parcelas, as regras que fazem com que cada arvore nasça em uma ou em outra parcela podem ser explicitadas como regras de dispersão de sementes, e as parcelas podem diferir entre si na qualidade do solo e presença de herbívoros. IBMs permitem incorporar variação individual aos modelos, além de permitir estipular regras causais. Cada característica do IBM é representada por um parâmetro computacional, que pode ser um valor de altura, uma cor, ou sexo do indivíduo, ou qualquer outra característica que o modelador julgue importante para seu sistema, e cada regra por um algoritmo, seja de interação entre os indivíduos, como predação, ou de mudança de estado do próprio indivíduo, como envelhecimento. Um IBM é criado de modo a representar um sistema natural, e se comporta como um mundo virtual, que se desenvolve mediante a aplicação destas regras aos indivíduos em cada ponto no tempo.
Seleção de modelos com IBMs
Dadas as diferenças tão acentuadas em relação aos modelos matemáticos e estatísticos, e dada a natureza diferente dos parâmetros computacionais em relação aos parâmetros das distribuição de probabilidades, uma comparação direta de IBMs com modelos tradicionais via AIC é impossível. O modelo baseado em indivíduos é um código computacional, não uma equação, portanto, as técnicas de estimativas de máxima verossimilhança não podem ser aplicadas diretamente.
Para que possamos comparar IBMs com modelos estatísticos e matemáticos, é necessário utilizar uma lógica diferente. Um exemplo é dado em Mooij & De Angelis (2003), que testaram diferentes modelos de dispersão de aves. Utilizando dados típicos, eles buscaram modelar o sistema ajustando diferentes modelos estatísticos e um modelo baseado em indivíduos. Ajustar os modelos estatísticos e calcular as estimativas de máxima verossimilhança é trivial utilizando as técnicas descritas nas seções anteriores. Entretanto, estas técnicas não podem ser aplicadas diretamente a IBMs. Dado que um IBM é elaborado para representar um sistema biológico real, o IBM pode permitir que as mesmas técnicas de coleta de dados utilizadas em campo sejam aplicadas às simulações. Em seu artigo, Mooij & DeAngelis geraram simulações de indivíduos que se dispersavam aleatoriamente com passos discretos em paisagens artificiais, com uma probabilidade de morrer a cada passo, e a partir de simulações, geraram uma “estatística sumária” (Hartig et al, 2011) que lhes permitiu analisar os resultados do IBM.
Uma estatística sumária é utilizada para resumir os dados simulados pelos IBMs em termos do padrão medido nos dados observados. No caso em questão, os autores geraram, através de repetidas simulações, uma distribuição de frequências de indivíduos que se dispersaram com sucesso após um dado número de passos. Como os dados observados eram baseados em tempo e não em espaço, os resultados das simulações foram transformados em dados de tempo utilizando a velocidade do deslocamento (velocidade = espaço/tempo). Esta distribuição de frequências pôde ser investigada utilizando a técnica de máxima verossimilhança para os parâmetros probabilidade de morte e velocidade, e os autores então compararam os intervalos de confiança de 95% dos modelos IBM e estatísticos. Como um dos modelos estatísticos usados por eles utilizava apenas um subconjunto dos dados, não foi possível calcular as diferenças entre os AICs, mas os intervalos de confiança os permitiram fazer considerações importantes sobre a inserção de dados espaciais e temporais em modelos.
Embora os IBMs tenham uma natureza fundamentalmente diferente dos modelos estatísticos, é possível utilizar um IBM para gerar um conjunto de dados simulados, que pode ser investigado a partir de estatísticas sumárias. Do mesmo modo que um modelo estatístico gera uma distribuição que é comparada com os dados observados, as estatísticas sumárias dos dados simulados dos IBMs geram uma distribuição que pode ser comparada com os dados observados. Além disso, os IBM podem integrar em sua composição considerações sobre os processos mecanísticos que geram os padrões, e portanto a seleção de modelos pode ser utilizada para comparar processos diferentes e escolher o processo mecanístico que melhor reproduz o padrão observado, como por exemplo fizeram Huth & Wissel 1992, trabalhando com cardumes de peixes virtuais, e como eu utilizarei para verificar quais processos de formação e duração de memória de encontros prévios melhor descrevem os padrões de agregação entre animais observados na natureza.
Bibliografia
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Bolker, B. Ecological Models and Data in R.University Princeton and Oxford, 2007.
Burnham, K.P. & D.R. Anderson. 2002. Model selection and multimodel inference: A practical information-Theoretic a approach. 2ª Edição. Springer, New York.
Grimm, V.; Railsback, S. F. Individual-based Modeling and Ecology. First ed. Princeton: Princeton University Press, 2005. p. 480
Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10
Hartig, F.; Calabrese, J. M.; Reineking, B.; Wiegand, T.; and Huth, A. 2011. Statistical inference for stochastic simulation models – theory and application. Ecology Letters, 14:816-827.
Huth, A. ; Wissel, C. 1991, The Simulation of the Movement of Fish Schools . Journal of theoretical Biology . 156, 365-385
Mooij, W. M.; DeAngelis, D. L. 2003, Uncertainty in spatially explicit animal dispersal models. Ecological Applications, 13(3), pp. 794–805
Não confie em modelos padrão
Sara Ribeiro Mortara
"Don't trust standard models. Think outside the lines."
“Where is your office? What do you do exactly? You know things I think is what you do. I think you acquire information and turn it into something awful.”
Eric Packer para Elise Shiffrin em Cosmópolis (Cronemberg, 2012)
Um ponto marcante da disciplina de modelagem é a elaboração e seleção dos modelos em ecologia. Um outro ponto marcante da disciplina é sua semelhança com alguns pontos do filme Cosmópolis (2012) de David Cronemberg. A partir do diálogo acima pretendo discutir o papel da elaboração de modelos para representar dados na ciência e no mundo real, usando o filme como um exemplo. O interessante é que um aspecto crucial da elaboração de modelos que é o conhecimento dos dados e de sua variação converge como ponto crucial da disciplina e do filme. Eric Parker já supunha que não se pode confiar em modelos padrão. Depois da disciplina aprendi que primeiro vem os dados, depois o modelo. Se o modelo vem depois dos dados, não deve existir um modelo padrão. Para começar, vale apontar que o filme retrata o dilema de Eric em entender porque suas projeções financeiras a respeito da cotação da moeda corrente falharam. Portanto, Eric possui dados e construiu modelos para compreendê-lo.
A modelagem é um mapa conceitual para a descrição, previsão e inferência de padrões e mecanismos observados em ecologia. Quando construímos modelos tentamos traduzir em termos lógicos, matemáticos ou probabilísticos os elementos biológicos que acreditamos fazer com que os dados sejam como são. Se quisermos elaborar e comparar modelos para melhor representar os dados algum tipo de matemática ou estatística será necessário. A elaboração de modelos existe em um continuum de simplicidade a complexidade. Na verdade, podemos criar o padrão ou o mecanismo que quisermos usando distribuições de probabilidades e funções matemáticas. Podemos incluir variáveis preditoras, relações lineares ou não lineares das variáveis com os dados, ou com os parâmetros do modelo. Poder fazer manipulações estatísticas e matemáticas das mais diversas para construir um modelo não significa que de fato devamos usar de todos os elementos disponíveis. A boa escolha de um modelo para representar os dados envolve o conhecimento de quais os componentes e mecanismos biológicos realmente devem estar presentes. O que entendo como uma boa prática em modelagem é representar os dados da maneira mais real e simples possível, ou melhor, mais verossímil e parcimoniosa possível. Pegar quaisquer informações biológicas e colocar num modelo sem critérios teóricos ou práticos pode fazer com que a gente simplesmente transforme informação em algo terrível, como Elise aponta para Eric em Cosmópolis. E devem ter muitos ecólogos e Eric Parkers colocando a maior quantidade de informação possível em modelos para chegar mais perto da realidade.
Pensar a boa prática em modelagem envolve pensar a boa prática em ciência de maneira geral. O fazer ciência começa com uma pergunta (ou muitas delas). Depois vem uma hipótese (ou várias delas). A partir da hipótese podemos elaborar previsões e modelos que representem tais previsões. No final do dia, muitos cientistas buscam dados que sejam bons ajustes às previsões elaboradas. Ou, se pensarmos por um outro lado, o lado da seleção de modelos, buscamos hipóteses bem contextualizadas em termos teóricos e lógicos, de maneira que as previsões elaboradas a partir das hipóteses sejam boas representações dos dados que observamos na natureza. Assim, o ajuste do modelo aos dados depende de o quão próximo o modelo está dos dados. Como já mencionei, comparar modelos com dados envolve algum tipo de estatística. Escolher o tipo de inferência estatística a ser utilizada no confronto dos modelos com os dados não é trivial e envolve escolher como olhar para os dados. Existem três maneiras de se fazer inferência estatística: seja por meio da abordagem frequentista, da verossimilhança ou da bayesiana. Não pretendo falar da abordagem bayesiana, mas apenas contrastar a abordagem frequentista com a seleção de modelos, que pode ser por verossimilhança ou bayesiana.
Se estamos comparando modelos na abordagem frequentista, contrastamos com os dados uma hipótese de cada vez. Estamos preocupados com um modelo que represente o padrão dos dados observados com a menor variância possível, tendo apenas uma medida de ajuste de cada modelo com os dados, independentemente. Ainda, a variância é em geral a parte não explicada pelo modelo, o ruído, e por isso deveríamos desconsiderá-la (e torcer para que ela seja normal). A cultura científica de confrontar uma hipótese com os dados e basear-se em testes que envolvem normalidade na variação dos dados vem da estatística frequentista. Muitas vezes, os cientistas reproduzem testes frequentistas sem nem conhecer os dados que estão observando. O ponto é que não existe seleção de modelos na estatística frequentista, mas talvez a estatística frequentista tenha influenciado a maneira dos cientistas olharem para os dados e sempre tentar enxergar neles uma distribuição normal.
Precisamos retomar ao que é a distribuição normal, essa distribuição tão difundida em ecologia e tão confortante para a sociedade. A distribuição normal é originada a partir de efeitos independentes aditivos na variação dos dados. A distribuição normal é simétrica, com média e variância independentes e equivalentes aos parâmetros mu e sigma. Mas o que fazer quando os dados não são normais (i.e gaussianos)? Muitas vezes eles de fato não são. Será a falta de normalidade, ou a assimetria um erro? Ou será a assimetria uma propriedade do sistema biológico? Uma das leis gerais em ecologia é a ocorrência de muitas espécies raras e poucas espécies abundantes. Já de saída sabemos que isso não é normal, ou melhor, gaussiano. A presença de muitas espécies raras é o que faz com que a curva de distribuição de abundâncias em uma comunidade seja assimétrica. E agora que a assimetria é parte do sistema e não ruído? Ainda, muitos dados em biologia apresentam distribuições assimétricas além da distribuição de abundância de espécies em comunidades, tais como: distribuição de diâmetro em populações, distribuição de tamanho de frutos e flores em plantas ou dinâmica de crescimento exponencial, e isso só para começar. Se pensarmos em um modelo padrão para ajustar aos dados biológicos de maneira geral, o primeiro que viria à nossa mente seria a distribuição normal (ou gaussiana), influenciados pelo pensamento frequentista. Mas dificilmente ganhamos alguma coisa comparando quaisquer dados com uma distribuição normal sem ter razão alguma para acreditar que os dados podem realmente serem normais.
Podemos voltar ao Cosmópolis. Eric, ao longo do filme, sofre por uma inquietação por descobrir que possuía a próstata assimétrica. Qual a implicação em fugir do padrão? Ou melhor, qual o padrão? No filme sabemos que Eric não é o único que possui a próstata assimétrica e, o que talvez pareça uma exceção, pode ser a regra. Infelizmente, as pessoas gostam de acreditar que a variabilidade quantitativa é simétrica e em forma de sino. A simetria é uma das razões para a distribuição normal ser tão popular, dado que a simetria é um princípio básico na natureza e na nossa cultura de pensamento. Eric ficou inquieto em relação à assimetria de sua próstata porque estamos mais habituados a pensar em modelos simétricos. A simetria ser comum no nosso pensamento também faz com que a distribuição normal seja o padrão na estatística tradicional. A normalidade da estatística frequentista fez com que a ciência ficasse cega à variação e passasse a encarar a variação como ruído. E o mais grave é que características importantes dos dados podem permanecer desconhecidas quando se adota a postura de descartar a variação e a assimetria. Afinal, uma descrição adequada da variabilidade dos dados é crucial para estudar padrões e os componentes da variância. Mas Eric ficou cego à variação. Ele não conseguiu prever a variação nos dados de suas projeções financeiras.
Conhecer bem os dados, elaborar modelos, confrontar os modelos com os dados, entender o como e o porquê da variação nos dados. É essa a prática da seleção de modelos. E o entendimento dos dados num determinado sistema de estudo pode ser mais facilmente constatado quando os dados são árbitros num confronto de múltiplas hipóteses ao invés de uma única hipótese contrastada com os dados. A receita não é mais testar normalidade, mas sim construir modelos para representar e entender a variância. Conhecer o sistema e conhecer os dados é a chave parar conhecer que, na maioria dos casos na natureza, a variação é parte do sistema. Portanto a questão não é mais se tal dado, biológico ou não, é normal ou não. A pergunta na seleção de modelos é qual o modelo explica melhor a variação dos dados. Afinal, talvez a variação seja propriedade dos sistemas naturais, e não o erro. E se podemos, com uma boa razão, colocar qualquer elemento estatístico ou matemático em um modelo, porque continuar com o normal? Por isso: ``Don't trust standard models''.
Para saber mais:
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Cronemberg, D. 2012. Cosmópolis.
Hilborn, R. & Mangel, M. 1997. The ecological detective: Confronting models with data. Princeton University Press, Princeton.
Limpert, E., Stahel, W.A., Abbt, Markus. 2001. Log-normal distributions across the sciences: keys and clues. Bioscience, 51(5): 341-352.
Modelos lineares generalizados em ecologia
Juliana Lopes Vendrami
Ao elaborarmos um projeto de pesquisa, buscamos na estatística um meio para tirar conclusões e/ou generalizações confiáveis acerca do sistema de estudo. Para isso, primeiramente formulamos modelos estatísticos que representam hipóteses acerca da distribuição probabilística dos dados observados e podem possuir diversos parâmetros (média e variância, e.g.). Um modelo que vem sendo bastante utilizado na estatística é a dos Modelos Lineares Generalizados (GLMs). Esses modelos representam uma flexibilização dos modelos lineares tradicionais, que pressupõem a normalidade e a variância constante dos dados (regressão linear, ANOVA e.g.) (Bolker 2007), ao possibilitar a análise de dados com distribuições não lineares (Bolker 2007). Ao mesmo tempo, os GLMs permitem que a estrutura para estimação e predição dos modelos lineares tradicionais possa ser aplicada a esses modelos não lineares (Resende & Biele 2002). É importante salientar que os modelos lineares clássicos são casos particulares dos GLMs (Resende & Biele 2002). Os GLMs ganharam grande destaque, uma vez que os pressupostos de normalidade dos erros e uma variância constante (Bolker 2007) não são plausíveis em muitas situações (Provete et al. 2011), e a transformação dos dados para cumprirem esses pressupostos com o intuito de se utilizar as análises tradicionais aumentam a probabilidade de se cometer erros inferenciais (erros do Tipo I e II) (Provete et al. 2011).
Os modelos lineares generalizados são usados em estudos cujo objetivo é avaliar a relação de uma ou mais variáveis (denominada de covariável, variável preditora, explicativa ou independente) sobre uma variável de interesse (variável resposta ou dependente), sendo que esta variável pode não ter uma variância constante e/ou os erros não serem normalmente distribuídos (Crawley 2007). Mais especificamente, os GLMs permitem que a variável resposta possa seguir qualquer distribuição de probabilidade da família exponencial (binomial, Poisson, Gama, Normal, exponencial, e.g.) (Crawley 2007). Já as variáveis explicativas entram nos GLMs como uma função linear com os parâmetros do modelo (Crawley 2007). As variáveis podem assumir valores discretos ou contínuos (Crawley 2007). A relação entre o valor médio da variável resposta com a parte sistemática através de uma função de ligação. Cada distribuição da família exponencial tem a sua função de ligação. Por exemplo: Poisson tem como função de ligação a função logarítmica, enquanto que a Binomial tem a função logística (Bolker 2007). A partir da função de ligação, os GLMs são ajustados por um processo denominado de “iteratively reweighted least squares” (Bolker 2007). Esse processo permite que a variável resposta seja linearizada, sem que, no entanto, altere a variância da mesma (Bolker 2007).
Em ecologia, esse abordagem analítica tem se mostrado importante, uma vez que em vários estudos, distribuições diferentes da normal se fazem presente. Por exemplo: para estudos de contagem de espécies, a distribuição Poisson e binomial negativa aparecem como opções comuns (Provete et al. 2011); ou em estudos de presença - ausência de uma determinada espécie, os dados apresentam uma distribuição binomial (Provete et al. 2011). Além disso, uma abordagem importante na ecologia que os GLMs aparecem como uma ferramenta robusta é a predição da ocorrência das espécies ao longo de gradientes ambientais e a quantificação dos mecanismos responsáveis por essa distribuição, que são essenciais para estudos de perda de biodiversidade (Polasky & Solow 2001), um dos principais problemas da atualidade. Os modelos de distribuição de espécies, também denominados de modelos de nicho ecológico (Austins 2002) ou GLM, representam uma técnica para ajustar uma relação entre a variável resposta, a distribuição da espécie de interesse que possui uma distribuição binomial, e a combinação de preditores ambientais (Guisan & Zimmermann 2000). Na distribuição de espécies vegetais, há vários de tipos de preditores, sendo divididos em três categorias: 1) preditor indireto (não possui relação direta na fisiologia da organismo, e.g. topografia), 2) preditor direto (possui um efeito fisiológico no organismo, e.g. temperatura) e 3) preditor de recurso (recursos que os organismos assimilam diretamente, e.g. nitrato) (Austin 1980). A partir desses modelos, obtêm-se previsões probabilísticas acerca dos habitats que as espécies poderão ocorrer (Araújo & Guisan 2006). Os modelos de distribuição das espécies podem ser utilizados também para avaliar a distribuição dos tipos funcionais (espécies com determinadas características morfo-fisiológicas) das espécies ao longo de uma gradiente ambiental (Violle et al. 2011), uma vez que os atributos estão relacionados diretamente com os mecanismos de coexistência entre as espécies (McGill et al. 2006). Nesse cenário, a distribuição de probabilidade de ocorrência dos tipos funcionais continua sendo a binomial. Essa abordagem estatística constitui a análise do meu projeto de mestrado, que pretendo avaliar a distribuição dos tipos funcionais de espécies arbóreas ao longo de um gradiente de solos na restinga alta.
Além da importância para o projeto pessoal de pesquisa, é importante destacar que o conhecimento das ferramentas de análise de dados possibilita aos pesquisados uma visão mais crítica das estatísticas empregadas nos artigos de modo a possibilitar a avaliação das conclusões dos trabalhos dos colegas de profissão com maior embasamento.
Referências bibliográficas
Austin, M.P. 1980. Searching for a model for use in vegetation analysis. Vegetatio 42:11–21.
Austin, M.P. 2002. Spatial prediction of species distribution: an interface between ecological theory and statistical modeling. Ecological Modelling 157:101–118.
Araújo, B.A. & Guisan A. 2006. Five (or so) challenges for species distribution modelling. Journal of Biogeography 33:1677-1688.
Bolker, B.M. 2008. Ecological Models and Data in R. Princeton University Press. Princeton, USA.
Crawley, M.J. 2007. The R Book. John Wiley & Sons Ltd, England.
Guisan A. & Zimmermann NE. 2000. Predictive habitat distribution models in ecology. Ecological Modelling 135:147-186.
McGill, B., Enquist, B.J., Weiher, E. & Westoby, M. 2006. Rebuilding community ecology from functional traits. Trends in Ecology and Evolution 21:178-185.
Polasky, S. & Solow, A.R. 2001. The value of information in reserve site selection. Biodiversity and Conservation 10(7):1051-1058.
Provete, D.B., Silva, F.R. & Souza, T.G. 2011. Estatística aplicada à ecologia usando o R. Apostila do curso de Programa de Pós Graduação em Biologia Animal da Universidade Estadual Paulista “Júlio de Mesquita Filho”. São José do Rio Preto, São Paulo.
Resende, M.D.V. & Biele, J. 2002. Estimação e predição em Modelos Lineares Generalizados Mistos com variáveis binomiais. Revista de Matemática e Estatística 20:39-65.
Violle C., Bonis, A., Plantegenest, M., Cudennec, C., Damgaard, C., Marion, B., Le Cœur, D. & Bouzillé, J.B. 2011. Plant functional traits capture species richness variations along a flooding gradient. Oikos 120(3):389–398.
A inferência por verossimilhança
Carlos Eduardo R. T. Benfica
Verossímil: semelhante à verdade; que tem a aparência de verdadeiro; provável. Esta é a definição dada pelo dicionário da palavra que resume a abordagem estatística a ser tratada adiante.
A inferência estatística por verossimilhança indica qual de suas hipóteses é a mais plausível, baseando-se na seleção dos modelos construídos pelo pesquisador. Para melhor compreender o que são modelos, pode-se considerar que cada um deles é uma hipótese científica transformada em um conjunto de equações (modelos matemáticos) compostas por parâmetros ajustáveis, sempre com a possibilidade de serem biologicamente interpretados. Após criados, os modelos concorrem simultaneamente e a explicação mais plausível será(ão) a(s) qual(is) atribuir(em) a(s) maior(es) probabilidade(s) aos seus dados. Esta é uma abordagem estatística bastante diferente do tradicional teste de hipótese nula, onde, geralmente uma hipótese com pouco significado biológico é criada e, quando confrontada com os dados, aceita ou rejeitada (Johnson & Omland 2004). A rejeição da mesma se dá quando o valor obtido pelo teste estatístico empregado é menor que “0,05” (P < 0,05), uma definição arbitrária, contudo aceita pela comunidade científica como em um “acordo de cavalheiros”.
Fora isso, há ainda o método da log-verossimilhança negativa e da máxima verossimilhança (MLE - maximum likelihood estimares), o qual consiste em estimar os parâmetros de um modelo utilizando as estimativas que tornam máximo o valor da função de verossimilhança, o equivalente a encontrar o valor para o parâmetro que torna mínima a função de log-verossimilhança negativa (Batista 2009). A obtenção do MLE permite que seja calculado o intervalo de verossimilhança, o qual se baseia na razão das verossimilhança dos valores dentro deste intervalo pré estipulado na ultrapassa o limite determinado, estipulado, convencionalmente, em 8, transformada em log(8) quando gerado em função da log-verossimilhança negativa (Batista 2009).
Três das principais vantagens enumeradas a favor da seleção de modelos dizem respeito à i) possibilidade de concorrer diversos modelos (hipóteses) simultaneamente - o que extingue a necessidade de aceitar ou refutar uma hipótese, fosse ela a alternativa ou a nula; e ii) modelos podem ser rankeados e receberem pesos, permitindo uma medida quantitativa relativa a cada um dos concorrentes; e iii) em situações nas quais modelos possuírem os mesmos níveis de suporte, de acordo com os dados, pode-se realizar um procedimento que considera a incerteza da seleção para que estimativas mais robustas dos parâmetros sejam obtidas (Johnson & Omland 2004). Dadas essas, bem como outras características da abordagem por verossimilhança, a tornam bastante apropriada às análises de dados científicos.
A inferência estatística por verossimilhança se baseia na “lei da verossimilhança” e, para melhor compreender o assunto, segue uma sucinta descrição em um exemplo abaixo: Antes de iniciar um estudo foram formuladas duas hipóteses sobre o comportamento de uma dada variável aleatória (X) – Ha e Hb. Após realizado o estudo, foi observado o seguinte resultado para a variável aleatória: X = y. Baseado nesses dados coletados, cada hipótese atribui uma probabilidade para tal observação da variável (X = y), ou seja, a hipótese A afirma que a probabilidade de observar X = y é pA(y) e a hipótese B afirma que a probabilidade de observar X = y é pB(y). Contudo, o que realmente importa, segundo a verossimilhança, é qual das hipóteses é favorecida pela observação X = y, resultado obtido pela razão de verossimilhança pA(y)/pB(y).
Para se obter resultados da razão de verossimilhança entre hipóteses (força de evidência) é necessário inserir os dados referentes às observações (X = y) em uma função de densidade, específica à cada uma das diversas distribuições (discretas ou contínuas). Com o resultado é possível afirmar que uma hipótese é, aproximadamente, x vezes mais verossímil que a outra, dando assim, ao pesquisador, um referencial para suas conclusões.
Os meus dados e a verossimilhança
Na pesquisa que realizei, amostrei por seis vezes ao longo de 12 meses uma área protegida de cerrado no norte de Minas Geras - PE Veredas do Peruaçu - e tive como um dos objetivos avaliar se havia associação entre a: i) riqueza ou o ii) número de avistamentos de rapinantes ao longo das transecções em estradas em relação ao: i) hábitat onde os indivíduos eram detectados; ii) à estação climática (seca/chuvosa) e/ou; iii) à hora do dia em que os avistamentos eram obtidos.
Caso eu fosse realizar análises frequentistas, teria que fazer inúmeras hipóteses nulas para , as quais, iriam ser retornados valores de P, os quais iriam servir como um marco para aceitar ou refutar cada uma das várias hipóteses nulas levantadas.
Baseado em referências, como Bolker (2008) e Zuur et al (2009), creio que os meus dados se encaixarão na distribuição Poisson e se encaixarão como modelos lineares generalizados mistos (GLMM). A Poisson é uma distribuição discreta utilizada, normalmente, em dados de contagem, tais como o número de eventos em uma dada unidade de tempo ou espaço, considerando sempre a independência dos eventos. Já os modelos lineares generalizados mistos (GLMM's), possuem como característica principal a possibilidade de haver correlação entre as observações (temporal, espacial, heterogeneidade, etc), bem como estruturas de dados aninhados, permitindo análises de dados pseudoreplicados por diversas ocasiões, exceto quando o objetivo for estimar os efeitos que variam entre os indivíduos enquanto indivíduos diferem em respostas à estes efeitos (Schielzeth & Forstmeier 2009, Zuur et al 2009). Segundo Bolker et al (2008), dados referentes à ecologia e evolução frequentemente saem do escopo dos métodos estatísticos introdutórios, por serem, em certas ocasiões, binários (presença/ausência), contagens, etc. casos os quais, consequentemente, envolverão efeitos aleatórios, muitas vezes desconsiderados.
Com a abordagem verossimilhancista, poderei criar modelos que contenham diversas combinações destas variáveis, avaliar qual deles melhor se ajusta aos dados e concluir quais as variáveis possuem, em conjunto ou não, maior influência sobre o número de avistamentos e/ou a riqueza de aves de rapina na região de estudo. Tudo isso devido à possibilidade de concorrer todos os modelos criados simultaneamente. Tal conclusão será tomada a partir dos resultados do Critério de Informação de Akaike (Akaike 1974), provavelmente corrigido para pequenas amostras (AICc), sendo o melhor deles, ou os modelos com diferença de AICc menor < 2 (~ log(8)), selecionado(s). O AIC é um resultado o qual somente deve ser comparado entre modelos concorridos simultaneamente, uma vez que é uma medida relativa à distância do modelo proposto em relação ao modelo verdadeiro. Assim sendo, o(s) modelo(s) com o(s) menor(es) valor(es) de AICc deverá(ão) ser o(s) selecionado(s). Após selecionados, hipóteses com significados biológicos, as quais serviram de base para a construção dos modelos matemáticos concorrentes, serão refutadas e/ou aceitas.
Referências bibliográficas
Akaike, H. 1974. A new look at the statistical model identification. IEEE Transactions on Automatic Control, 19:716-723.
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Johnson, J.B. & Omland, K.S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10
Schielzeth, H. and Fortmeier, W. 2009. Conclusions beyond support: overconfident estimares in mixed models. Behavioral Ecology, 20(2):416-420.
Zuur, A.F., Ieno, E.N., Walker, N.J., Saveliev, A.A. e Smith, G.M. 2009. Mixed Effects Models and Extensions in Ecology with R. Springer, New York.