Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:barros

Análise Inferencial em ecologia bentônica: o mundo além da Distribuição Gaussiana

Gabriel Barros Gonçalves de Souza
  • Mestre em Ecologia e Biomonitoramento, Universidade Federal da Bahia
  • gabrielbbarros@gmail.com

A Análise Inferencial tem sido utilizada como suporte estatístico para as pesquisas em ecologia, uma vez que os testes de hipóteses são fundamentais para a compreensão dos processos que regem os padrões ecológicos. Tradicionalmente, a Inferência Frequentista, também denominada de Inferência Clássica, tem sido amplamente difundida, porém outras abordagens estão em crescente uso nos últimos anos. No presente ensaio, será primeiramente realizada uma contextualização acerca do tema, sendo posteriormente discutido os aspectos que envolvem a utilização da Inferência Frequentista (ou Clássica) e da Inferência por Verossimilhança. Por fim, será feita uma análise do cenário referente ao uso de análises inferenciais em ecologia bentônica e apresentado um exemplo prático para ajuste de modelos a dados reais.

Contextualização

A ecologia é uma ciência que tem como principal intuito descrever padrões espaciais e/ou temporais de distribuição e abundância de organismos, bem como entender suas causas e conseqüências (Scheiner & Willig, 2008). A descrição destes padrões na natureza permite a geração de hipóteses, delineamento de experimentos e tomada de decisões. Além disso, estudos de padrões fornecem informações necessárias para determinar o status e a dinâmica das populações e das comunidades, sendo fundamentais para diversos tipos de pesquisa, como estudos de produtividade, pesca e impactos (e.g. Murray et al., 2002). Desta forma, a descrição exata e precisa de um padrão é de extrema importância para estudos ecológicos (Andrew & Mapstone, 1987), já que a partir de um padrão bem descrito é possível avaliar os processos envolvidos, visto que estudos de processos são essenciais para a validação da observação (Underwood et al., 2000).

Para garantir a eficácia na descrição de um padrão ecológico, é necessária extrema atenção aos seguintes aspectos de uma pesquisa científica: (i) delineamento amostral, (ii) procedimentos de amostragem e (iii) análises dos dados. Estudos pseudoreplicados, com uso de equipamentos imprecisos ou com análises incorretamente realizadas conduzem o pesquisador a conclusões espúrias. Nesse sentido, é essencial garantir a adequação dos três aspectos acima citados aos objetivos do estudo.

No que tange à análise de dados, tradicionalmente, as pesquisas ecológicas tem adotado a prática frequentista (Anderson et al., 2000), pautada na Estatística Inferencial Frequentista (ou Clássica). Essa linha de análises estatísticas está baseada no Teorema Central do Limite (Batista, 2009) e na Teoria do Falsificacionismo do filósofo da ciência Karl Popper. Apesar da sua ampla utilização, essa abordagem tem sido alvo de crescentes críticas nos últimos anos, de modo que outras alternativas estão em crescente uso, tais como as abordagens da Verossimilhança e Bayesiana.

Inferência Frequentista x Inferência por Verossimilhança

Uma vez que a abordagem da Verossimilhança é um contraponto estatístico, de crescente uso, para a abordagem Frequentista, é crucial entender os aspectos que distinguem essas práticas estatísticas. As duas abordagens tem vantagens e desvantagens, sendo necessário que o pesquisador entenda essas características antes de escolher a forma de analisar seus dados.

Como informado anteriormente, a Inferência Frequentista está baseada no Teorema Central do Limite (TCL). O TCL afirma que quanto maior o tamanho da amostra, mais próxima a distribuição amostral da sua média estará de uma distribuição normal (Gaussiana), de modo que tal distribuição de probabilidade é a base da inferência clássica. Além do TCL, a outra base dessa abordagem analítica é o Falsificacionismo de Popper. O filósofo Karl Popper afirmava que não existem teorias verdadeiras ou falsas, mas teorias mais próximas da verdade do que outras (verossímeis). Nesse contexto, as teorias devem passar por um processo de corroboração através de tentativas de refutação (ensaios e erros). Essa base filosófica rege os testes estatísticos na abordagem Clássica, de modo que uma hipótese de interesse é contrastada com a hipótese nula (i.e. modelo sem o efeito em teste), sendo atribuída uma probabilidade de rejeitar a hipótese de interesse (não rejeitar a hipótese nula). É válido ressaltar que somente a hipótese nula é testada, de modo que a sua rejeição ou não rejeição é que determinará o status da hipótese de interesse.

A inferência da verossimilhança está baseada no ajuste de modelos aos dados obtidos (seleção de modelos), de modo que os parâmetros da distribuição de probabilidades são variáveis e os dados utilizados são fixos (Bolker, 2007). A seleção de modelos configura uma comparação entre um conjunto de hipóteses, sendo possível comparar mais de duas hipóteses distintas que possivelmente explicam um mesmo processo. De acordo com a Lei da Verossimilhança, os dados observados são evidências a favor da hipótese de maior probabilidade de geração dos dados obtidos em relação a outras hipóteses (Burnham & Anderson 2002). Além disso, nessa abordagem, a razão de verossimilhança é o valor de evidência em favor de uma das hipóteses, sendo esta uma mensuração numérica precisa e objetiva da força da evidência estatística (Royall, 2007). A comparação entre os modelos também inclui a identificação da Máxima Verossimilhança e o uso do Critério de Seleção de Akaike (AIC - estimador da distância de Kullback-Leiber), de forma a auxiliar na identificação do modelo mais plausível (Burnham & Anderson, 2002).

Existem outras características que diferenciam as abordagens Clássica e de Verossimilhança. Enquanto a análise Frequentista é pautada quase unicamente na distribuição Gaussiana de probabilidades, a inferência por Verossimilhança permite o uso de diferentes modelos de distribuição de probabilidades (Poisson, Binomial, Gamma, Exponencial, Geométrico, dentre outros). Os testes estatísticos frequentistas tem como principais premissas a independência das estimativas, a normalidade dos dados e homogeneidade das variâncias (Anderson et al. 2000), enquanto na abordagem de Verossimilhança a premissa que atinge grande parte dos modelos de distribuição é a independência das estimativas. Isso configura um problema, pois dificilmente as premissas dos testes estatísticos frequentistas são atendidos nos estudos ecológicos (Batista, 2009), sendo essencial que o pesquisador analise a adequação dos seus dados a outros possíveis modelos de distribuição de probabilidades.

Inferência Estatística em Estudos Bentônicos

A variedade estrutural dos habitats marinhos (e.g. rochas e fendas em substratos consolidados, topografia e composição em sedimentos) tem grande influência na distribuição de organismos bentônicos (Thrush et al., 2001). Quanto mais heterogêneo o substrato, mais heterogênea será a composição taxonômica e a distribuição desses organismos (Gray, 1974). Apesar disso, a distribuição espacial do bentos é comumente caracterizada por algumas particularidades que podem ser generalizadas.

Comunidades bentônicas marinhas são tipicamente compostas por poucas espécies comuns e muitas espécies raras (Riddle, 1989), o que gera uma grande variância dos dados obtidos. Além disso, os organismos bentônicos de substratos não consolidados estão geralmente distribuídos de maneira agregada, afetando a normalidade dos dados (Morrisey et al., 1992). Essas duas características influenciam diretamente na necessidade de maior rigor nos procedimentos amostrais (Boyd et al., 2006). Entretanto, mesmo um procedimento amostral extremamente rigoroso não garante que os dados se ajustem a uma Distribuição Gaussiana.

Uma vez que a Inferência Estatística Frequentista está baseada na Distribuição Gaussiana e os dados de estudos de ecologia bentônica raramente se ajustam às características dessa distribuição, surge um importante questionamento: Por que não tem sido utilizadas outras abordagens inferenciais em estudos bentônicos? Poucos estudos tem utilizado abordagens de Verossimilhança (Penna et al., 2010) e Bayesiana (Giles, 2008) ao invés da Inferência Frequentista.

Considerando as características peculiares da distribuição espacial dos organismos bentônicos, é plausível afirmar que a distribuição de probabilidades que melhor se ajusta a esse tipo de dados é o modelo Binomial Negativo. Heip (1975) afirmou que grande parte das populações de invertebrados bentônicos marinhos apresentam uma padrão espacial agregado, o qual pode seguir a distribuição Binomial Negativa. O mesmo autor afirmou que tal padrão funciona como um trade-off entre a redução do risco em achar parceiros e aumento do risco em não achar alimento, sendo que essa estratégia é semelhante em diferentes populações bentônicas.

Quase 40 anos após o trabalho de Heip (1975), grande parte dos estudos bentônicos ainda insistem no uso de modelos gaussianos, de modo que os dados são constantemente submetidos a transformações e padronizações com intuito de aproximá-los às características de uma Distribuição Gaussiana. Além disso, testes estatísticos, como a Análise de Variância (ANOVA), vem sendo realizados quebrando-se as premissas de normalidade dos dados e homocedasticidade (homogeneidade das variâncias). Embora pesquisadores defendam tais estratégias (e.g. Underwood, 1997), é fundamental que a ecologia bentônica amplie a utilização de distintos modelos de distribuição com o intuito de garantir melhores ajustes para realização das análises inferenciais.

Exemplo Prático

Para exemplificar o tema discutido no presente ensaio, serão utilizados dados da macrofauna bentônica coletada no infralitoral de Inema e Ribeira, Baía de Todos os Santos (Salvador - Bahia).

PASSO 1:

Os dados a macrofauna bentônica compõem um estudo realizado em duas áreas com o intuito de avaliar a influência de dois procedimentos de preservação de amostra (utilizando Formalina 10% ou Álcool 70%) nos descritores da comunidade. Para facilitar o exemplo prático, foram calculados somente valores referentes ao número de espécies e abundância total em cada réplica amostral (5 pontos de amostragem para cada procedimento em cada praia, com 3 réplicas por ponto). Sendo assim, o primeiro passo é carregar os dados do arquivo bentos.csv e guardar no objeto bentos.

bentos<-read.csv("bentos.csv",sep=";")
head(bentos)

#Local Preserv Ponto Replica Sp Abund
#1 Inema  Alcool     1       a  2     2
#2 Inema  Alcool     1       b  7    11
#3 Inema  Alcool     1       c  3     3
#4 Inema  Alcool     3       a  2     2
#5 Inema  Alcool     3       b  4     4
#6 Inema  Alcool     3       c  0     0

Número de Espécies

PASSO 2:

A partir de agora se inicia o processo para tentar ajustar os modelos Normal, Poisson e Binomial Negativo sobre a distribuição do Número de Espécies. Para tal, é criada uma função chamada nLL.norm que recebe dois parâmetros - um para a média e outro para o desvio padrão - e retorna a soma da log-verossimilhança negativa associada a esses valores para o modelo normal de distribuição de número de espécies de todas as réplicas amostrais. São criadas funções semelhantes para as distribuições Poisson e Binomial Negativa.

nLL.norm<-function(media,sd)
{
  -sum(dnorm(bentos$Sp,mean=media,sd=sd,log=T))
}

nLL.pois<-function(lambda)
{
  -sum(dpois(bentos$Sp,lambda=lambda,log=T))
}

nLL.nbinom<-function(mu,size)
{
  -sum(dnbinom(bentos$Sp,mu=mu,size=size,log=T))
}

PASSO 3:

A função mle2 do pacote bbmle é utilizada para ajustar os modelos Normal, Poisson e Binomial Negativo aos dados.

library(bbmle)

mle.norm<-mle2(nLL.norm,start=list(media=mean(bentos$Sp),sd=sd(bentos$Sp)))
mle.pois<-mle2(nLL.pois,start=list(lambda=mean(bentos$Sp)))
mle.nbinom<-mle2(nLL.nbinom,start=list(mu=mean(bentos$Sp),size=(mean(bentos$Sp)^2/(var(bentos$Sp)-mean(bentos$Sp)))))

PASSO 4:

O valor de log-verossimilhança negativa de cada ajuste é analisado utilizando as funções LogLik e AICtab.

logLik.norm<-logLik(mle.norm)
logLik.pois<-logLik(mle.pois)
logLik.nbinom<-logLik(mle.nbinom)
AICtab(mle.norm,mle.pois,mle.nbinom,base=TRUE,logLik=TRUE)

#           logLik AIC    dLogLik dAIC   df
#mle.nbinom -189.5  383.1   55.2     0.0 2 
#mle.norm   -193.0  390.0   51.7     6.9 2 
#mle.pois   -244.7  491.4    0.0   108.3 1 

Como pode ser observado, o modelo Binomial Negativo é o mais plausível, apresentando melhor ajuste aos dados de número de espécies.

Abundância

PASSO 5:

Os passos 2 ao 4 são repetidos, substituindo-se os dados de número de espécies pelos dados de abundância.

nLL.norm<-function(media,sd)
{
  -sum(dnorm(bentos$Abund,mean=media,sd=sd,log=T))
}

nLL.pois<-function(lambda)
{
  -sum(dpois(bentos$Abund,lambda=lambda,log=T))
}

nLL.nbinom<-function(mu,size)
{
  -sum(dnbinom(bentos$Abund,mu=mu,size=size,log=T))
}

mle.norm<-mle2(nLL.norm,start=list(media=mean(bentos$Abund),sd=sd(bentos$Abund)))
mle.pois<-mle2(nLL.pois,start=list(lambda=mean(bentos$Abund)))
mle.nbinom<-mle2(nLL.nbinom,start=list(mu=mean(bentos$Abund),size=(mean(bentos$Abund)^2/(var(bentos$Abund)-mean(bentos$Abund)))))

logLik.norm<-logLik(mle.norm)
logLik.pois<-logLik(mle.pois)
logLik.nbinom<-logLik(mle.nbinom)
AICtab(mle.norm,mle.pois,mle.nbinom,base=TRUE,logLik=TRUE)

#           logLik  AIC     dLogLik dAIC    df
#mle.nbinom  -268.4   540.8   886.9     0.0 2 
#mle.norm    -294.3   592.7   860.9    51.8 2 
#mle.pois   -1155.3  2312.5     0.0  1771.7 1

De forma semelhante ao observado anteriormente, o modelo Binomial Negativo é novamente o mais plausível, apresentando melhor ajuste aos dados de abundância.

Considerações Finais

Os modelos Gaussianos tem sido a base dos testes estatísticos mais aplicados nos estudos em ecologia, porém esse cenário está mudando em função do aumento do uso de outras abordagens Inferenciais. Em ecologia bentônica, o uso de modelos alternativos (e.g. Binomial Negativo) e de outras abordagens inferenciais ainda é incipiente, porém é necessária uma modificação desse cenário, como foi evidenciado no presente ensaio. Sugere-se que estudos futuros analisem se há discrepância nos resultados observados ao se utilizar Inferência Frequentista e Inferência por Verossimilhança em modelos com variáveis preditoras (relação causa-efeito).

Referências bibliográficas

Anderson, D.R.; Burnham, K.P.; Thompson, W.L. 2000. Null hypothesis testing: problems, prevalence, and an alternative. Journal of Wildlife Management 64: 912–923.

Andrew, N.L.; Mapstone, B.D. 1987. Sampling and the description of spatial pattern in marine ecology. Oceanography and Marine Biology: an Annual Review 25: 39-90.

Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos (http://cmq. esalq. usp. br/), Departamento de Ciências Florestais, Escola Superior de Agricultura” Luiz de Queiroz”, Universidade de São Paulo - Campus Piracicaba.

Bolker, B.M. 2008. Ecological Models and Data in R Princeton: Princeton University Press.

Boyd, S.E.; Barry, P.J.; Nicholson, M. 2006. A comparative study of a 0.1m2 and 0.25m2 Hamon grab for sampling macrobenthic fauna from offshore marine gravels. Journal of the Marine Biological Association of the United Kingdom, 86: 1315-1328.

Burnham, K.P.; Anderson, D.R. 2002. Model Selection and Multimodel Inference: A Practical-Theoretic Approach, 2nd ed. New York, Springer-Verlag.

Giles, H. 2008. Using Bayesian networks to examine consistent trends in fish farm benthic impact studies. Aquaculture 274(2-4): 181-195.

Gray, J.S. 1974. Animal-sediment relationship. Oceanography and Marine Biology: An Annual Review 12: 223-261.

Heip, C. 1975. On the significance of aggregation in some benthic marine invertebrates. Proceedings of the 9th European Marine Biology Symposium, pp. 527-538.

Morrisey, D.J.; Howitt, L.; Underwood, A.J.; Stark, J.S. 1992. Spatial variation in soft-sediment benthos. Marine Ecology Progress Series 81: 197-204.

Murray, S.N.; Ambrose, R.F.; Dethier, M.N. 2002. Methods for performing monitoring, impact, and ecological studies on rocky shores. MMS OCS Study 2001-070. Coastal Research Center, Marine Science Institute, University of California, Santa Barbara, California. MMS Cooperative Agreement Number 14-35 0001-30761, 217 p.

Penna, A; Fraga, S.; Battocchi1, C.; Casabianca, S.; Giacobbe, M.G.; Riobó, P.; Vernesi, C. 2010. A phylogeographical study of the toxic benthic dinoflagellate genus Ostreopsis Schmidt. Journal of Biogeography 37(5): 830-841.

Riddle, M.J. 1989. Precision of the mean and the design of benthos sampling programmes: caution advised. Marine Biology 103: 225-230.

Royall, R.M. 2007. The likelihood paradigm for statistical evidence. In: The nature of scientific evidence (eds. ML Taper and SR Lele), University of Chicago Press, pp 119–152.

Scheiner, S.M.; Willig, M.R. 2008. A general theory of ecology. Theoretical Ecology 1: 21-28.

Thrush, S.F.; Hewitt, J.E.; Funnell, G.A.; Cummings, V.J.; Ellis, J.; Schultz, D.; Talley, D.; Norkko, A. 2001. Fishing disturbance and marine biodiversity: the role of habitat structure in simple soft-sediment systems. Marine Ecology Progress Series 223: 277-286.

Underwood, A.J. 1997. Experiments in ecology: their logical design and interpretation using analysis of variance. Cambridge University Press, Cambridge.

Underwood, A.J.; Chapman, M.G.; Connell, S.D. 2000. Observations in ecology: you can’t make progress on processes without understanding the patterns. Journal of Experimental Marine Biology and Ecology 250: 97-115.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

SOUZA, G.B.G. 2014. Delineamento Amostral. In: Prado, P.I. & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

historico/2014/ensaios/barros.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1