Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:melito

A abordagem frequentista e da verossimilhança convergem para as mesmas conclusões?


  • Pós-graduação em Ecologia, Universidade de São Paulo (USP)
  • mel.melito@usp.br


A ecologia busca na elaboração e teste de hipóteses investigar, de forma geral, os processos estruturadores e mantenedores de populações, comunidades e ecossistemas. Para se testar alguma hipótese os ecólogos aplicam o método científico e utilizam de um ferramental estatístico para corroborar ou rejeitar a(s) hipótese(s) estatística testada(s). Para compreendermos as diferentes abordagens para os testes estatísticos precisamos esclarecer dois conceitos, o de espaço amostral e de variável aleatória. O espaço amostral é o conjunto de todos os resultados possíveis de um certo fenômeno aleatório (Azevedo 2009). Uma variável aleatória é um valor numérico real definido para cada evento de um espaço amostral, em que cada evento tem uma probabilidade associada de ocorrer (Azevedo 2009). Por exemplo, temos um dado não enviesada de 6 lados e o jogamos para cima e obtemos o número 2, esta é a nossa variável aleatória (pois seu sorteio foi um evento aleatório) e nosso espaço amostral são os lados do dado S={1,2,3,4,5,6}.

A estatística clássica, usualmente denominada frequentista, baseia-se no teste da hipótese nula (H0), em que diferenças nos valores observados são causados por variações aleatórias e não por um efeito da variável sendo testada (Gotelli e Ellison 2004). Usualmente a estatística frequentista paramétrica assume que todos os valores observados são independentes, apresentam distribuição normal (Guassiana), variância constante (homocedasticidade) e independente da média e que qualquer covariável (contínua) foi medida sem erro (Bolker 2008). Assim, ao testarmos a hipótese nula estatística e ela não ser rejeitada as diferenças entre as observações podem representar a variação natural entre os indivíduos, erros na coleta dos dados ou a variação devido a fatores que não foram controlados ou testados (Gotelli e Ellison 2004).

Definido os pressupostos o próximo passo é calcularmos a probabilidade de um evento ou algum outro evento extremo ocorrer dada uma específica hipótese nula (Bolker 2008). Tomemos um exemplo: imagine que testamos o efeito de um fertilizante no incremento na altura de plântulas. Obtivemos o acréscimo médio na altura de Ȳ=7,1 cm a partir de 20 plântulas com fertilizantes. O número de plântulas (20) representam amostras aleatórias provenientes de uma população infinitamente grande (o espaço amostral de Ȳ). Em outras palavras, o número de plântulas é a frequência média desse evento ocorrer ao longo do tempo em uma sequência de repetidos experimentos (Bolker 2008). A partir dessa amostra aleatória proveniente de um espaço amostral teórico calcula-se a estatística de interesse (e.g. o F-ratio de uma ANOVA), determina-se o intervalo de confiança em torno do valor da estatística calculada e retorna-se o valor de probabilidade da estatística observada ocorrer pelo acaso (valor de p). Como o valor de p está baseado na probabilidade de uma série de eventos que não ocorreram (Bolker 2008), essencialmente é o “o espaço amostral que estabelece o domínio de inferência a partir do qual nós podemos desenhar conclusões” (Gotelli e Elison 2004), ou seja, a força de evidência na estatística frequentista está contida no espaço amostral.

No paradigma da verossimilhança a evidência está contida nos dados e a força de evidência nas hipóteses concorrentes. Através da estimativa da máxima verossimilhança (MLE) estabelecemos o conjunto de parâmetros que fazem os dados observados serem os mais plausíveis de terem ocorrido (Bolker 2008). Os parâmetros são definidos de acordo com a distribuição usada e eles funcionam como uma calça jeans que tentamos vestir. Se o jeans A se ajusta melhor ao corpo em relação ao jeans B, é uma força de evidência favorecendo a hipótese de melhor ajuste da jeans A em relação a jeans B. Essa é a Lei da Verossimilhança que afirma que a observação da variável aleatória X=x é uma evidência que favorece a hipótese A sobre a hipótese B se a probabilidade pA(x) for maior que a probabilidade pB(x) (Batista 2009). Uma das implicações da Lei de Verossimilhança é que a Razão de Verossimilhança (pA(x)/pB(x)) mede a força de evidência em favor da hipótese A sobre a hipótese B (Batista 2009). Também podemos utilizar a Lei da Verossimilhança representando nossas hipóteses não como probabilidades pA(x) ou pB(x) mas pela função de densidade fX(x;θ), em que θ são os parâmetros (e.g. a média e o desvio padrão de uma distribuição gaussiana) que controlam o comportamento de X. Com isso, a partir das observações (X=x) estimamos os parâmetros do modelo (θ). Designamos assim uma função de verossimilhança em que o elemento constante é a observação e o que varia são os parâmetros. Desta forma, pelo paradigma da verossimilhança não é necessário a definição do espaço amostral dos dados, apenas precisamos especificar os dados observados e um modelo para se fazer a inferência estatística (Batista 2009).


Contrastando a abordagem frequentista com a de verossimilhança

Os dados

Para analisar como as diferentes abordagens, a frequentista e a de seleção de modelos por verossimilhança, resultam em distintos resultados utilizarei dados coletados durante meu mestrado. Esses dados apresentam alguns problemas de delineamento amostral e podem ser um bom exemplo de como as duas abordagens podem lidar com isso. A pergunta inicial do estudo era avaliar o efeito da fragmentação florestal sobre a predação de sementes por vertebrados da palmeira jussara (Euterpe edulis). Para esta pergunta assumiu-se que a fragmentação florestal e a perda de habitat levam ao turnover de espécies da fauna com aumento dos granívoros e, assim, aumento a taxa de predação de sementes.

Em 4 fragmentos florestais de distintos tamanhos (de 210 a ~12300 ha) foram distribuídas ao longo de trilhas preexistentes (n=2) ou recentemente abertas (n=2) vinte blocos experimentais. Os blocos foram alocados sistematicamente a cada 50 m para assegurar independência das amostras e paralelamente a trilha, com uma distância de cerca de 10 m da mesma. Cada bloco era constituído de um tratamento de exclusão de vertebrados e o controle, separados por ~1m. O tratamento de exclusão consistia de uma gaiola (10X10X20 cm) coberta com uma malha de alumínio de 1.5 cm de abertura impedindo a passagem de vertebrados. Em cada tratamento foi depositado 6 sementes de E. edulis. Mensalmente as sementes eram verificadas em busca de vestígios de predação por vertebrados ou invertebrados, sendo de fácil diferenciação visual as duas formas de predação da semente. As sementes removidas também foram consideradas como predadas. Para facilitação das análises a seguir o fator temporal foi desconsiderado.

Em ambas as análises a variável resposta foi o total de sementes predadas por estação experimental para cada tratamento (controle e exclusão de vertebrados). A variável preditora foi o tratamento, tendo sido controlado ou não o efeito da área (fragmento florestal).

Frequentista: aceitando a distribuição normal e a homocedasticidade dos resíduos

O primeiro passo na análise foi fazer a análise exploratória dos dados e verificar a normalidade dos dados (fig. 1). Como o pressuposto de normalidade foi atendido não houve a necessidade de transformação dos dados e, com isso, os dois modelos foram testados pela abordagem frequentista paramétrica. No modelo 1, foi realizada uma ANOVA para testar se o tratamento de exclusão de vertebrados afetaria o número de sementes de jussara predadas. Os resíduos foram visualmente inspecionados e considerados homocedásticos (fig. 1C).


500 Figura 1. (A) Boxplot mostrado a distribuição do número de sementes predadas no tratamento de exclusão de vertebrados e no controle. (B) Número médio (± desvio padrão) de sementes predadas por tratamento (exclusão e controle) em cada fragmento florestal (F1, F2, F3, F4).


No modelo 2, consideramos que cada unidade amostral neste estudo não é independente, pois elas estão condicionadas ao fragmento florestal ao qual foram amostradas, ou seja, são amostras correlacionadas. No modelo 2 então buscamos controlar o efeito da área onde os blocos experimentais foram alocadas. Com isso, ajustei uma regressão linear entre número de sementes predadas e tamanho do fragmento florestal. A partir dos valores dos resíduos da regressão linear, em que o efeito do tamanho do fragmento foi descontado, foi ajustada uma ANOVA entre os resíduos do número de sementes predadas com a variável preditora do tratamento de exclusão de vertebrados. Para este modelo os resíduos também apresentaram homocedasticidade (fig.1D).


 500 Figura 2. (A) Histograma da frequência do número de sementes predadas; (B) Q-Q plot mostrando a normalidade dos dados (Teste de Shapiro-wilk W= 0.8981, p<0.001); (C) inspeção dos resíduos do modelo 1 e (D) inspeção dos resíduos do modelo 2.


A exclusão dos vertebrados afetou o número de sementes predadas, tanto no modelo em que não foi controlado o tamanho do fragmento florestal (F: 17,20, GL:1, p<0,001) como no modelo em que houve o controle do tamanho do fragmento (F: 18,36, GL:1, p<0,001). Devido à análise utilizada (ANOVA), não podemos utilizar nenhum critério de desempate entre as duas análises (e.g. o r² de uma regressão linear).

Verossimilhança: selecionando modelos

Pela abordagem da verossimilhança, o primeiro passo foi determinar o modelo de distribuição de probabilidades. Como nossa variável resposta é discreta e corresponde ao número de eventos observado numa unidade do espaço e os eventos são independentes, utilizei a distribuição de Poisson (Bolker 2008). Contudo, como verifiquei que os dados são normais também ajustei os modelos utilizando a distribuição Gaussiana.

Com isso, 3 modelos foram ajustados tanto para a distribuição Poisson como a Gaussiana. O modelo I considera que não há efeito do tratamento de exclusão de sementes no número de sementes predadas, sendo análogo à hipótese nula. Os modelo II e III consideram o efeito do tratamento de exclusão no número de sementes predadas, entretanto o modelo III trata o efeito do tamanho do fragmento como variável aleatória. Os efeitos aleatórios lidam com a correlação das unidades amostrais da área de uma forma mais elegante e robusta do que a abordagem utilizada no modelo frequentista anterior (modelo 2). De forma simples e geral, modelos com efeitos aleatórios estimam o desvio padrão da variação em um nível específico (tamanho do fragmento neste caso) sendo estes os parâmetros da variável aleatória (Bolker et al. 2008).

Utilizei o critério de informação de Akaike (AIC) para verificar qual o modelo mais plausível. Para os dados analisados, os modelos II e III com distribuição Gaussiana foram considerados igualmente plausíveis (Tab. 1).

Tabela 1. Seleção de modelos utilizando o Critério de Informação de Akaike (AIC).

ModelosdAICGL
Modelo II-gaus 0,0 3
Modelo III-gaus 0,0 3
Modelo I-gaus 14,5 2
Modelo II-pois 21.0 2
Modelo III-pois 21.0 2
Modelo I-pois 29.8 1

Conclusões

De certa forma as duas abordagens convergiram para o mesmo resultado. Na frequentista tanto o modelo do efeito da exclusão de predadores sem controlar o efeito da área como o em que controlamos a área foram significativos. Os modelos análogos testados pelo paradigma da verossimilhança foram considerados igualmente plausíveis. Isso ocorreu porque a distribuição gaussiana foi a que melhor se ajustou aos dados, sendo a mesma distribuição utilizada no teste frequentista. O empate entre os modelos com e sem efeito aleatório indicam que os dados não contem evidência suficiente para se selecionar o melhor modelo. Possivelmente, o efeito do tratamento de exclusão dos vertebrados seja muito forte sobrepujando qualquer efeito do tamanho do fragmento florestal.

Não poderíamos chegar a essa conclusão pela abordagem frequentista porque ela não nos permite selecionar um modelo em relação ao outro, pois essencialmente ela testa a hipótese nula. O paradigma frequentista também não nos permite determinar de forma simples e objetiva se os modelos são igualmente plausíveis. Assim, quando temos várias hipóteses acerca do comportamento de uma observação a abordagem por verossimilhança e seleção de modelos é a melhor forma de inferência estatística.


Importância para minha pesquisa: mudança de paradigma!

Eu diria que até algumas semanas atrás meu mundo era normal… Descobrir um mundo novo de distribuições que vão muito além da distribuição gaussiana abre um leque de possibilidades. Creio que nos leva a um aprofundamento acerca do comportamento dos dados muito maior como também a uma visão mais crítica e profunda das hipóteses estatísticas (e teóricas) a serem testadas. Como trabalho atualmente com estimativas de biomassa acho libertador a possibilidade de formular a hipótese de uma relação não-linear entre altura e DAP, por exemplo. Começar a compreender que o mundo não precisa ser normal realmente foi uma das grandes mudanças de paradigma que a verossimilhança me possibilitou.

Apesar de ser possível extrair um valo de p de modelos lineares generalizados (GLMs) a virtude de se fazer seleção de modelos não é possível pela abordagem frequentista. Eu acredito que o mundo ecológico é multivariado e, especificamente, meu estudo está baseado no teste do efeito de várias variáveis preditoras sobre algumas variáveis resposta. Assim, esse primeiro contato com o paradigma da verossimilhança me abre outro leque de possibilidades que é a seleção de modelos nos libertando do trivial teste da hipótese nula.

Por fim, compreender que no paradigma da verossimilhança o poder de inferência está nos dados e não mais nos eventos que não foram amostrados me parece uma abordagem mais “fiel” às observações. Espero poder me aprofundar melhor nesse novo paradigma para dirigir com segurança nessa estrada da verossimilhança e da seleção de modelos.

Referências

  • Azevedo Filho, Adriano. 2009. Introdução à Estatística Matemática Aplicada. Vol I - Fundamentos.
  • Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança.
  • Bolker, B. 2008. Ecological Models and Data in R. Princeton University Press.
  • Bolker, B; Brooks, M.; Clark, C.; Geange, S.; Poulsen, J.; Stevens, M.H.; White, J.S. 2008. Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology and Evolution, 24(3): 127-135
  • Gotelli, N; Ellison, A. 2004. A primer of ecological statistics. Sinauer Associates Inc.
historico/2014/ensaios/melito.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1