historico:2014:ensaios:melito
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
historico:2014:ensaios:melito [2014/10/31 18:41] – mel.melito | historico:2014:ensaios:melito [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ====== A abordagem frequentista e da verossimilhança convergem para as mesmas conclusões? | ||
+ | \\ | ||
+ | |||
+ | * Pós-graduação em Ecologia, Universidade de São Paulo (USP) | ||
+ | * mel.melito@usp.br | ||
+ | |||
+ | \\ | ||
+ | A ecologia busca na elaboração e teste de hipóteses investigar, de forma geral, os processos estruturadores e mantenedores de populações, | ||
+ | |||
+ | A estatística clássica, usualmente denominada frequentista, | ||
+ | |||
+ | Definido os pressupostos o próximo passo é calcularmos a probabilidade de um evento ou algum outro evento extremo ocorrer dada uma específica hipótese nula (Bolker 2008). Tomemos um exemplo: imagine que testamos o efeito de um fertilizante no incremento na altura de plântulas. Obtivemos o acréscimo médio na altura de Ȳ=7,1 cm a partir de 20 plântulas com fertilizantes. O número de plântulas (20) representam amostras aleatórias provenientes de uma população infinitamente grande (o espaço amostral de Ȳ). Em outras palavras, o número de plântulas é a frequência média desse evento ocorrer ao longo do tempo em uma sequência de repetidos experimentos (Bolker 2008). A partir dessa amostra aleatória proveniente de um espaço amostral teórico calcula-se a estatística de interesse (e.g. o F-ratio de uma ANOVA), determina-se o intervalo de confiança em torno do valor da estatística calculada e retorna-se o valor de probabilidade da estatística observada ocorrer pelo acaso (valor de p). Como o valor de p está baseado na probabilidade de uma série de eventos que não ocorreram (Bolker 2008), essencialmente é o “o espaço amostral que estabelece o domínio de inferência a partir do qual nós podemos desenhar conclusões” (Gotelli e Elison 2004), ou seja, a força de evidência na estatística frequentista está contida no espaço amostral. | ||
+ | |||
+ | No paradigma da verossimilhança a evidência está contida nos dados e a força de evidência nas hipóteses concorrentes. Através da estimativa da máxima verossimilhança (MLE) estabelecemos o conjunto de parâmetros que fazem os dados observados serem os mais plausíveis de terem ocorrido (Bolker 2008). Os parâmetros são definidos de acordo com a distribuição usada e eles funcionam como uma calça jeans que tentamos vestir. Se o jeans A se ajusta melhor ao corpo em relação ao jeans B, é uma força de evidência favorecendo a hipótese de melhor ajuste da jeans A em relação a jeans B. Essa é a Lei da Verossimilhança que afirma que a observação da variável aleatória X=//x// é uma evidência que favorece a hipótese A sobre a hipótese B se a probabilidade //pA(x)// for maior que a probabilidade //pB(x)// (Batista 2009). Uma das implicações da Lei de Verossimilhança é que a Razão de Verossimilhança (// | ||
+ | |||
+ | \\ | ||
+ | ==== Contrastando a abordagem frequentista com a de verossimilhança ==== | ||
+ | |||
+ | ===Os dados=== | ||
+ | |||
+ | Para analisar como as diferentes abordagens, a frequentista e a de seleção de modelos por verossimilhança, | ||
+ | |||
+ | Em 4 fragmentos florestais de distintos tamanhos (de 210 a ~12300 ha) foram distribuídas ao longo de trilhas preexistentes (n=2) ou recentemente abertas (n=2) vinte blocos experimentais. Os blocos foram alocados sistematicamente a cada 50 m para assegurar independência das amostras e paralelamente a trilha, com uma distância de cerca de 10 m da mesma. Cada bloco era constituído de um tratamento de exclusão de vertebrados e o controle, separados por ~1m. O tratamento de exclusão consistia de uma gaiola (10X10X20 cm) coberta com uma malha de alumínio de 1.5 cm de abertura impedindo a passagem de vertebrados. Em cada tratamento foi depositado 6 sementes de E. edulis. Mensalmente as sementes eram verificadas em busca de vestígios de predação por vertebrados ou invertebrados, | ||
+ | |||
+ | Em ambas as análises a variável resposta foi o total de sementes predadas por estação experimental para cada tratamento (controle e exclusão de vertebrados). A variável preditora foi o tratamento, tendo sido controlado ou não o efeito da área (fragmento florestal). | ||
+ | |||
+ | |||
+ | === Frequentista: | ||
+ | |||
+ | O primeiro passo na análise foi fazer a análise exploratória dos dados e verificar a normalidade dos dados (fig. 1). Como o pressuposto de normalidade foi atendido não houve a necessidade de transformação dos dados e, com isso, os dois modelos foram testados pela abordagem frequentista paramétrica. No modelo 1, foi realizada uma ANOVA para testar se o tratamento de exclusão de vertebrados afetaria o número de sementes de jussara predadas. Os resíduos foram visualmente inspecionados e considerados homocedásticos (fig. 1C). | ||
+ | |||
+ | \\ | ||
+ | {{ : | ||
+ | Figura 1. (A) Boxplot mostrado a distribuição do número de sementes predadas no tratamento de exclusão de vertebrados e no controle. (B) Número médio (± desvio padrão) de sementes predadas por tratamento (exclusão e controle) em cada fragmento florestal (F1, F2, F3, F4). | ||
+ | |||
+ | \\ | ||
+ | No modelo 2, consideramos que cada unidade amostral neste estudo não é independente, | ||
+ | |||
+ | \\ | ||
+ | {{ : | ||
+ | Figura 2. (A) Histograma da frequência do número de sementes predadas; (B) Q-Q plot mostrando a normalidade dos dados (Teste de Shapiro-wilk W= 0.8981, p< | ||
+ | |||
+ | \\ | ||
+ | A exclusão dos vertebrados afetou o número de sementes predadas, tanto no modelo em que não foi controlado o tamanho do fragmento florestal (F: 17,20, GL:1, p<0,001) como no modelo em que houve o controle do tamanho do fragmento (F: 18,36, GL:1, p< | ||
+ | |||
+ | |||
+ | === Verossimilhança: | ||
+ | |||
+ | Pela abordagem da verossimilhança, | ||
+ | |||
+ | Com isso, 3 modelos foram ajustados tanto para a distribuição Poisson como a Gaussiana. O modelo I considera que não há efeito do tratamento de exclusão de sementes no número de sementes predadas, sendo análogo à hipótese nula. Os modelo II e III consideram o efeito do tratamento de exclusão no número de sementes predadas, entretanto o modelo III trata o efeito do tamanho do fragmento como variável aleatória. Os efeitos aleatórios lidam com a correlação das unidades amostrais da área de uma forma mais elegante e robusta do que a abordagem utilizada no modelo frequentista anterior (modelo 2). De forma simples e geral, modelos com efeitos aleatórios estimam o desvio padrão da variação em um nível específico (tamanho do fragmento neste caso) sendo estes os parâmetros da variável aleatória (Bolker //et al//. 2008). | ||
+ | |||
+ | Utilizei o critério de informação de Akaike (AIC) para verificar qual o modelo mais plausível. Para os dados analisados, os modelos II e III com distribuição Gaussiana foram considerados igualmente plausíveis (Tab. 1). | ||
+ | |||
+ | |||
+ | Tabela 1. Seleção de modelos utilizando o Critério de Informação de Akaike (AIC). | ||
+ | |**Modelos**|**dAIC**|**GL**| | ||
+ | |Modelo II-gaus| 0,0| 3| | ||
+ | |Modelo III-gaus| 0,0| 3| | ||
+ | |Modelo I-gaus| 14, | ||
+ | |Modelo II-pois| 21.0| 2| | ||
+ | |Modelo III-pois| 21.0| 2| | ||
+ | |Modelo I-pois| 29.8| 1| | ||
+ | |||
+ | |||
+ | === Conclusões === | ||
+ | |||
+ | De certa forma as duas abordagens convergiram para o mesmo resultado. Na frequentista tanto o modelo do efeito da exclusão de predadores sem controlar o efeito da área como o em que controlamos a área foram significativos. Os modelos análogos testados pelo paradigma da verossimilhança foram considerados igualmente plausíveis. Isso ocorreu porque a distribuição gaussiana foi a que melhor se ajustou aos dados, sendo a mesma distribuição utilizada no teste frequentista. O empate entre os modelos com e sem efeito aleatório indicam que os dados não contem evidência suficiente para se selecionar o melhor modelo. Possivelmente, | ||
+ | |||
+ | Não poderíamos chegar a essa conclusão pela abordagem frequentista porque ela não nos permite selecionar um modelo em relação ao outro, pois essencialmente ela testa a hipótese nula. O paradigma frequentista também não nos permite determinar de forma simples e objetiva se os modelos são igualmente plausíveis. Assim, quando temos várias hipóteses acerca do comportamento de uma observação a abordagem por verossimilhança e seleção de modelos é a melhor forma de inferência estatística. | ||
+ | |||
+ | \\ | ||
+ | ==== Importância para minha pesquisa: mudança de paradigma! ==== | ||
+ | |||
+ | Eu diria que até algumas semanas atrás meu mundo era normal... Descobrir um mundo novo de distribuições que vão muito além da distribuição gaussiana abre um leque de possibilidades. Creio que nos leva a um aprofundamento acerca do comportamento dos dados muito maior como também a uma visão mais crítica e profunda das hipóteses estatísticas (e teóricas) a serem testadas. Como trabalho atualmente com estimativas de biomassa acho libertador a possibilidade de formular a hipótese de uma relação não-linear entre altura e DAP, por exemplo. Começar a compreender que o mundo não precisa ser normal realmente foi uma das grandes mudanças de paradigma que a verossimilhança me possibilitou. | ||
+ | |||
+ | Apesar de ser possível extrair um valo de p de modelos lineares generalizados (GLMs) a virtude de se fazer seleção de modelos não é possível pela abordagem frequentista. Eu acredito que o mundo ecológico é multivariado e, especificamente, | ||
+ | |||
+ | Por fim, compreender que no paradigma da verossimilhança o poder de inferência está nos dados e não mais nos eventos que não foram amostrados me parece uma abordagem mais “fiel” às observações. Espero poder me aprofundar melhor nesse novo paradigma para dirigir com segurança nessa estrada da verossimilhança e da seleção de modelos. | ||
+ | |||
+ | ==== Referências ==== | ||
+ | |||
+ | * Azevedo Filho, Adriano. 2009. Introdução à Estatística Matemática Aplicada. Vol I - Fundamentos. | ||
+ | * Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. | ||
+ | * Bolker, B. 2008. Ecological Models and Data in R. Princeton University Press. | ||
+ | * Bolker, B; Brooks, M.; Clark, C.; Geange, S.; Poulsen, J.; Stevens, M.H.; White, J.S. 2008. Generalized linear mixed models: a practical guide for ecology and evolution. Trends in Ecology and Evolution, 24(3): 127-135 | ||
+ | * Gotelli, N; Ellison, A. 2004. A primer of ecological statistics. Sinauer Associates Inc. | ||
+ | |||
+ | |||