historico:2014:ensaios:palaoro
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
historico:2014:ensaios:palaoro [2014/10/23 17:18] – alexandre.palaoro | historico:2014:ensaios:palaoro [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ====== O que a seleção de modelos e as ideias de Thomas Chamberlin têm em comum? ====== | ||
+ | === Alexandre V. Palaoro === | ||
+ | * Pós-Graduação em Biodiversidade Animal, Universidade Federal de Santa Maria | ||
+ | * alexandre.palaoro@gmail.com | ||
+ | ===== Motivação ===== | ||
+ | |||
+ | Pode-se dizer que a seleção de modelos ajustados por máxima verossimilhança é a forma de análise de dados que Thomas Chamberlin [1] tinha em mente quando escreveu sobre o método de hipóteses múltiplas. Nos vários artigos, Chamberlin discorre sobre como confrontar múltiplas hipóteses auxiliaram no processo de avanço de determinadas áreas da ciência, como, por exemplo, a biologia molecular e a física, e ao mesmo tempo evitam que pesquisadores tenham " | ||
+ | |||
+ | O tipo de análise mais frequente na biologia, contudo, aparentemente não se utiliza da ideia de Chamberlin. A estatística frequentista testa apenas uma hipótese (i.e. a hipótese nula), a qual não é a hipótese de interesse, enquanto a hipótese de interesse (i.e. a hipótese alternativa) só é assumida como verdade caso a nula seja refutada. Assim, além de restringir o número de hipóteses testadas para duas hipóteses similares, o cientista também não testa especificamente o fenômeno/ | ||
+ | |||
+ | ===== Exemplo ===== | ||
+ | |||
+ | Para esse exemplo, utilizarei dados do início do meu doutorado com confrontos agonísticos entre pares de machos de uma espécie de crustáceo decápodo do Sul do Brasil (//Aegla longirostri// | ||
+ | |||
+ | ===== Análise frequentista ===== | ||
+ | |||
+ | Utilizaremos uma regressão múltipla (ou uma regressão linear simples com múltiplas preditoras) para testar quais variáveis influenciam significativamente o modelo. Para selecionar as variáveis de interesse, pesquisadores normalmente utilizam algoritmos de seleção de variáveis (//stepwise modelling// | ||
+ | |||
+ | Aqui, utilizaremos a estratégia utilizada durante todo o livro do Crawley [3]: ajustar um modelo saturado e ir retirando primeiro as interações e depois as variáveis preditoras. No código abaixo demonstro como a análise torna-se subjetiva a partir de determinando ponto deixando alguns pontos comentados (comentários vem após o caractere # | ||
+ | |||
+ | < | ||
+ | > rhp< | ||
+ | > head(rhp) | ||
+ | | ||
+ | 1 0.64 0.294391213 | ||
+ | 2 0.61 -0.335345875 -0.3164279 -0.018204509 | ||
+ | 3 -0.36 0.003154943 -0.2078458 | ||
+ | 4 -0.03 -0.429737088 -0.1214872 | ||
+ | 5 -0.39 -0.376582145 | ||
+ | 6 1.34 -1.721743398 -0.6669072 -0.042343508 | ||
+ | > model.full< | ||
+ | |||
+ | > summary(model.full) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc * residcp * residap * residicf, family = binomial, | ||
+ | data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | Min | ||
+ | -2.5071 | ||
+ | |||
+ | Coefficients: | ||
+ | | ||
+ | (Intercept) | ||
+ | cc | ||
+ | residcp | ||
+ | residap | ||
+ | residicf | ||
+ | cc: | ||
+ | cc: | ||
+ | residcp: | ||
+ | cc: | ||
+ | residcp: | ||
+ | residap: | ||
+ | cc: | ||
+ | cc: | ||
+ | cc: | ||
+ | residcp: | ||
+ | cc: | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 32.306 | ||
+ | AIC: 64.306 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 9 | ||
+ | |||
+ | > model2< | ||
+ | > summary(model2) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residcp + residap + residicf + cc:residcp + | ||
+ | cc:residap + residcp: | ||
+ | residap: | ||
+ | cc: | ||
+ | data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | | ||
+ | -2.15667 | ||
+ | |||
+ | Coefficients: | ||
+ | | ||
+ | (Intercept) | ||
+ | cc 2.720e+00 | ||
+ | residcp | ||
+ | residap | ||
+ | residicf | ||
+ | cc: | ||
+ | cc: | ||
+ | residcp: | ||
+ | cc: | ||
+ | residcp: | ||
+ | residap: | ||
+ | cc: | ||
+ | cc: | ||
+ | cc: | ||
+ | residcp: | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 35.415 | ||
+ | AIC: 65.415 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 8 | ||
+ | |||
+ | > model3< | ||
+ | > model3< | ||
+ | > model3< | ||
+ | > model3< | ||
+ | > summary(model3) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residcp + residap + residicf + cc:residcp + | ||
+ | cc:residap + residcp: | ||
+ | residap: | ||
+ | |||
+ | Deviance Residuals: | ||
+ | | ||
+ | -2.08128 | ||
+ | |||
+ | Coefficients: | ||
+ | Estimate Std. Error z value Pr(> | ||
+ | (Intercept) | ||
+ | cc | ||
+ | residcp | ||
+ | residap | ||
+ | residicf | ||
+ | cc: | ||
+ | cc: | ||
+ | residcp: | ||
+ | cc: | ||
+ | residcp: | ||
+ | residap: | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 39.889 | ||
+ | AIC: 61.889 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 8 | ||
+ | |||
+ | > model4< | ||
+ | > model4< | ||
+ | > model4< | ||
+ | > model4< | ||
+ | > model4< | ||
+ | > model4< | ||
+ | > summary(model4) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residcp + residap + residicf, family = binomial, | ||
+ | data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | | ||
+ | -1.96317 | ||
+ | |||
+ | Coefficients: | ||
+ | | ||
+ | (Intercept) | ||
+ | cc 1.10533 | ||
+ | residcp | ||
+ | residap | ||
+ | residicf | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 48.522 | ||
+ | AIC: 58.522 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 6 | ||
+ | |||
+ | > model5.a< | ||
+ | ##passo é retirar as variáveis preditoras. Porém, com qual começar? Nesse exemplo, retirei as três variáveis uma de | ||
+ | ##cada vez para testar se ocorria alguma diferença | ||
+ | > summary(model5.a) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residap + residicf, family = binomial, | ||
+ | data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | | ||
+ | -1.96280 | ||
+ | |||
+ | Coefficients: | ||
+ | | ||
+ | (Intercept) | ||
+ | cc 1.19708 | ||
+ | residap | ||
+ | residicf | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 48.673 | ||
+ | AIC: 56.673 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 6 | ||
+ | |||
+ | > model5.b< | ||
+ | > summary(model5.b) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residcp + residap, family = binomial, | ||
+ | data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | | ||
+ | -1.80431 | ||
+ | |||
+ | Coefficients: | ||
+ | Estimate Std. Error z value Pr(> | ||
+ | (Intercept) | ||
+ | cc | ||
+ | residcp | ||
+ | residap | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 49.672 | ||
+ | AIC: 57.672 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 6 | ||
+ | |||
+ | > model5.c< | ||
+ | > summary(model5.c) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residcp + residicf, family = binomial, | ||
+ | data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | Min | ||
+ | -1.5592 | ||
+ | |||
+ | Coefficients: | ||
+ | Estimate Std. Error z value Pr(> | ||
+ | (Intercept) | ||
+ | cc | ||
+ | residcp | ||
+ | residicf | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 52.097 | ||
+ | AIC: 60.097 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 6 | ||
+ | |||
+ | > model6.a< | ||
+ | ##próximo da significância (isso é algo muito subjetivo...) | ||
+ | > summary(model6.a) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residap, family = binomial, data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | | ||
+ | -1.76831 | ||
+ | |||
+ | Coefficients: | ||
+ | Estimate Std. Error z value Pr(> | ||
+ | (Intercept) | ||
+ | cc | ||
+ | residap | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 49.809 | ||
+ | AIC: 55.809 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 6 | ||
+ | |||
+ | > model6.b< | ||
+ | > summary(model6.b) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc + residcp, family = binomial, data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | Min | ||
+ | -1.5803 | ||
+ | |||
+ | Coefficients: | ||
+ | Estimate Std. Error z value Pr(> | ||
+ | (Intercept) | ||
+ | cc 1.0341 | ||
+ | residcp | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 52.393 | ||
+ | AIC: 58.393 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 6 | ||
+ | > model7< | ||
+ | > summary(model7) | ||
+ | |||
+ | Call: | ||
+ | glm(formula = winner ~ cc, family = binomial, data = rhp) | ||
+ | |||
+ | Deviance Residuals: | ||
+ | Min | ||
+ | -1.5413 | ||
+ | |||
+ | Coefficients: | ||
+ | Estimate Std. Error z value Pr(> | ||
+ | (Intercept) | ||
+ | cc 0.8691 | ||
+ | --- | ||
+ | Signif. codes: | ||
+ | |||
+ | (Dispersion parameter for binomial family taken to be 1) | ||
+ | |||
+ | Null deviance: 66.208 | ||
+ | Residual deviance: 52.874 | ||
+ | AIC: 56.874 | ||
+ | |||
+ | Number of Fisher Scoring iterations: 5 | ||
+ | |||
+ | </ | ||
+ | |||
+ | Foram 10 passos para alcançar o modelo com melhor ajuste. Ou seja, inflou a probabilidade de erro tipo I em 10 vezes. Além disso, quando todas as interações foram retiradas, a eleminação de variáveis preditoras torna-se subjetiva, pois não existe como discriminar as variáveis mais das menos importantes. No fim, o modelo mínimo indica que apenas o tamanho corporal influencia significativamente a probabilidade de vitória (i.e. quanto maior um indivíduo em relação ao outro, maior é a sua chance de vencer). | ||
+ | |||
+ | ===== Seleção de Modelos com AIC ===== | ||
+ | |||
+ | A seleção de modelos utilizando o AIC é uma forma mais intuitiva, e com menos vieses, que a seleção de modelos demonstrada acima. Primeiramente, | ||
+ | |||
+ | Modelo 1 - Apenas tamanho corporal [7];\\ | ||
+ | Modelo 2 - Apenas comprimento do armamento [7];\\ | ||
+ | Modelo 3 - Apenas altura do armamento [7];\\ | ||
+ | Modelo 4 - Apenas desempenho do armamento [7];\\ | ||
+ | Modelo 5 a 7 - Tamanho corporal com adição de cada variável do armamento separadamente [8];\\ | ||
+ | Modelo 8 - Apenas as variáveis do armamento [8];\\ | ||
+ | Modelo 9 - Todas as variáveis [8].\\ | ||
+ | |||
+ | Para ranquearmos os modelos, calculamos o AIC (-2*log máxima verossimilhança + 2*número de parâmetros do modelo). O modelo com o menor valor de AIC é considerado o melhor, e então, subtraímos o valor do AIC de um modelo dos modelos com o valor do AIC do melhor modelo, obtendo assim uma medida relativa entre os modelos (i.e. ΔAIC; [2]). Esse valor relativo é importante por dois motivos: 1. Ele nos mostra que a nossa inferência pode ser feita apenas para os modelos que comparamos, mostrando-nos que o AIC é uma medida relativa entre as hipóteses que elencamos, e não todas as hipóteses que podem existir [9]; 2. Ele nos mostra a diferença no poder de evidência entre modelos. Contudo, precisamos saber quando um modelo tem poder de evidência suficiente para descartamos o(s) outro(s). Convencionou-se que um ΔAIC maior que dois é o suficiente para descartar o modelo, pois um valor maior que dois significa que o modelo é 7,3 vezes mais provável que outro [9]. | ||
+ | |||
+ | Nesse exemplo utilizarei o AICc, e não o AIC. O AICc possui uma correção para amostras pequenas, as quais não irei detalhar em profundidade aqui, pois não é o escopo do texto. Para mais informações, | ||
+ | < | ||
+ | |||
+ | > modelo1< | ||
+ | > modelo2< | ||
+ | > modelo3< | ||
+ | > modelo4< | ||
+ | > modelo5< | ||
+ | > modelo6< | ||
+ | > modelo7< | ||
+ | > modelo8< | ||
+ | > modelo9< | ||
+ | > AICctab(modelo1, | ||
+ | + modelo9, | ||
+ | logLik AICc dLogLik dAICc df weight | ||
+ | modelo9 -24.3 | ||
+ | modelo6 -24.9 | ||
+ | modelo7 -26.1 | ||
+ | modelo5 -26.2 | ||
+ | modelo1 -26.4 | ||
+ | modelo8 -30.2 | ||
+ | modelo2 -32.7 | ||
+ | modelo3 -32.8 | ||
+ | modelo4 -33.1 | ||
+ | |||
+ | </ | ||
+ | |||
+ | |||
+ | | ^Log Verossimilhança Negativa | ||
+ | ^Modelo 9 | -24.3 | ||
+ | ^Modelo 6 | -24.9 | 49.8 | | ||
+ | ^Modelo 7 | -26.1 | 52.2 | | ||
+ | ^Modelo 5 | -26.2 | 52.4 | | ||
+ | ^Modelo 1 | -26.4 | 52.9 | | ||
+ | ^Modelo 8 | -30.2 | 60.5 | 12.0 | ||
+ | ^Modelo 2 | -32.7 | 65.4 | 16.8 | ||
+ | ^Modelo 3 | -32.8 | 65.7 | 17.2 | ||
+ | ^Modelo 4 | -33.1 | 66.2 | 17.7 | ||
+ | |||
+ | A seleção de modelos nos indica que o modelo saturado e o modelo com tamanho corporal e altura do armamento são os melhores. Porém, não há força de evidência para dizer qual desses dois é o melhor. | ||
+ | |||
+ | ===== Conclusão ===== | ||
+ | |||
+ | Os resultados das duas análises são bem distintos. Com a análise frequentista, | ||
+ | |||
+ | A análise frequentista se mostrou muito subjetiva, pois a retirada de termos dos modelos é extremamente subjetiva. Enquanto que a análise de AIC é mais intuitiva, e podemos utilizar informações prévias da literatura para diminuirmos o número de modelos, além de testar todas as hipóteses simultaneamente. No fim, a ideia de Chamberlin de elencar múltiplas hipóteses e compará-las diretamente se mostra mais efetiva do que a análise frequentista, | ||
+ | |||
+ | ===== Referências bibliográficas ===== | ||
+ | |||
+ | [1] Chamberlin, T. C. (1890). The method of multiple working hypotheses. Science, 15, 92-96. | ||
+ | |||
+ | [2] Burnham, K. P. & Anderson, D. R. (2002). Model selection and multimodel inference: a practical information-theoretic approach, 2nd ed. Springer, New York. | ||
+ | |||
+ | [3] Crawley, M. J. (2013). The R book, 2nd ed. Wiley, Chichester. | ||
+ | |||
+ | [4] Wilkinson, L. (1979). Tests of significance in stepwise regression. Psychological Bulletin, 86, 168-174. | ||
+ | |||
+ | [5] Whittingham, | ||
+ | |||
+ | [6] Derksen, S. & Keselman, H. J. (1992). Backward, forward and stepwise automated subset selection algorithms: frequency of obtaining authentic and noise variables. British Journal of Mathematical and Statistical Psychology, 45, 265-282. | ||
+ | |||
+ | [7] Briffa, M. & Sneddon, L. U. (2007). Physiological constraints on contest behaviour. Functional Ecology, 21, 627-637. | ||
+ | |||
+ | [8] Arnott, G. & Elwood, R. W. (2009). Assessment of fighting ability in animal contests. Animal Behaviour, 77, 991-1004. | ||
+ | |||
+ | [9] Batista, J.L.F. (2009). Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, | ||
+ | |||
+ | [10] Symonds, M. R. E. & Moussalli, A. (2011). A brief guide to model selection, multimodel inference and model averaging in behavioural ecology using Akaike’s information criterion. Behavioral Ecology and Sociobiology, | ||
+ | |||
+ | ===== Citação ===== | ||
+ | |||
+ | Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: | ||
+ | |||
+ | Palaoro, A.V. 2014. O que a seleção de modelos e as ideias de Thomas Chamberlin tem em comum?. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http:// |