Tabela de conteúdos
O que a seleção de modelos e as ideias de Thomas Chamberlin têm em comum?
Alexandre V. Palaoro
* Pós-Graduação em Biodiversidade Animal, Universidade Federal de Santa Maria * alexandre.palaoro@gmail.com
Motivação
Pode-se dizer que a seleção de modelos ajustados por máxima verossimilhança é a forma de análise de dados que Thomas Chamberlin [1] tinha em mente quando escreveu sobre o método de hipóteses múltiplas. Nos vários artigos, Chamberlin discorre sobre como confrontar múltiplas hipóteses auxiliaram no processo de avanço de determinadas áreas da ciência, como, por exemplo, a biologia molecular e a física, e ao mesmo tempo evitam que pesquisadores tenham “hipóteses de estimação”. Confrontar diferentes hipóteses sob a mesma ótica, ou axioma, faz com que diversas hipóteses possam ser refutadas de uma só vez, muitas vezes sem a necessidade de múltiplos experimentos e muitos testes que podem encarecer ou tomar muito mais tempo do que devido. É justamente isso que o Critério de Informação de Akaike (AIC) faz. O pesquisador postula suas hipóteses (e.g. as variáveis devem se relacionar de forma linear ou exponencial), e as compara diretamente com o AIC [2]. Assim, o modelo com maior força de evidência é selecionado como mais verossímil entre os modelos propostos. Quando isso ocorre, o pesquisador comparou diversas hipóteses de uma só vez, algo impossível na análise frequentista. Contudo, nem sempre há essa certeza. Muitas vezes os modelos não possuem forças de evidência diferentes o suficiente para serem categorizados como mais verossímeis que os outros. Quando isso acontece, ou a hipótese está mal formulada, ou os dados não possuem informação suficiente para corroborar um modelo em relação ao outro. E, apesar dessa incerteza, agora o pesquisador pode pensar em uma maneira para atacar um problema específico da hipótese. Com isso, o pesquisador irá aderir as ideias de Chamberlin mesmo sem saber, pois ele estará comparando diversas hipóteses simultaneamente, e pensando em desenhos experimentais para atacar problemas específicos.
O tipo de análise mais frequente na biologia, contudo, aparentemente não se utiliza da ideia de Chamberlin. A estatística frequentista testa apenas uma hipótese (i.e. a hipótese nula), a qual não é a hipótese de interesse, enquanto a hipótese de interesse (i.e. a hipótese alternativa) só é assumida como verdade caso a nula seja refutada. Assim, além de restringir o número de hipóteses testadas para duas hipóteses similares, o cientista também não testa especificamente o fenômeno/teoria que quer demonstrar. De forma simples, a análise frequentista percorre um caminho estatisticamente tortuoso para chegar no seu objetivo, e muitas pessoas podem dizer que esse tipo de análise só tangencia o objetivo proposto [2]. Nesse ensaio, utilizarei um exemplo de análise comportamental para demonstrar as vantagens da seleção de modelos utilizando o a seleção de modelos por AIC em relação a análise frequentista.
Exemplo
Para esse exemplo, utilizarei dados do início do meu doutorado com confrontos agonísticos entre pares de machos de uma espécie de crustáceo decápodo do Sul do Brasil (Aegla longirostri). O objetivo é determinar quais características morfológicas e de desempenho de armamento aumentam a probabilidade de vitória em um confronto. Testaremos a influência das seguintes características: tamanho corporal (cc), comprimento do armamento (cp), altura do armamento (ap) e força do armamento (icf). Como os confrontos são analisados em duplas, sorteamos um indivíduo da dupla para fazer essa análise, e subtraímos suas medidas com as medidas do oponente (i.e. indivíduo 1 menos indivíduo 2 para todas as medidas). Logo, quanto mais positivo o valor, maior o indivíduo 1 em relação ao indivíduo 2, e quanto mais negativo o valor, maior o indivíduo 2 em relação ao 1. A variável resposta (i.e. resultado do confronto) é uma variável binária, vencedor do confronto (1) e/ou perdedor do confronto (0), e por isso utilizaremos regressões logísticas no exemplo.
Análise frequentista
Utilizaremos uma regressão múltipla (ou uma regressão linear simples com múltiplas preditoras) para testar quais variáveis influenciam significativamente o modelo. Para selecionar as variáveis de interesse, pesquisadores normalmente utilizam algoritmos de seleção de variáveis (stepwise modelling) que consistem em ajustar um modelo saturado e ir retirando os fatores (ou o processo inverso: ajustar um modelo simples e ir adicionando variáveis) [3]. Contudo, esses procedimentos produzem muitos vieses. Primeiramente, cada teste realizado ao retirar/adicionar uma variável é um teste de hipótese. Por isso, a probabilidade de ocorrência de erros tipo I é inflada justamente por esta fazer diversos testes de hipóteses com o mesmo conjunto de dados sob o axioma frequentista [4]. Segundo, esses algoritmos geralmente selecionam modelos de forma a maximizar o R2, o que pode inflar o R2 e selecionar variáveis que não fazem sentido biológico [5]. Por último, a ordem de entrada (ou deleção) dos parâmetros influencia no modelo final [6]. Logo, a maneira de se começar o teste influencia no modelo final, o que é um viés tremendo da análise, deixa margem a subjetividade, e pode resultar em conclusões espúrias.
Aqui, utilizaremos a estratégia utilizada durante todo o livro do Crawley [3]: ajustar um modelo saturado e ir retirando primeiro as interações e depois as variáveis preditoras. No código abaixo demonstro como a análise torna-se subjetiva a partir de determinando ponto deixando alguns pontos comentados (comentários vem após o caractere #).
> rhp<-read.csv("exemplo-ensaio.csv",h=T,sep=';') > head(rhp) cc residcp residap residicf winner 1 0.64 0.294391213 0.4550592 0.027043719 1 2 0.61 -0.335345875 -0.3164279 -0.018204509 0 3 -0.36 0.003154943 -0.2078458 0.028965588 0 4 -0.03 -0.429737088 -0.1214872 0.000111472 0 5 -0.39 -0.376582145 0.2606670 -0.013296643 1 6 1.34 -1.721743398 -0.6669072 -0.042343508 1 > model.full<-glm(winner~cc*residcp*residap*residicf,binomial,data=rhp) ##ajuste do modelo saturado > summary(model.full) Call: glm(formula = winner ~ cc * residcp * residap * residicf, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -2.5071 -0.4486 0.0000 0.5376 1.8324 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.3566 0.7598 0.469 0.6388 cc 2.6243 1.9019 1.380 0.1676 residcp 0.1090 1.1533 0.095 0.9247 residap 4.8871 3.5470 1.378 0.1683 residicf 37.6054 51.5076 0.730 0.4653 cc:residcp 2.9790 2.5699 1.159 0.2464 cc:residap -12.4082 7.1933 -1.725 0.0845 . residcp:residap 1.0469 6.9224 0.151 0.8798 cc:residicf 191.8018 106.5045 1.801 0.0717 . residcp:residicf 95.2559 85.1089 1.119 0.2630 residap:residicf -208.3921 110.5150 -1.886 0.0593 . cc:residcp:residap -4.6832 10.6890 -0.438 0.6613 cc:residcp:residicf 203.0438 196.6379 1.033 0.3018 cc:residap:residicf -104.0971 197.5473 -0.527 0.5982 residcp:residap:residicf -61.1072 128.5983 -0.475 0.6347 cc:residcp:residap:residicf -188.7201 116.7443 -1.617 0.1060 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 32.306 on 32 degrees of freedom AIC: 64.306 Number of Fisher Scoring iterations: 9 > model2<-update(model.full,~.-cc:residcp:residap:residicf) ##começo retirando as variáveis de interação de quarto grau > summary(model2) Call: glm(formula = winner ~ cc + residcp + residap + residicf + cc:residcp + cc:residap + residcp:residap + cc:residicf + residcp:residicf + residap:residicf + cc:residcp:residap + cc:residcp:residicf + cc:residap:residicf + residcp:residap:residicf, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -2.15667 -0.52711 0.00004 0.57062 1.94746 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 8.903e-04 7.148e-01 0.001 0.9990 cc 2.720e+00 1.942e+00 1.400 0.1614 residcp 2.958e-01 1.144e+00 0.259 0.7959 residap 6.100e+00 3.457e+00 1.765 0.0776 . residicf 1.777e+01 4.791e+01 0.371 0.7107 cc:residcp 2.254e+00 2.469e+00 0.913 0.3612 cc:residap -1.139e+01 6.819e+00 -1.671 0.0948 . residcp:residap 3.366e+00 6.733e+00 0.500 0.6171 cc:residicf 1.303e+02 9.422e+01 1.383 0.1666 residcp:residicf 7.189e+01 7.935e+01 0.906 0.3649 residap:residicf -1.865e+02 1.105e+02 -1.687 0.0915 . cc:residcp:residap -4.014e+00 9.864e+00 -0.407 0.6840 cc:residcp:residicf 1.768e+02 1.804e+02 0.980 0.3270 cc:residap:residicf -1.265e+02 1.864e+02 -0.679 0.4974 residcp:residap:residicf -1.188e+02 1.208e+02 -0.983 0.3255 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 35.415 on 33 degrees of freedom AIC: 65.415 Number of Fisher Scoring iterations: 8 > model3<-update(model2,~.-residcp:residap:residicf) > model3<-update(model3,~.-cc:residcp:residap) > model3<-update(model3,~.-cc:residcp:residicf) > model3<-update(model3,~.-cc:residap:residicf) ##retirei todas as variáveis de interação de terceira ordem > summary(model3) Call: glm(formula = winner ~ cc + residcp + residap + residicf + cc:residcp + cc:residap + residcp:residap + cc:residicf + residcp:residicf + residap:residicf, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -2.08128 -0.77576 0.00152 0.69086 1.77535 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.30775 0.63696 -0.483 0.6290 cc 2.13739 1.13343 1.886 0.0593 . residcp -0.07444 0.98070 -0.076 0.9395 residap 5.09715 2.73435 1.864 0.0623 . residicf -34.85089 31.90875 -1.092 0.2747 cc:residcp 0.55971 1.76659 0.317 0.7514 cc:residap -8.46827 4.82442 -1.755 0.0792 . residcp:residap -2.82548 5.18024 -0.545 0.5855 cc:residicf 106.64228 67.65544 1.576 0.1150 residcp:residicf 98.27909 66.66674 1.474 0.1404 residap:residicf -53.23904 59.61328 -0.893 0.3718 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 39.889 on 37 degrees of freedom AIC: 61.889 Number of Fisher Scoring iterations: 8 > model4<-update(model3,~.-residap:residicf) > model4<-update(model4,~.-residcp:residicf) > model4<-update(model4,~.-cc:residicf) > model4<-update(model4,~.-residcp:residap) > model4<-update(model4,~.-cc:residap) > model4<-update(model4,~.-cc:residcp) ##retirei todas as variáveis de interação de segunda ordem > summary(model4) Call: glm(formula = winner ~ cc + residcp + residap + residicf, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.96317 -0.84158 0.07625 0.89531 1.84406 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.04602 0.36469 -0.126 0.8996 cc 1.10533 0.51435 2.149 0.0316 * residcp -0.26094 0.67409 -0.387 0.6987 residap 3.38389 1.92797 1.755 0.0792 . residicf -22.82807 21.99361 -1.038 0.2993 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 48.522 on 43 degrees of freedom AIC: 58.522 Number of Fisher Scoring iterations: 6 > model5.a<-update(model4,~.-residcp) ##aqui começa a ficar mais abstrato. Retirei todas as interações, e o próximo ##passo é retirar as variáveis preditoras. Porém, com qual começar? Nesse exemplo, retirei as três variáveis uma de ##cada vez para testar se ocorria alguma diferença > summary(model5.a) Call: glm(formula = winner ~ cc + residap + residicf, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.96280 -0.85466 0.06509 0.93314 1.88041 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.06335 0.36102 -0.175 0.8607 cc 1.19708 0.48209 2.483 0.0130 * residap 3.10783 1.76794 1.758 0.0788 . residicf -22.57598 21.93488 -1.029 0.3034 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 48.673 on 44 degrees of freedom AIC: 56.673 Number of Fisher Scoring iterations: 6 > model5.b<-update(model4,~.-residicf) > summary(model5.b) Call: glm(formula = winner ~ cc + residcp + residap, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.80431 -0.87733 0.08181 0.94072 1.98613 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.05349 0.34598 0.155 0.8771 cc 1.10387 0.52173 2.116 0.0344 * residcp -0.24717 0.67063 -0.369 0.7125 residap 1.88396 1.18945 1.584 0.1132 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 49.672 on 44 degrees of freedom AIC: 57.672 Number of Fisher Scoring iterations: 6 > model5.c<-update(model4,~.-residap) > summary(model5.c) Call: glm(formula = winner ~ cc + residcp + residicf, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.5592 -1.0279 0.1118 1.0813 1.9536 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.07166 0.34001 0.211 0.8331 cc 1.04896 0.49093 2.137 0.0326 * residcp 0.20839 0.60450 0.345 0.7303 residicf 7.19179 13.29175 0.541 0.5885 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 52.097 on 44 degrees of freedom AIC: 60.097 Number of Fisher Scoring iterations: 6 > model6.a<-update(model5.a,~.-residicf) ##como não mudou nada, vou deixar a altura do armamento por estar mais ##próximo da significância (isso é algo muito subjetivo...) > summary(model6.a) Call: glm(formula = winner ~ cc + residap, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.76831 -0.88066 0.06804 0.95081 2.02133 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.03707 0.34184 0.108 0.9136 cc 1.19601 0.48320 2.475 0.0133 * residap 1.64998 1.00108 1.648 0.0993 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 49.809 on 45 degrees of freedom AIC: 55.809 Number of Fisher Scoring iterations: 6 > model6.b<-update(model5.c,~.-residicf) > summary(model6.b) Call: glm(formula = winner ~ cc + residcp, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.5803 -1.0534 0.1193 1.0518 1.8817 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.0418 0.3346 0.125 0.9006 cc 1.0341 0.4769 2.168 0.0301 * residcp 0.3591 0.5289 0.679 0.4972 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 52.393 on 45 degrees of freedom AIC: 58.393 Number of Fisher Scoring iterations: 6 > model7<-update(model6.a,~.-residap) ##a altura do armamento não atingiu significância, então retirei do modelo. > summary(model7) Call: glm(formula = winner ~ cc, family = binomial, data = rhp) Deviance Residuals: Min 1Q Median 3Q Max -1.5413 -1.0682 0.1659 1.0794 1.8123 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.0766 0.3308 0.232 0.8169 cc 0.8691 0.3524 2.466 0.0136 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 66.208 on 47 degrees of freedom Residual deviance: 52.874 on 46 degrees of freedom AIC: 56.874 Number of Fisher Scoring iterations: 5
Foram 10 passos para alcançar o modelo com melhor ajuste. Ou seja, inflou a probabilidade de erro tipo I em 10 vezes. Além disso, quando todas as interações foram retiradas, a eleminação de variáveis preditoras torna-se subjetiva, pois não existe como discriminar as variáveis mais das menos importantes. No fim, o modelo mínimo indica que apenas o tamanho corporal influencia significativamente a probabilidade de vitória (i.e. quanto maior um indivíduo em relação ao outro, maior é a sua chance de vencer).
Seleção de Modelos com AIC
A seleção de modelos utilizando o AIC é uma forma mais intuitiva, e com menos vieses, que a seleção de modelos demonstrada acima. Primeiramente, o AIC utiliza o valor de máxima verossimilhança para decidir qual modelo é mais provável [2]. Logo, o AIC ranqueia seus modelos utilizando-se da força de evidência de cada modelo (i.e. probabilidade do modelo A ocorrer dividido pela probabilidade do modelo B ocorrer, ou pA(x)/pB(x)), além de punir os modelos pelo seu número de parâmetros [2]. Ao utilizar-se da máxima verossimilhança, o AIC torna-se mais intuitivo do que a análise frequentista - o melhor modelo será aquele que possui a maior força de evidência em relação aos outros. Segundo, o problema de múltiplos testes deixa de existir, pois cada modelo é visto como uma hipótese a ser comparada com outras hipóteses (i.e. outros modelos). Terceiro, não importa a ordem de entrada dos modelos, nem a forma como eles estão formulados, o resultado será o mesmo [2]. Quarto, como cada modelo é considerado uma hipótese, o pesquisador tem a liberdade de usar a literatura para formular os modelos. Por isso, ao invés de comparar todos os modelos possíveis, irei listar apenas aqueles com evidências na literatura:
Modelo 1 - Apenas tamanho corporal [7];
Modelo 2 - Apenas comprimento do armamento [7];
Modelo 3 - Apenas altura do armamento [7];
Modelo 4 - Apenas desempenho do armamento [7];
Modelo 5 a 7 - Tamanho corporal com adição de cada variável do armamento separadamente [8];
Modelo 8 - Apenas as variáveis do armamento [8];
Modelo 9 - Todas as variáveis [8].
Para ranquearmos os modelos, calculamos o AIC (-2*log máxima verossimilhança + 2*número de parâmetros do modelo). O modelo com o menor valor de AIC é considerado o melhor, e então, subtraímos o valor do AIC de um modelo dos modelos com o valor do AIC do melhor modelo, obtendo assim uma medida relativa entre os modelos (i.e. ΔAIC; [2]). Esse valor relativo é importante por dois motivos: 1. Ele nos mostra que a nossa inferência pode ser feita apenas para os modelos que comparamos, mostrando-nos que o AIC é uma medida relativa entre as hipóteses que elencamos, e não todas as hipóteses que podem existir [9]; 2. Ele nos mostra a diferença no poder de evidência entre modelos. Contudo, precisamos saber quando um modelo tem poder de evidência suficiente para descartamos o(s) outro(s). Convencionou-se que um ΔAIC maior que dois é o suficiente para descartar o modelo, pois um valor maior que dois significa que o modelo é 7,3 vezes mais provável que outro [9].
Nesse exemplo utilizarei o AICc, e não o AIC. O AICc possui uma correção para amostras pequenas, as quais não irei detalhar em profundidade aqui, pois não é o escopo do texto. Para mais informações, veja [2] e/ou [10].
> modelo1<-glm(winner~cc,binomial,data=rhp) > modelo2<-glm(winner~residcp,binomial,data=rhp) > modelo3<-glm(winner~residap,binomial,data=rhp) > modelo4<-glm(winner~residicf,binomial,data=rhp) > modelo5<-glm(winner~cc+residcp,binomial,data=rhp) > modelo6<-glm(winner~cc+residap,binomial,data=rhp) > modelo7<-glm(winner~cc+residicf,binomial,data=rhp) > modelo8<-glm(winner~residcp+residap+residicf,binomial,data=rhp) > modelo9<-glm(winner~cc+residcp+residap+residicf,binomial,data=rhp) > AICctab(modelo1,modelo2,modelo3,modelo4,modelo5,modelo6,modelo7,modelo8, + modelo9,nobs=length(rhp$winners),weights=T,logLik=T,base=T) logLik AICc dLogLik dAICc df weight modelo9 -24.3 48.5 8.8 0.0 5 0.5143 modelo6 -24.9 49.8 8.2 1.3 3 0.2703 modelo7 -26.1 52.2 7.0 3.7 3 0.0811 modelo5 -26.2 52.4 6.9 3.9 3 0.0743 modelo1 -26.4 52.9 6.7 4.4 2 0.0584 modelo8 -30.2 60.5 2.9 12.0 4 0.0013 modelo2 -32.7 65.4 0.4 16.8 2 <0.001 modelo3 -32.8 65.7 0.3 17.2 2 <0.001 modelo4 -33.1 66.2 0.0 17.7 2 <0.001
Log Verossimilhança Negativa | AICc | ΔAICCc | Graus de liberdade | peso | |
---|---|---|---|---|---|
Modelo 9 | -24.3 | 48.5 | 0 | 5 | 0.5143 |
Modelo 6 | -24.9 | 49.8 | 1.3 | 3 | 0.2703 |
Modelo 7 | -26.1 | 52.2 | 3.7 | 3 | 0.0811 |
Modelo 5 | -26.2 | 52.4 | 3.9 | 3 | 0.0743 |
Modelo 1 | -26.4 | 52.9 | 4.4 | 2 | 0.0584 |
Modelo 8 | -30.2 | 60.5 | 12.0 | 4 | 0.0013 |
Modelo 2 | -32.7 | 65.4 | 16.8 | 2 | <0.001 |
Modelo 3 | -32.8 | 65.7 | 17.2 | 2 | <0.001 |
Modelo 4 | -33.1 | 66.2 | 17.7 | 2 | <0.001 |
A seleção de modelos nos indica que o modelo saturado e o modelo com tamanho corporal e altura do armamento são os melhores. Porém, não há força de evidência para dizer qual desses dois é o melhor.
Conclusão
Os resultados das duas análises são bem distintos. Com a análise frequentista, eu poderia inferir que apenas o tamanho corporal do animal influencia na probabilidade vitória. Na seleção por AIC, por sua vez, eu poderia inferir que todas as variáveis afetam a probabilidade de vitória, e que o tamanho corporal e a altura do armamento são as variáveis mais influentes, dado que estão presentes nos dois modelos mais verossímeis. Por isso, a escolha das análises influência nas conclusões do estudo.
A análise frequentista se mostrou muito subjetiva, pois a retirada de termos dos modelos é extremamente subjetiva. Enquanto que a análise de AIC é mais intuitiva, e podemos utilizar informações prévias da literatura para diminuirmos o número de modelos, além de testar todas as hipóteses simultaneamente. No fim, a ideia de Chamberlin de elencar múltiplas hipóteses e compará-las diretamente se mostra mais efetiva do que a análise frequentista, que segue por caminhos tortuosos, e muitas vezes subjetivos, para chegar a um resultado.
Referências bibliográficas
[1] Chamberlin, T. C. (1890). The method of multiple working hypotheses. Science, 15, 92-96.
[2] Burnham, K. P. & Anderson, D. R. (2002). Model selection and multimodel inference: a practical information-theoretic approach, 2nd ed. Springer, New York.
[3] Crawley, M. J. (2013). The R book, 2nd ed. Wiley, Chichester.
[4] Wilkinson, L. (1979). Tests of significance in stepwise regression. Psychological Bulletin, 86, 168-174.
[5] Whittingham, M. J.; Stephens, P. A.; Bradbury, R. B. & Freckelton R. P. (2006). Why do we still use stepwise modelling in ecology and behaviour? Journal of Animal Ecology, 75, 1182-1189.
[6] Derksen, S. & Keselman, H. J. (1992). Backward, forward and stepwise automated subset selection algorithms: frequency of obtaining authentic and noise variables. British Journal of Mathematical and Statistical Psychology, 45, 265-282.
[7] Briffa, M. & Sneddon, L. U. (2007). Physiological constraints on contest behaviour. Functional Ecology, 21, 627-637.
[8] Arnott, G. & Elwood, R. W. (2009). Assessment of fighting ability in animal contests. Animal Behaviour, 77, 991-1004.
[9] Batista, J.L.F. (2009). Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
[10] Symonds, M. R. E. & Moussalli, A. (2011). A brief guide to model selection, multimodel inference and model averaging in behavioural ecology using Akaike’s information criterion. Behavioral Ecology and Sociobiology, 65, 13–21.
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Palaoro, A.V. 2014. O que a seleção de modelos e as ideias de Thomas Chamberlin tem em comum?. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.