Tabela de conteúdos
SELEÇÃO DE MODELOS, SELEÇÃO DE VARIÁVEIS E INTERAÇÕES
Karine Costa
*Pós-Graduação em Ecologia - USP
*karine.costa97@gmail.com
Durante a disciplina me deparei com dois conceitos claramente distintos, inicialmente, mas que (como quase todos os conceitos) geraram dúvidas na sua distinção quando fui aplica-los ao meu caso de estudo, a seleção de modelos e a seleção de variáveis. Neste ensaio, faço uma breve revisão sobre a definição de seleção de modelos, discorro sobre o conceito de seleção de variáveis e, utilizando como exemplo uma parte do meu projeto de mestrado, ilustro uma situação em que esses conceitos parecem se confundir (pelo menos para mim!).
Seleção de modelos
Modelos são expressões matemáticas de hipóteses sobre a relação entre uma ou mais variáveis preditoras e a variável resposta (Johnson & Omland, 2004). A seleção de modelos pelo método de máxima verossimilhança busca encontrar o modelo mais plausível dado um conjunto de dados conhecidos. Dessa forma, é possível formular um modelo para cada hipótese e escolher o modelo que é melhor suportado pelos dados. Um dos critérios de seleção de modelos é o Critério de Informação de Akaike – AIC. O AIC é uma medida de distância relativa do modelo proposto ao mecanismo real que gerou os dados observados (Burnhan & Anderson, 2002). O AIC penaliza o modelo conforme o número de parâmetros presentes no modelo. De acordo com esse critério, todos os modelos com delta AIC inferior ou igual a 2, são igualmente plausíveis. Assim, o AIC pode ser visto como uma medida de ruindade do ajuste, pois quanto maior o valor do AIC, menor a probabilidade dos dados ocorrerem segundo aquele modelo (ou menor a plausibilidade do modelo, dado os dados) (Gotelli & Ellison, 2011).
Seleção de variáveis: outra aplicação do critério de informação de Akaike
Em estudos ecológicos a seleção de variáveis é aplicada quando há múltiplas variáveis preditoras e o objetivo é saber quais dessas variáveis é importante na determinação da variável resposta, por exemplo, quando múltiplos fatores ambientas (temperatura, humidade, luminosidade) atuam sobre a distribuição de uma espécie. Nesses casos, há interesse em identificar a influência que cada variável preditora exerce sobre a variável resposta, ou seja, há interesse na importância relativa de cada variável preditora. Assim, formulam-se modelos, geralmente lineares, aditivos com inclusão ou omissão de variáveis, incluindo todas as combinações possíveis entre as variáveis preditoras (Burham & Anderson, 2002).
Em uma abordagem frequentista, essa situação seria analisada através de regressão linear ou logística, por stepwise (regressão que envolve avaliar múltiplos modelos com variáveis compartilhados para decidir quais variáveis são úteis aos modelos de regressão final). Assim, chega-se a um modelo final e considera-se que as variáveis presentes naquele modelo são importantes enquanto as outras variáveis não o são. Entretanto, essa abordagem é falha, pois não considera a incerteza da seleção de modelos, uma vez que o modelo foi selecionado a partir de um conjunto de dados (Burham & Anderson, 2002).
Uma alternativa mais adequada para avaliar a importância das variáveis é calcular a importância relativa de cada variável, baseada nos pesos de Akaike dos modelos que incluem essa variável. Nesse método, soma-se os pesos dos modelos em que a variável está presente e é obtida a importância relativa daquela variável. Caso os modelos que não incluem aquela variável tenham baixo peso de Akaike, é provável que a variável tenha pouca importância como preditora dos dados (Burham & Anderson, 2002). Essa abordagem é mais adequada, uma vez que considera a incerteza da seleção de modelos, pois, assim como para a seleção de modelos, a magnitude do peso da variável mais importante é relativa às outras variáveis e não um valor absoluto de importância. A magnitude e a direção do efeito das variáveis são obtidas através das estimativas dos modelos (Burham & Anderson, 2002).
Seleção de modelos vs. Seleção de variáveis
Dessa forma, na seleção de modelos se comparam modelos que representam diferentes hipóteses esperadas para a relação (que pode ou não ser linear) entre variáveis preditora e resposta. Na seleção de variáveis, por outro lado, são comparados modelos (geralmente lineares, mas não necessariamente), que compartilham variáveis e essas variáveis são incluídas ou omitidas nos modelos. São formados modelos com todas as combinações possíveis de variáveis, pois todas as variáveis potencialmente influenciam o processo/padrão em questão e o interesse é saber a importância de casa uma delas.
Quando a hipótese é um modelo aditivo
Em ecologia da paisagem, muitas vezes são levados em conta múltiplas características do ambiente e da paisagem que podem atuar sobre o processo ou padrão de interesse. Para ilustrar essa situação, utilizarei como exemplo parte do meu projeto de mestrado que procura entender qual a influência de características ambientais sobre a biomassa de fragmentos florestais na Mata Atlântica.
Um dos processos ecológicos mais importantes decorrentes do desmatamento e fragmentação de paisagens naturais e que causa uma redução acentuada da biomassa florestal é o efeito de borda (Laurance, et al. 2011). Para fragmentos de Mata Atlântica, a distância até a qual se estende o efeito de borda é incerta. Assim, ao longo de um gradiente borda-interior do fragmento, o efeito de borda pode ser mais ou menos intenso ou até inexistente. Dessa forma, é importante saber como ocorre a variação da biomassa ao longo desse gradiente. Um fator da paisagem que pode influenciar a biomassa em um fragmento florestal é o uso do solo adjacente ao fragmento (a matriz da paisagem), uma vez que tipos de uso do solo podem atenuar ou acentuar o efeito de borda, por serem mais ou menos contrastantes com a floresta. Outro fator que pode influenciar a biomassa é a idade do fragmento, que pode refletir o estágio sucessional da vegetação e o tempo total de acúmulo de carbono. Assim, a biomassa em um fragmento florestal, é potencialmente influenciada pelas três variáveis discretas, distância da borda (três fatores), tipo de matriz (dois fatores) e idade do fragmento (dois fatores).
Neste caso, há um interesse em saber se existe influência dessas variáveis na biomassa e quais das variáveis são mais importantes na definição da biomassa nos fragmentos florestais. A biomassa pode ser resultado da influência da ação de somente uma das variáveis, ou da ação independe (aditiva) de duas variáveis ou três variáveis. A estratégia para avaliar essa situação seria a construção de modelos lineares simples formados por somente uma das variáveis (biomassa~distância, biomassa~matriz e biomassa~idade), modelos com combinações de variáveis duas a duas (biomassa~distância+matriz, biomassa~distância+idade e biomassa~matriz+idade) e um modelo com todas as variáveis (biomassa~distância+matriz+idade). Nesta situação, temos modelos concorrentes aditivos lineares formados por todas as combinações possíveis entre as variáveis e o interesse é descobrir quais variáveis são mais importantes na definição da resposta. Assim, essa situação se encaixa na descrição de seleção de variáveis, citada acima, e podemos calcular a importância relativa de cada variável somando os pesos de Akaike dos modelos em que elas aparecem.
Quando a interação entre as variáveis também interessa
E se o efeito total das variáveis preditoras não for somente a adição dos efeitos isolados de cada variável? Muitas vezes as variáveis preditoras podem interagir e causar efeitos distintos sobre a variável resposta. Assim, além do efeito isolado e aditivo das variáveis, há um efeito causado pela interação entre as variáveis preditoras. Interação, de acordo com Gotelli & Ellison (2011), é definida como o efeito conjunto de dois ou mais fatores experimentais. Ela representa uma resposta que não pode ser predita apenas conhecendo o efeito principal de cada fator de maneira isolada, ou seja, ela resulta em um efeito não aditivo. Na interação entre variáveis categóricas (A*B), o número de interações é definido por (a-1)(b-1), sendo a o número de níveis da variável A e b, o número de níveis da variável B (Crawley, 2007). Para variáveis contínuas, a interação entre variáveis (x*z) equivale a uma nova variável que é o produto das variáveis x e z. Entretanto, a representação da interação de variáveis contínuas como um produto das variáveis é uma suposição e não um fato, sendo que a interação real entre as variáveis pode ser outra, por exemplo x*z^2 (Crawley, 2007).
Seguindo o exemplo apresentado anteriormente, considerando que as variáveis da paisagem podem interagir entre si, a biomassa não será influenciada somente pela soma dos efeitos de cada uma das variáveis, mas também pela interação entre as variáveis da paisagem que podem produzir diferentes efeitos. Nesse caso, além dos modelos simples e aditivos, que representam os efeitos individuais das variáveis (importância relativa), devemos incluir também modelos com interação entre as variáveis, para representar o efeito da interação sore a variável resposta. Supondo que possam ocorrer interações entre matriz e distância da borda e entre idade e distância da borda, os modelos de interação propostos seriam: biomassa~distância+matriz+distância:matriz, biomassa~distância+idade+distância:idade e biomassa~distância+idade+matriz+distância:idade+distância:matriz.
Quando colocamos para concorrer um conjunto de modelos dentre os quais estão presentes modelos simples, aditivos e com interação, não é só a importância relativa das é relevante, mas também a interação entre elas. A dúvida que surge é se devemos abordar essa situação como seleção de variáveis ou como seleção de modelos? Seriam as interações entre variáveis preditoras o ponto divisório entre seleção de variáveis e seleção de modelos? Essas foram as dúvidas com as quais me deparei ao tentar aplicar os conceitos no meu projeto de mestrado.
Considerações
Ainda não cheguei a respostas para as minhas dúvidas, mas fiz algumas reflexões sobre as duas formas de abordar a situação. Na primeira forma de abordagem, interpretar o caso como uma seleção de modelos, caso selecionássemos um modelo com a presença de interação, interpretaríamos que o efeito da interação entre as variáveis somado ao efeito de cada uma das variáveis que interagem (Y~A+B+A:B) prediz os dados melhor do que os outros modelos. Entretanto segundo Burham & Anderson (2002), quando selecionamos (por AIC) um modelo, que inclui algumas dentre todas as variáveis, essa inclusão ou exclusão da variável não informa sobre a importância da variável no modelo. Ao aplicarmos tal colocação, a modelos com interações, concluímos que ao selecionamos um modelo com interação, não sabemos qual a importância da interação e qual a importância do efeito individual das variáveis. Assim, talvez alternativa mais adequada seja tratar a situação como uma seleção de variáveis. Com essa abordagem, a interação entre as variáveis preditoras seria vista como uma “variável adicional” e sua importância relativa poderia ser calculada, somando-se os pesos de Akaike de todos os modelos nos quais a interação está presente (Burham & Anderson, 2002). Assim, saberíamos a relevância da interação sobre a variável resposta.
Referências bibliográficas
Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
Crawley, M.J. 2007. The R Book. New York, Wiley.
Gotelli, N.J & Ellison. A.M. 2011. Princípios de estatística em ecologia. Artmed. Porto Alegre, 528p.
Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10
Laurance, W. F., J. L. C. Camargo, R. C. C. Luizao, S. G. Laurance, S. L. Pimm, E. M. Bruna, P. C. Stouffer, G. B. Williamson, J. Benitez-Malvido, H. L. Vasconcelos, K. S. Van Houtan, C. E. Zartman, S. A. Boyle, R. K. Didham, A. Andrade, &T. E. Lovejoy. 2011. The fate of Amazonian forest fragments: A 32-year investigation. Biological Conservation 144:56-67.
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Costa, Karine M. 2014. SELEÇÃO DE MODELOS, SELEÇÃO DE VARIÁVEIS E INTERAÇÕES. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.