Tabela de conteúdos
Regressão linear e alometria
Solimary García Hernández
* Universidade de São Paulo * solimarygh@yahoo.es
Um dos procedimentos estatísticos mis comuns em biologia comparativa é o ajuste de uma línea reta para representar o padrão de associação entre dos variáveis contínuas (Smith, 2009). Para analisar relações entre variáveis contínuas é usada a regressão. Na forma mais simples, a regressão linear descreve a relação linear entre uma variável preditora, representada graficamente no eixo X, e uma variável resposta, representada no eixo Y, sendo ajustada a linha de regressão aos dados usando o método dos mínimos quadrados. Este método garante que a linha de regressão minimize a soma dos quadrados dos resíduos, sendo os resíduos definidos como a deferência entre o atual valor da variável dependente e o valor predito pelo modelo, e estima os parâmetros de intercepto e inclinação da reta (Gotelli & Ellison, 2004).
Outra forma de estimar esses parâmetros é usando o concepto de estimação por máxima verossimilhança, que estima os valores dos parâmetros do modelo que maximizam o valor da função de verossimilhança, ou seja, os valores de parâmetro do modelo que atribuem a maior probabilidade às observações (Batista, 2009). Sob a abordagem de verossimilhança, a regressão linear é ajustar um modelo de distribuição gaussiana (normal), com a media modelada como uma função linear e a variância constante, a um conjunto de dados. Essa simplicidade evidentemente é uma vantagem, mas pode simplificar muito as relações entre duas variáveis.
A teoria dos mínimos quadrados tem muita similaridade com a teoria de verossimilhança, e levam a idênticas estimativas dos parâmetros estruturais (exceto a variância) para modelos lineares (ex. yi=?0+?1*xi+?) quando na abordagem da verossimilhança se assume que os resíduos (?) são independentes e tem distribuição normal (com media 0 e variância constante). Com a abordagem de verossimilhança podemos modelar tanto à média e ao desvio padrão, como função linear, o que permite fazer mais real o modelo, pois é um fato que na natureza quando aumenta X também aumenta o desvio padrão, algo que é desconsiderado ao ajustar uma regressão linear simples. Complementarmente, cada parâmetro pode continuar sendo modelado de muitas maneiras, até que melhoremos o ajuste do modelo aos dados (ver exemplo no tutorial 6 http://cmq.esalq.usp.br/BIE5781/doku.php?id=06-gaussiana:06-gaussiana). No entanto, se pode considerar que o método dos mínimos quadrados é um caso especial, e a verossimilhança é muito mais geral e potencialmente útil em diferentes aplicações (Burnham & Anderson, 2001).
Os modelos lineares simples são uteis para responder questões biológicas relacionadas à predição de Y a partir de X, ou para provar causalidade entre duas variáveis (Gotelli & Ellison, 2004). Mas às vezes só estamos interessados em entender a relação entre dois vaiáveis. O exemplo mais comum disso é a alometria. A alometria é uma disciplina que estuda o tamanho e suas consequências biológicas, e cujo interesse é estimar a línea que melhor descreve a relação de um set de dados bivariados, ou testar se a inclinação da linha é diferente de um determinado valor (Fairbairn, 1997). Dado os interesses particulares dos estudos da alometria, são requeridas alternativas à regressão linear, devido a que as linhas são usualmente ajustadas para estimar como uma variável escala em relação à outra, mas do que para predizer o valor de uma variável a partir da outra (Warton et al, 2006, Smith, 2009).
Nos análises de alometria é amplamente reconhecido que a regressão linear simple não é apropriada, pois subestima a verdadeira inclinação alométrica, devido a que o método atribui todas as medidas de erro para a variável Y, ou seja os resíduos são medidos só na vertical, sendo que nos casos de toma de medições morfométricas o erro está nas duas variáveis: X e Y (Bonduriansky, 2006). Por isso já tem sido propostos métodos que podem ser mais eficientemente usados nestes casos como é o método de Standarized Mayor Eixos (SMA) que é útil quando sabemos que a variável X também tem erro de medida. SMA minimiza a suma dos quadrados como a distância mais curta desde os pontos até a linha. Mas neste caso, a distancia mais curta desde um pontoa até a linha é perpendicular, ou seja neste método os resíduos são medidos perpendicularmente à linha (Warton et al, 2006).
Com o fim de entender melhor a vantagem do estimador SMA sobre lm (ver informação sobre modelos lineares e função lm (): http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:03_apostila:06-modelos), usei a mais simple formulação, de cada uma delas, ou seja y ~ x e ajustei esses modelos a os plots da relação allométrica entre o tamanho do corpo e o armamento (uns cercos no final do abdome que parecem umas tesouras), correspondentes a duas populações de um inseto da ordem dermaptera chamado de tesourinha (figura 1). Para selecionar o melhor modelo calculei o AIC para cada modelo sendo que o modelo com menor valor de AIC seria considerado o modelo que melhor se ajustava aos dados. Neste exercício simples, como era esperado, o menor valor AIC foi para o modelo que uso o método de SMA. Mas SMA não é nossa única opção, outros tipos de métodos de inferência para ajuste de linhas têm sido descritos, e incluso usando a abordagem da verossimilhança podemos ajustar melhor as linhas considerando as particularidades dos nossos sistemas de estudo.
Figura 1. Ajustando uma línea a um set de dados bivariados. Plot do tamanho do corpo (largo da cabeça) e tamanho do armamento (comprimento dos forceps) dos machos, de duas populações A y B. Dois modelos lineares foram ajustados usando o método dos mínimos quadrados (linha vermelha ajustada usando a função lm do pacote stats de R) e Standarized Major Eixos (linha azul ajustada usando a função sma do pacote SMATR v.3 de R. Os valores de AIC para cada modelo são indicados na parte superior do gráfico. Já que o menor valor de AIC indica um melhor ajuste, nas duas populações a linha ajustada com o método SMA foi o modelo para esses dados.
Implicações na análise dos dados
Um dos meus objetivos é entender como tamanho do armamento escala em relação ao tamanho do corpo, e entender como esta relação muda entre diferentes populações. Para isso, é muito importante escolher bem a técnica que usarei para quantificar alómetria, pois é muito fácil terminar fazendo as análises do jeito que tem sido feitos, sem entender profundamente o que está implícito em cada análise. Por isso, tenho começado a estudar mais profundamente as ferramentas para estimação e inferência sobre líneas alométricas que atualmente são bastante usadas em ecologia e evolução. É possível que o melhor ajuste seja dado por um modelo de regressão não linear. O que é frequente de achar quando existem machos com morfos alternativos na mesma população. Esses casos de alometria não linear, presentam uma maior complexidade analítica e problemas conceptuais (Pomfret & Knell, 2006). Tais padrões não podem ser descritos adequadamente por uma simples inclinação, devido a que a inclinação covaria com o tamanho do corpo (Bonduriansky, 2006). Como es provável que este seja meu caso, cuidarei de especificar e interpretar bem os modelos. Complementarmente usarei uma abordagem de verossimilhança para selecionar variáveis que possam predizer o tamanho do armamento, que é uma característica secundaria sexualmente selecionada de interesse na minha pesquisa.
Finalmente, como quero explorar como a relação alométrica de diferentes características morfológicas muda entre diferentes populações (e as análises de covariância são de limitada utilidade pois, como disse acima, a regressão linear é frequentemente inapropriada), aprofundarei no estudo da especificação de modelos que me permitam entender o efeito de variáveis ambientais e populacionais (ver Stillwell & Fox, 2009).
Referências bibliográficas
Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.
Bonduriansky, R. 2007. Sexual selection and allometry: A critical reappraisal of the evidence and ideas. Evolution 61, 838–849.
Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.
Burnham, K.P. & Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.
Fairbairn, D. J. 1997. Allometry for Sexual Size Dimorphism: Pattern and Process in the Coevolution of Body Size in Males and Females. Annual Review of Ecology and Systematics, 28, 659-687.
Gotelli, N. J. & A.M. Ellison, 2004. A Primer of Ecological Statistics. Sunderland, Sinauer.
Pomfret, J.C., & R. J. Knell. 2006. Sexual selection and horn allometry in the dung beetle Euoniticellus intermedius. Animal Behaviour, 71, 567-576.
Smith, R.J. 2009. Use and misture od the reducel major axis for line-fitting. American Journal of Physical Anthropology, 140, 476-486.
Stillwell, C.R. & C.W. Fox. 2009. Geographic variation in body size, sexual size dimorphism and fitness components of a seed beetle: local adaptation versus phenotypic plasticity. Oikos, 118 (5), 703-712.
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: García-Hernández, S. 2014. Regressão linear e Allometria. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.