Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:moraes

Entendendo os Modelos Lineares Generalizados (GLMs)

Paula Elias Moraes
  • Pós-Graduação em Zoologia, Universidade de São Paulo
  • paula.bio08@gmail.com

Dentre todos os temas abordados na disciplina, e que serão úteis para o meu projeto de mestrado, o tema Modelos Lineares Generalizados (GLMs) é bastante importante porque a análise dos meus dados será feita pelos GLMs.

Nosso conhecimento e entendimento acerca de qualquer sistema real são sempre incompletos, por isso a importância dos modelos. Um modelo é qualquer representação simplificada de um sistema real, e a modelagem matemática vem sendo bastante utilizada para prever o comportamento desse sistema (Grimm e Railsback 2005). O uso de modelos matemáticos permite: (1) definir problemas, (2) fazer previsões e (3) melhor compreensão sobre como as variáveis desse sistema se relacionam (Grimm e Railsback 2005). Os modelos matemáticos podem ser: determinísticos ou probabilísticos. Nos modelos determinísticos os resultados são definidos e possíveis efeitos de outras variáveis são desprezíveis, por outro lado, nos modelos probabilísticos, ou estatísticos, há variabilidade nos resultados por causa de fatores aleatórios desconhecidos (Lindsey 2007). Há anos ecólogos vêm utilizando a abordagem de modelos estatísticos em seus estudos.

Todo modelo estatístico é descrito pela relação entre uma componente aleatória (variável resposta) e os componentes sistemático (variável preditora sob um parâmetro) e residual (erro experimental). O modelo clássico de regressão, chamado modelo normal linear, é mais simples e bastante utilizado em análises de dados. Na equação desse modelo: Y= βX + ɛ, o valor observado da variável resposta (Y) é modelado como uma função linear da variável preditora (X), sob um parâmetro (β) a ser estimado, e ɛ é uma variável aleatória, seguindo uma distribuição normal, µ=0 e σ=1 (Olsson 2002). No entanto, para muitas situações práticas, as suposições de normalidade e linearidade fogem bastante dos dados reais (Bolker 2008). Com isso, novas técnicas estatísticas para os modelos de regressão foram surgindo, como as seguintes classes de modelos: modelos de regressão não linear e modelos lineares generalizados (Bolker 2008).

Até a década de 70, a suposição de normalidade ainda era presente nos modelos não lineares. Em seguida, Nelder e Wedderburn (1972) formularam os modelos lineares generalizados, abrindo-se um leque de opções para a distribuição da variável resposta, permitindo que ela pertença à família exponencial de distribuições. Desde então, essa moderna ferramenta de regressão vem sendo amplamente utilizada em pesquisas ecológicas, dado o grande número de publicações (Guisan et al. 2002). Por fim, este ensaio tem como objetivo esclarecer o que é modelo linear generalizado já que irei utilizá-lo para a análise dos dados do meu projeto de mestrado.

Os modelos lineares generalizados são uma extensão dos modelos lineares e usados em situações em que a variância não é constante (como a variável resposta com zeros inflados) e os erros não seguem distribuição normal (como os erros binomiais em dados de proporção) (Nelder e Wedderburn 1972). Ambas as situações são bastante frequentes em dados coletados em campo. Os GLMs relacionam a distribuição aleatória da variável resposta ao componente sistemático (ou preditor linear) através da função de ligação. O preditor linear é a soma linear dos valores preditos (ɳ= ∑xβ, sendo x as variáveis preditoras e β os parâmetros a serem estimados pelos dados) e é obtido com a transformação da variável resposta pela função de ligação (Crawley 2007). Ou seja, a função de ligação estabelece uma relação linear entre o valor observado e os valores preditos.

Associa-se a cada tipo de dado uma distribuição de probabilidade, além da Gaussiana, e uma função de ligação (Bolker 2008). A família exponencial de distribuição engloba as classes dos erros não-normais e inclui algumas das mais importantes e conhecidas distribuições contínuas e discretas, como a Binomial, Poisson, Normal e Gamma (Guisan 2002). Para dados binários, como presença (1) e ausência (0), e de proporção podemos usar a distribuição binomial. Neste caso, em que é possível obter uma curva logística de probabilidade de cada observação, a melhor função de ligação é a logit: ln(p/1-p) porque permite que o y esteja entre 0 e 1. Porém, não podemos usar essa interpretação diretamente nos nossos dados. Para a interpretação dos dados binomiais, obtêm-se os valores preditos através do inverso da função de ligação (função logística). Para dados de contagem, podemos usar a distribuição Poisson e, neste caso, a melhor função de ligação é a log: y=exp(a+bx) porque permite que o x seja somente positivo. Para dados contínuos, podemos usar a distribuição normal que corresponde ao caso particular dos GLMs, os modelos lineares com erros normais. Neste caso, a melhor função de ligação é a identity: y=f(x), em que a estimativa dos parâmetros é uma função linear da variável resposta. O uso de diferentes funções de ligação para cada tipo de distribuição permite a posterior comparação dos modelos (Crawley 2007).

A análise dos dados por GLMs envolve três etapas: (1) formulação, (2) ajuste e (3) seleção e validação dos modelos (Turkman e Silva 2000). Durante a formulação do modelo é preciso escolher a distribuição da variável resposta (Normal, Poisson, Binomial, Gamma), as variáveis preditoras e a função de ligação de acordo com a distribuição do erro proposto para os dados. Para ajustar o modelo é preciso estimar seus parâmetros, que correspondem aos coeficientes associados às variáveis preditoras, sendo que tal estimação é feita, geralmente, pelo método da máxima verossimilhança (Turkman e Silva 2000). Ainda nesta etapa, é importante verificar a qualidade do ajuste aos dados, verificando se a otimização é confiável (traçar perfil de verossimilhança) e as estimativas são boas (construção de intervalos de plausibilidade e confiança) (Bolker 2008). Para a etapa de seleção e validação é preciso verificar três principais aspectos de um modelo: parcimônia, quanto ao número de variáveis preditoras, adequabilidade, quanto à qualidade do ajuste e interpretação, quanto ao problema proposto inicialmente (Turkman e Silva 2000). Um bom modelo apresenta um equilíbrio entre os três aspectos. O Critério de Informação de Akaike (AIC) é a forma mais elegante para a seleção de modelos. Para a seleção do melhor modelo, o AIC permite comparar modelos candidatos com diferentes números de parâmetros, mas do mesmo conjunto de dados (Bolker 2008).

Os GLMs apresentam algumas limitações, como o pressuposto da linearidade, restrição das distribuições à família exponencial e exigência de independência dos dados. Apesar dessas limitações, eles estão muito presentes em análises estatísticas, dado o grande potencial aliado à facilidade das análises pelo avanço computacional nas últimas décadas (Turkman e Silva 2000).

No meu projeto de mestrado, pretendo avaliar o efeito sinergético da perda do habitat e da caça sobre a ocorrência de espécies de mamíferos de maior porte em região de fronteira agrícola da Amazônia Oriental. A obtenção dos dados de pressão de caça e ocorrência dos mamíferos foi feita a partir de questionários estruturados já aplicados por meio de entrevistas em domicílios distribuídos em 20 áreas de estudo. Então, os efeitos da cobertura florestal e pressão de caça sobre a “frequência de avistamento” de cada espécie serão analisados através de modelos de regressão lineares generalizados.

A variável resposta “frequência de avistamento” será modelada como uma variável binomial, isto é, a proporção de entrevistados que avistaram a espécie. Para cada espécie e tempo de avistamento (15 dias ou seis meses), será construído um conjunto de modelos candidatos que consistirá de (1) um modelo constante, ou seja, sem as variáveis independentes, para referência, (2) dois modelos simples com cada uma das duas variáveis independentes isoladamente (perda de habitat e pressão de caça), (3) um modelo contendo as duas variáveis independentes com apenas o efeito aditivo entre elas, (4) um modelo contendo as duas variáveis independentes e a interação entre elas. Os melhores modelos serão selecionados através do Critério de Informação de Akaike (AIC), sendo considerados igualmente plausíveis aqueles que apresentam diferença de AIC em relação ao melhor modelo menor ou igual a 2 (Burnham e Anderson 2002).

Referências bibliográficas

Grimm, V. & Railsback, S. F. (2005). Individual-based Modeling and Ecology. Princeton: Princeton University Press.

Lindsey, J. K. (2007). Applying Generalized Linear Models.Springer.

Olsson, U. (2002). Generalized Linear Models - An Applied Approach. Lund: Studentlitteratur.

Bolker, B.M. (2008). Ecological Models and Data in R. Princeton: Princeton University Press.

Nelder, J.A. & Wedderburn, R.W. (1972). Generalized Linear Models. Journal of the Royal Statistical Society A, 135(3): 370-384.

Guisan et al. (2002). Generalized linear and generalized additive models in studies of species distributions: setting the scene. Ecological Modelling, 157: 89-100.

Crawley, M.J. (2007). The R Book. New York, Wiley.

Burnham, K.P. & Anderson, D.R. (2002). Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.

Turkman, M. & Silva, G. (2000). Modelos Lineares Generalizados - da teoria à prática, Universidade Técnica de Lisboa.

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Moraes, P.E. 2014. Entendendo os Modelos Lineares Generalizados (GLMs). In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

historico/2014/ensaios/moraes.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1