Tabela de conteúdos
Esclarecimento do conceito de função de ligação a partir do estudo de territorialidade
Gabriela de Lima Marin
- Departamento de Ecologia - IB/USP
- gabi_lm88@hotmail.com
Considerando a proposta inicial do ensaio - como algum conceito da disciplina pode ser útil na sua área de pesquisa - optei por fazer o contrário. Inicialmente eu pretendia avaliar importância do estabelecimento da função de ligação para a tradução de hipóteses em modelos matemáticos dentro do estudo da territorialidade, no entanto, conforme tentei aprofundar o tema, percebi que tinha formado um conceito equivocado de função de ligação e ao longo desse texto vou descrever o meu raciocínio até entender o verdadeiro conceito. Usarei o estudo da territorialidade como exemplo ilustrativo conforme tento explicar esse e outros conceitos que foram aparecendo.
Relembrando...
A territorialidade, defesa de uma área por um indivíduo ou grupo, é uma competição por interferência. Uma proposta teórica para prever a ocorrência de territorialidade é a análise de custo/benefício das possibilidades de ação, ou seja, só é esperada a defesa de um território quando os benefícios (e.g. em termos de alimentos, parceiros reprodutivos ou abrigos) superam os custos (i.e. tempo, energia ou risco de injúria/morte) advindos do uso exclusivo da área. Dentro dessa proposta, existe um modelo teórico que prevê que a territorialidade tem uma relação de U invertido com a abundância de alimento (figura 1). Para esse ensaio os mecanismos dessa relação não são tão importantes, o importante é essa relação em parábola.
Figura 1: Modelo teórico com relação de parábola entre territorialidade e abundância de alimento. Retirado de Maher & Lott (2000).
No entanto, não são todas as variáveis independentes que têm essa relação de parábola. Espera-se que a previsibilidade (espacial ou temporal) do alimento influencie a territorialidade de forma linear (figura 2).
Figura 2: Modelo teórico com relação linear entre territorialidade e previsibilidade de alimento. Retirado de Maher & Lott (2000).
No meu trabalho, eu acesso a territorialidade de pequenos mamíferos medindo o tamanho da área de vida (calculado pelo método MCP- polígonos plotados em uma grade) e a porcentagem de sobreposição da área de vida (desse polígono) de um indivíduo com a de outros indivíduos (medida inversa da territorialidade). Considerando a porcentagem de sobreposição, eu entendo que ela pode assumir qualquer valor entre 0 e 1 (nenhuma sobreposição e área totalmente sobreposta com outros indivíduos). Assim, essa variável é contínua, uma proporção e com limites inferior e superior estabelecidos. Dentre as distribuições probabilísticas mais comuns, acredito que por mais que os dados não sejam proporção de sucessos, a distribuição Beta se adequa ao meu caso já que ela é contínua e tem espaço amostral [0,1] (Bolker, 2008).
O primeiro conceito de função de ligação
Durante a disciplina, conforme construíamos funções de verossimilhança, eu entendi que a função de ligação era a equação inteira que estabelece a relação entre o parâmetro da variável dependente e as co-variáveis. Ou seja, supondo que a sobreposição tivesse distribuição probabilística normal (bem suposição mesmo) e pensando no modelo que indica que a previsibilidade é o que determina a média da sobreposição, a função de ligação seria o que está em vermelho na expressão dentro da função de verossimilhança:
previsibilidade← function(a,b){
-sum(dnorm(dados,mean=mu_sob,sd=sd(dados),log=TRUE))}
E essa relação linear entre o próprio parâmetro e a covariável tinha o nome de função identidade. Agora, considerando a distribuição Beta, a função de ligação dentro da função de verossimilhança seria:
previsibilidade← function(a,b){
logit(mu_sob)= b+a* previsibilidade # mu_sob= exp(b+ previsibi. *a)/(1+exp(b+ previsibi.*a))
-sum(dbeta(dados,shape1=mu_sob,shape2=sd(dados),log=TRUE))}
E essa relação entre uma variável que deve ter uma relação de reta com a variável dependente recebe o nome de logit. Como eu entendia que função de ligação era tudo o que estava em vermelho, eu entendia que determinar a função de ligação era determinar também a relação do lado direito da equação (a+bX para o primeiro exemplo e exp(a+bX) no segundo).
Em alguns momentos da disciplina foi discutido que é possível utilizar outras funções de ligação para cada distribuição, mas que as sugeridas geralmente cumpriam o objetivo de linearizar a relação. Essa discussão me deixava mais tranquila, pois eu então concluí que era eu teria que estabelecer minha própria função de ligação para indicar a relação de parábola esperada pela variável “abundância de alimento” descrita acima. Decorrente dessa minha interpretação, três dúvidas me acompanharam durante o curso e eram amenizadas quando chegávamos nessa possibilidade de mudar a função de ligação: (1) porque existe uma função de ligação típica para cada distribuição se ela depende de como eu espero que a variável independente influencie a variável dependente? (2) Como eu vou informar que eu espero uma relação de parábola, como no caso da variável abundância de alimento, ao invés de reta nas funções do R (glm()) se elas já pressupõe relação de reta? (3) Como eu vou informar, no caso de modelos com mais de uma variável independente, que eu espero que uma variável influencie na forma de parábola e outra na forma de uma reta (no exemplo, o modelo sobreposição~alimento+previsibilidade)?
Conforme ia estudar sobre o assunto, as definições dos livros “A função que estabelece essa relação linear entre a média da função de densidade da variável dependente e a variável explicativa” (Bolker, 2008; Mackenzie et al, 2006) pareciam bastante com o meu entendimento, então demorei para desconfiar que estava enganada.
O novo conceito de função de ligação
Foi somente conversando e tirando dúvidas que percebi que a equação que eu entendia como função de ligação era na verdade função de ligação e preditor linear juntos. O preditor linear, também chamado de componente sistemático, é o que está no lado direito da fórmula (Crawley, 2007), ou seja, uma função linear que combina um conjunto de coeficientes e variáveis independentes cujos valores são usados para prever o valor da variável dependente (em verde nas próximas funções de verossimilhança). Já a função de ligação é uma transformação feita no parâmetro da distribuição para que ele assuma valores possíveis dentro da distribuição de origem dele e relacione ele linearmente com as co-variáveis. Sendo a transformação do parâmetro, a função de ligação é o que está do lado esquerdo da equação (em vermelho nas próximas funções de verossimilhança).
Para distribuição Normal:
previsibilidade← function(a,b){
-sum(dnorm(dados,mean=mu_sob,sd=sd(dados),log=TRUE))}
Para distribuição Beta:
previsibilidade← function(a,b){
logit(mu_sob) = b+a* previsibilidade # mu_sob = exp(b+ previsibi. *a)/(1+exp(b+ previsibi. *a))
-sum(dbeta(dados,shape1=mu_sob,shape2= sd(dados),log=TRUE))}
A importância da função de ligação é transformar a estimativa feita pelo preditor linear em um valor possível dentro do espaço amostral da distribuição e também minimizar o desvio residual “residual deviance” (Crawley, 2007). Assim, pensando em uma distribuição normal, com espaço amostral [-∞,+∞], as estimativas podem retornar qualquer valor real que ainda será um valor possível dessa distribuição (a função identidade faz sentido). No entanto, pensando na distribuição beta, com espaço amostral [0,1], os valores estimados do parâmetro têm que estar dentro desse intervalo e uma função que transforma os valores estimados em valores dentro desse intervalo pode ser a função logit (ln(p/1-p)). Ainda, a função log, que transforma qualquer valor negativo em positivo, parece adequada para distribuições que não aceitam valores negativos. Isso responde (ou pelo menos começa a responder) a minha primeira pergunta: por ser uma transformação do parâmetro para que a estimativa adquira valores dentro do espaço amostral da distribuição, faz sentido que cada distribuição tenha uma função que resulte em um valor dentro daquele determinado intervalo. No exemplo, exp(b+x*a)/(1+exp(b+x*a)) é uma razão e o termo superior é menor que o inferior e, portanto, o resultado será sempre menor que 1. Por outro lado, por ser exp(), o valor superior será sempre positivo e, portanto a razão será maior que 0, de acordo com o espaço amostral da distribuição Beta.
Como nós estamos interessados no valor estimado do parâmetro e não do seu logit (ou log em outras situações), escrevemos na função de verossimilhança a relação entre o parâmetro e as variáveis independentes com o parâmetro “livre”, mas a transformação que a função de ligação inicialmente aplica é no parâmetro e não na relação entre as variáveis (preditor linear).
logit(mu_sob)= b+ a* alimento ⇔ mu_sob=exp(b+ alimento *a)/(1+exp(b+ alimento *a))
Em relação à minha segunda dúvida e fingindo de novo que minha variável pertence a uma distribuição normal para poder usar a função glm() (a distribuição beta não está dentro dos modelos lineares generalizados no R), a função de verossimilhança do modelo que diz que só a quantidade de alimento que importa para determinar quanta sobreposição seria:
alimento←function(a,b,c){
mu_sob= b+a*alimento+c*alimento^2
-sum(dnorm(dados,mean=mu_sob,sd= sd(dados),log=TRUE))}
Ou seja, essa mudança no modelo não está relacionada com a função de ligação e sim com o preditor linear e, portanto, ela pode ser informada na função glm() usando a seguinte notação: glm(sobreposição~alimento + I(alimento^2), Family=”normal”). Da mesma forma, consigo resolver a terceira dúvida: sendo que a relação entre as variáveis independentes e a variável dependente é informada no preditor linear, o modelo que indica que a previsibilidade importa quando a abundância do alimento importa pode ser especificado por: glm(sobreposição~alimento+I(alimento2)+ previsibilidade:alimento+previsibilidade :alimento2 ,Family=”normal”).
Outras considerações sobre função de ligação
Algo bastante importante que até agora não citei é que função de ligação é um conceito relacionado com modelos lineares generalizados. Se a relação entre as variáveis independentes e a variável dependente pode ser linearizada (através da função de ligação) e a dependente pertence à família exponencial de distribuições, o modelo será um GLM. No entanto nem todas as relações podem ser linearizadas (e.g. relações nas quais a variável independente é a potência) e isso não faz com que um modelo que relacione essas variáveis deixe de ser informativo. Nesse caso ainda será possível construir uma função de verossimilhança indicando a relação entre as variáveis, mas o conceito de função de ligação deixa de ser aplicado já que a equação não lineariza a relação.
Ainda, há relações de polinômios que não podem ser linearizadas. Mesmo considerando o conceito de modelos lineares visto no curso “aqueles que a variável independente não é a potência, mas pode ser elevada a alguma potência”, conforme o polinômio fica complexo, ele não pode ser linearizado.
Algumas Dúvidas
Conforme fui pesquisando encontrei que as distribuições da família exponencial poderiam ser tratadas como GLMs (Vlachos, 2010) e que a distribuição Beta pertence à família exponencial (Wolpert), mas a função glm() do R não aceita a distribuição Beta. Essa confusão eu ainda não consegui resolver inteiramente, mas descobri que GLM está relacionado a um sub-conjunto específico da família exponencial, a família exponencial Natural e que distribuição Beta não pertence a esse sub-conjunto (Clark & Charles, 2004). De maneira bem geral, entendi que pertencer à família exponencial significa que a função de densidade depende somente de y e do parâmetro de dispersão (sigma^2). Quando sigma^2 é conhecido, essa distribuição passa a ser da família exponencial Natural (Jørgensen, 2011). Nesse caso, faz sentido que a distribuição Beta não seja natural pois ela tem dois parâmetros (shape1 e shape2) desconhecidos. Novamente, ainda não estou muito certa disso, ou do que isso quer dizer.
Referências Bibliográficas
Bolker, B.M. (2008) “Ecological Models and Data in R” Princeton: Princeton University Press
Clark, D.R. and Charles A.T. (2004) “A Primer on the Exponential Family of Distributions.”CAS Discussion Paper Program, 117-148
Crawley, M.J. (2007) “The R Book” New York: Wiley
Jørgensen, B. (2011) “Generalized Linear Modelos” Denmark: University of Southern Denmark
Mackenzie, D.I., Nichols, J.D., et al. (2006) “Occupancy Estimation and Modeling” Inferring patterns and dynamics of species occurrence: Elsevier. 324 p.
Maher, C.R. and Lott, D.F. (2000) A review of ecological determinants of territoriality within vertebrate species. American Midland Naturalist. 143(1): p. 1-29.
Vlachos, A. (2010) “Notes on exponential family distributions and generalized linear models”
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Marin, G. L. 2014. Esclarecimento do conceito de função de ligação a partir do estudo de territorialidade. In: Prado , P.I. & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.