historico:2014:ensaios:marin
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anterior | |||
historico:2014:ensaios:marin [2014/10/24 17:32] – [O novo conceito de função de ligação] gabriela.marin | historico:2014:ensaios:marin [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ====== Esclarecimento do conceito de função de ligação a partir do estudo de territorialidade ====== | ||
+ | === Gabriela de Lima Marin === | ||
+ | * // | ||
+ | |||
+ | * // | ||
+ | |||
+ | |||
+ | ---- | ||
+ | |||
+ | Considerando a proposta inicial do ensaio - como algum conceito da disciplina pode ser útil na sua área de pesquisa - optei por fazer o contrário. Inicialmente eu pretendia avaliar importância do estabelecimento da função de ligação para a tradução de hipóteses em modelos matemáticos dentro do estudo da territorialidade, | ||
+ | |||
+ | ==== Relembrando... ==== | ||
+ | |||
+ | A territorialidade, | ||
+ | |||
+ | {{: | ||
+ | |||
+ | //Figura 1: Modelo teórico com relação de parábola entre territorialidade e abundância de alimento. Retirado de Maher & Lott (2000).// | ||
+ | |||
+ | No entanto, não são todas as variáveis independentes que têm essa relação de parábola. Espera-se que a previsibilidade (espacial ou temporal) do alimento influencie a territorialidade de forma linear (figura 2). | ||
+ | |||
+ | {{: | ||
+ | |||
+ | //Figura 2: Modelo teórico com relação linear entre territorialidade e previsibilidade de alimento. Retirado de Maher & Lott (2000).// | ||
+ | |||
+ | No meu trabalho, eu acesso a territorialidade de pequenos mamíferos medindo o tamanho da área de vida (calculado pelo método MCP- polígonos plotados em uma grade) e a porcentagem de sobreposição da área de vida (desse polígono) de um indivíduo com a de outros indivíduos (medida inversa da territorialidade). Considerando a porcentagem de sobreposição, | ||
+ | |||
+ | ==== O primeiro conceito de função de ligação===== | ||
+ | |||
+ | Durante a disciplina, conforme construíamos funções de verossimilhança, | ||
+ | |||
+ | previsibilidade< | ||
+ | |||
+ | [[: | ||
+ | |||
+ | -sum(dnorm(dados, | ||
+ | |||
+ | E essa relação linear entre o próprio parâmetro e a covariável tinha o nome de função identidade. | ||
+ | Agora, considerando a distribuição Beta, a função de ligação dentro da função de verossimilhança seria: | ||
+ | |||
+ | previsibilidade< | ||
+ | |||
+ | [[: | ||
+ | |||
+ | -sum(dbeta(dados, | ||
+ | |||
+ | |||
+ | E essa relação entre uma variável que deve ter uma relação de reta com a variável dependente recebe o nome de logit. Como eu entendia que função de ligação era tudo o que estava em vermelho, eu entendia que determinar a função de ligação era determinar também a relação do lado direito da equação (a+bX para o primeiro exemplo e exp(a+bX) no segundo). | ||
+ | |||
+ | Em alguns momentos da disciplina foi discutido que é possível utilizar outras funções de ligação para cada distribuição, | ||
+ | |||
+ | Conforme ia estudar sobre o assunto, as definições dos livros “A função que estabelece essa relação linear entre a média da função de densidade da variável dependente e a variável explicativa” (Bolker, 2008; Mackenzie et al, 2006) pareciam bastante com o meu entendimento, | ||
+ | |||
+ | |||
+ | ==== O novo conceito de função de ligação===== | ||
+ | |||
+ | Foi somente conversando e tirando dúvidas que percebi que a equação que eu entendia como função de ligação era na verdade função de ligação e preditor linear juntos. O preditor linear, também chamado de componente sistemático, | ||
+ | |||
+ | __Para distribuição Normal:__ | ||
+ | |||
+ | previsibilidade< | ||
+ | |||
+ | [[: | ||
+ | | ||
+ | -sum(dnorm(dados, | ||
+ | |||
+ | __Para distribuição Beta:__ | ||
+ | |||
+ | previsibilidade< | ||
+ | |||
+ | [[: | ||
+ | |||
+ | -sum(dbeta(dados, | ||
+ | |||
+ | A importância da função de ligação é transformar a estimativa feita pelo preditor linear em um valor possível dentro do espaço amostral da distribuição e também minimizar o desvio residual “residual deviance” (Crawley, 2007). Assim, pensando em uma distribuição normal, com espaço amostral [-∞, | ||
+ | |||
+ | Como nós estamos interessados no valor estimado do parâmetro e não do seu logit (ou log em outras situações), | ||
+ | |||
+ | logit(mu_sob)= b+ a* alimento | ||
+ | |||
+ | Em relação à minha segunda dúvida e fingindo de novo que minha variável pertence a uma distribuição normal para poder usar a função glm() (a distribuição beta não está dentro dos modelos lineares generalizados no R), a função de verossimilhança do modelo que diz que só a quantidade de alimento que importa para determinar quanta sobreposição seria: | ||
+ | |||
+ | alimento< | ||
+ | |||
+ | mu_sob= [[: | ||
+ | |||
+ | -sum(dnorm(dados, | ||
+ | |||
+ | Ou seja, essa mudança no modelo não está relacionada com a função de ligação e sim com o preditor linear e, portanto, ela pode ser informada na função glm() usando a seguinte notação: glm(sobreposição~alimento + I(alimento^2), | ||
+ | |||
+ | ==== Outras considerações sobre função de ligação ==== | ||
+ | | ||
+ | Algo bastante importante que até agora não citei é que função de ligação é um conceito relacionado com modelos lineares generalizados. Se a relação entre as variáveis independentes e a variável dependente pode ser linearizada (através da função de ligação) e a dependente pertence à família exponencial de distribuições, | ||
+ | |||
+ | Ainda, há relações de polinômios que não podem ser linearizadas. Mesmo considerando o conceito de modelos lineares visto no curso “aqueles que a variável independente não é a potência, mas pode ser elevada a alguma potência”, | ||
+ | |||
+ | ==== Algumas Dúvidas==== | ||
+ | |||
+ | Conforme fui pesquisando encontrei que as distribuições da família exponencial poderiam ser tratadas como GLMs (Vlachos, 2010) e que a distribuição Beta pertence à família exponencial (Wolpert), mas a função glm() do R não aceita a distribuição Beta. Essa confusão eu ainda não consegui resolver inteiramente, | ||
+ | |||
+ | ==== Referências Bibliográficas ==== | ||
+ | |||
+ | Bolker, B.M. (2008) “Ecological Models and Data in R” Princeton: Princeton University Press | ||
+ | |||
+ | Clark, D.R. and Charles A.T. (2004) “A Primer on the Exponential Family of Distributions.”CAS Discussion Paper Program, 117-148 | ||
+ | |||
+ | Crawley, M.J. (2007) “The R Book” New York: Wiley | ||
+ | |||
+ | Jørgensen, B. (2011) “Generalized Linear Modelos” Denmark: University of Southern Denmark | ||
+ | |||
+ | Mackenzie, D.I., Nichols, J.D., et al. (2006) “Occupancy Estimation and Modeling” Inferring patterns and dynamics of species occurrence: Elsevier. 324 p. | ||
+ | |||
+ | Maher, C.R. and Lott, D.F. (2000) A review of ecological determinants of territoriality within vertebrate species. American Midland Naturalist. 143(1): p. 1-29. | ||
+ | |||
+ | Vlachos, A. (2010) “Notes on exponential family distributions and | ||
+ | generalized linear models” | ||
+ | |||
+ | ===== Citação ===== | ||
+ | |||
+ | Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo: | ||
+ | |||
+ | Marin, G. L. 2014. Esclarecimento do conceito de função de ligação a partir do estudo de territorialidade. In: Prado , P.I. & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: |