Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:madelaire

INTRODUÇÃO A SELEÇÃO DE MODELOS E APLICAÇÃO EM ESTUDOS ECOFISIOLÓGICOS

Carla Bonetti Madelaire - Doutoranda do programa de pós-graduação em Fisiologia Geral do Instituto de Biociências da Universidade de São Paulo - cmadelaire@yahoo.com.br

O processo científico em Biologia procura entender como e por quê ocorrem determinados padrões e processos na natureza. Esse entendimento ocorre através de análise de dados coletados empiricamente (Johnson e Omland, 2004). Variáveis que possivelmente explicam um processo ou padrão são coletadas e executam-se análises estatísticas que permitam embasar hipóteses e inferências. Embora acredite-se que a estatística frequentista seja adequada para experimentos de manipulação (Mazzeroli, 2006), o mundo biológico real abriga uma maior diversidade de variância e padrões de distribuição de dados que não são contemplados pelas análises da estatística clássica.

Nesse sentido, os métodos de seleção de modelos baseado na teoria da informação (Ellison, 1996; Wade, 2000; Burnham and Anderson, 2002, 2004) avançam em termos de análises de dados biológicos provindos da natureza, pois confrontam vários modelos explicativos que apresentam significado biológico, ranqueando os modelos elencados e atribuindo intensidade de efeito da(s) variável(eis) preditora(s). Permitindo assim, uma maior liberdade de inferência quando comparados a estatística clássica, que apenas informa se a variável resposta apresenta efeito ou não (Mazzeroli, 2006).

O primeiro passo para empregar o método de seleção de modelos é formular hipóteses biológicas no formato de modelos. Sendo que a variável resposta = φ que pode ser explicada por variáveis preditoras = ω 1 e/ou ω 2:

Modelo 1: φ ~ ω 1

Modelo 2: φ ~ ω 2

Modelo 3: φ ~ ω 1 + ω 2

Modelo 4: φ ~ ω 1 * ω 2

Este é um passo essencial que deve ser realizado durante a elaboração do projeto, pois as hipóteses verbais ou gráficas são transcritas em modelos que irão guiar o processo de coleta de dados. Os modelos devem representar o entendimento teórico de quais fatores estão envolvidos no processo que está sendo investigado (Johnson e Omland, 2004).

O segundo passo envolve ajustar os modelos aos dados observados utilizando o método de máxima verossimilhança (Johnson e Omland, 2004). Para sabermos o valor de verossimilhança de um modelo, utilizamos a função de verossimilhança que calcula como o valor dos parâmetros dos modelos variam dado um conjunto de observações (Batista, 2009). Esse valor de verossimilhança é calculado para todos os modelos postulados. Assim, temos em valores numéricos quão verossímil é cada uma das hipóteses ou modelos.

O terceiro passo envolve a seleção do melhor modelo, ou seja, escolher entre as hipóteses elencadas a que suporta melhor o seu conjunto de observações. Através dos valores de verossimilhança pode ser feito um ranqueamento decrescente, sendo que o primeiro modelo do ranking é o que melhor se ajusta aos dados observados (Johnson e Omland, 2004). O critério utilizado no ranqueamento é o “Critério de Informação de Akaike” (AIC) (1974). O AIC se baseia na função de verossimilhança e introduz um fator de correção que penaliza pelo número de parâmetros dos modelos (Turkman e Silva, 2000). A penalização se faz necessária porque quanto maior o número de parâmetros, geralmente maior o poder de explicação de um modelo. Assim, o AIC faz uma estimativa da distância relativa entre o modelo ajustado e os valores observados (Burnham e Anderson, 2002), permitindo uma otimização entre poder explicativo e número de parâmetros de um determinado conjunto de modelos (Johnson e Omland, 2004). Uma segunda correção de viés do AIC pode ser feita para amostras de pequeno número (derivada de Sugiura, 1978 e Hurvich e Tsai, 1989) que é conhecido como AICc. Esta correção representa uma prática importante (Burnham et al. 2011) principalmente para estudos em Ecofisiologia que apresentam imensa dificuldade para obter um n grande de observações.

O quarto passo envolve a inferência de padrões e processos a partir dos dados observados e do(s) modelo(s) selecionado(s) (Johnson e Omland, 2004). A inferência a partir de um ou mais modelos pode considerar a importância das variáveis preditoras e essa importância pode ser calculada a partir da normalização da verossimilhança do conjunto de modelos. A normalização da verossimilhança consiste em atribuir um peso de evidência a partir da verossimilhança, de forma que o peso total dos modelos some 1 (Burnham e Anderson, 2001). Como o valor do peso de Akaike (AICw) varia entre 0 e 1, os valores de peso atribuídos a cada modelo podem ser considerados análogos a probabilidade de um dado modelo ser o mais explicativo (Symonds e Moussalli, 2011).

Com o intuito de tornar esses conceitos e a aplicação da técnica de seleção de modelos mais palpável, darei um exemplo a partir de dados parciais obtidos na minha dissertação de mestrado analisados com esta técnica.

ANÁLISE DE SELEÇÃO DE MODELOS EM ESTUDOS ECOFISIOLÓGICOS – UM EXEMPLO PRÁTICO

Estudos ecofisiológicos procuram entender como e por quê alguns processos ocorrem e se há sinergia entre as diferentes variáveis que podem afetar determinados processos. No caso dos anfíbios anuros, a maior parte das espécies apresenta um padrão reprodutivo sazonal, caracterizado nos machos por um pico de andrógenos que desencadeia maturação testicular, bem como manutenção do comportamento sexual. No entanto, os altos níveis de andrógenos podem apresentar um efeito imunossupressor, podendo aumentar a probabilidade de infecções parasitárias. Rhinella jimi , anuro da Caatinga Brasileira, depende das chuvas para a reprodução, que é um evento imprevisível neste ambiente. Durante o período de estiagem, esta espécie permanece ativa quanto ao forrageamento, o que possibilita a coleta dos animais fora do período reprodutivo, quando os níveis hormonais encontram-se baixos. Esse modelo de estudo é ideal para compreender como os níveis sazonais de andrógenos e a carga parasitária interagem acentuando os ajustes das características morfológicas e fisiológicas. Foram estudadas as inter-relações entre concentração plasmática de testosterona, número de parasitas totais, massa de órgãos e conteúdo estomacal de R. jimi durante o evento reprodutivo (A) e durante a seca (B). Com os dados de massa de órgãos e conteúdo estomacal foi realizada uma análise de componentes principais (PCA), sendo considerados apenas os componentes com eigenvalues maior que 1.00. O primeiro componente da PCA foi composto por massa de corpos gordurosos, rim e baço explicando 40,2% da variância e as variáveis estavam positivamente correlacionadas. Os scores extraídos pela regressão foram salvos como variáveis e utilizados na seleção de modelos como variável resposta, sendo chamado de componente morfológico = φ.

PASSO 1- Formulação das hipóteses, de acordo com o background teórico, de como a testosterona, período do ano e número de parasitas podem afetar ajustes morfológicos.

Nossa hipótese inicial é que a variação sazonal da testosterona associada a intensidade parasitária pode afetar a massa de órgãos. A testosterona é um hormônio que estimula o crescimento e desenvolvimento muscular dos animais, assim animais maiores podem apresentar rins e baços maiores. A testosterona também apresenta um efeito imunossupressor que pode afetar os níveis parasitários e por sua vez, os parasitas podem afetar a massa de órgãos dos indivíduos devido a estimulação imunológica de órgãos associados a resposta imune. Assim, nossos modelos incluem testosterona, período e número total de parasitas como variáveis explicativas. Neste passo também incluímos um modelo nulo, pois há a possibilidade de que alguma variável que não foi coletada seja responsável pela variação morfológica nessa espécie:

Modelo 1: φ ~ 1 (modelo nulo)

Modelo 2: φ ~ testosterona

Modelo 3: φ ~ parasitas

Modelo 4: φ ~ período

Modelo 5: φ ~ testosterona + parasitas

Modelo 6: φ ~ testosterona*parasitas

Modelo 7: φ ~ testosterona + período

Modelo 8: φ ~ parasita + período

Modelo 9: φ ~ testosterona + parasita + período

Modelo 10: φ ~ testosterona * parasita + período

PASSO 2 - Ajuste dos modelos através dos modelos lineares gerais (glm - general linear model), o termo gerais significa apenas que a variável resposta pode depender de mais de um fator, ao contrário do modelo linear simples. Os glm são uma extensão dos tradicionais modelos de regressão linear, em que uma variável resposta depende linearmente de variáveis preditoras. Podemos utilizar a função glm do pacote bbmle para ajustar nossos modelos. Os dados analisados nesse ensaio apresentam distribuição normal, porém essa função (glm) também permite ajustar modelos em que a variável resposta não apresenta uma distribuição gaussiana [para mais detalhes, help (glm), help(family)].

 glm(morph1~1)  - > M1
 
 glm(morph1~testos) - >  M2
 
 glm(morph1~parasi) - >  M3
 
 glm(morph1~period) - >  M4
  
 glm(morph1~testos+parasi) - >  M5
 
 glm(morph1~testos*parasi) - >  M6
 
 glm(morph1~testos+period) - >  M7
 
 glm(morph1~parasi+period) - >  M8

 glm(morph1~testos+parasi+period) - >  M9

 glm(morph1~testos*parasi+period) - >  M10

PASSO 3 - Ranqueamento e escolha do melhor modelo, utilizando a função AICctab. A função AICctab pode apresentar como resultado o ranqueamento dos modelos em ordem decrescente, com seu respectivo AIC, número de paramêtros, delta AICc (que é que diferença entre AICc do modelo e o menor AICc) e o AICweight.

AICctab(M1,M2,M3,M4,M5,M6,M7,M8,M9,M10,base=T, weights=T, nobs=20)

Ranqueamento dos modelos:

AIC df dAICc AICweight
M2 58.8 3 0.0 0.54450
M6 59.9 5 1.9 0.20681
M5 60.4 4 2.4 0.16224
M7 63.8 5 5.8 0.02980
M1 64.4 2 6.4 0.02221
M3 65.4 3 7.4 0.01378
M4 65.9 4 7.9 0.01061
M9 67.5 6 9.5 0.00482
M8 68.5 5 10.5 0.00288
M10 68.9 7 10.9 0.00236

Importante salientar que a escolha do limite do valor de dAICc que considera dois ou mais modelos igualmente plausíveis sugerido por Burnham & Anderson (2002) é 2. No entanto, a utilização de um limite menor pode ficar a critério da parcimônia do cientista. Ao utilizarmos dAICc até 2, obtivemos que o modelo 2 e 6 são os mais verossímeis para explicar a variação de dados morfológicos. O modelo 2 apresenta uma chance de 54% de ser o melhor para explicar os dados, e o modelo 6 apresenta 21% de chance.

PASSO 4 - Inferência

De acordo com os modelos selecionados, a massa do baço, rim e corpos gordurosos é maior quanto maior os níveis de testosterona (Figura 1) e o número de parasitas (Figura 2). O primeiro modelo indica que os animais com maiores níveis de testosterona possuem maiores reservas energéticas que podem ser utilizadas durante o período de corte. O segundo modelo selecionado é o que apresenta interação entre testosterona e número de parasitas (Figura 3). Este resultado está de acordo com a literatura que demonstra a ação imunossupressora da testosterona e seus efeitos no aumento da carga parasitária. Importante salientar que rim e baço são orgãos que apresentam função imunitária em anfíbios anuros, animais que apresentaram rins e baços maiores também apresentavam maior carga parasitária indicando que possivelmente esses orgãos estão mais ativos em resposta ao parasitismo. Além disso, mesmo com maior número de parasitas, os indivíduos apresentam maior massa de corpos gordurosos, demonstrando que os machos em melhores condições conseguem superar os efeitos deletérios da carga parasitária.

1_morphological_component_and_testosterone0.jpg

Figura 1. Relação entre Componente morfológico e concentração plasmática de testosterona.

1_morphological_component_and_number_of_parasites0.jpg

Figura 2. Relação entre Componente morfológico e número de parasitas totais.

number_of_parasites_and_testosterone0.jpg

Figura 3. Relação entre número de parasitas totais e concentração plasmática de testosterona.

Referências bibliográficas

Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.

Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.

Burnham, K.P. e Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.

Burnham, K.P., Anderson, D.R. 2004. Multimodel inference: understanding AIC and BIC in model selection. Sociol. Method. Res. 33: 261-304.

Burnham, K.P., Anderson, D.R. e Huyvaert, K.P. 2011. AIC model selection and multimodel inference in behavioral ecology: some background, observations, and comparisons. Behav Ecol Sociobiol: 65:23–35.

Ellison, A.M. 1996. An introduction to Bayesian inference for ecological research and environmental decisionmaking. Ecol. Appl. 6: 1036-1046.

Hurvich, C.M. e Tsai, C-L. 1989. Regression and time series model selection in small samples. Biometrika 76:297–307.

Johnson, J. B. & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution, 19:101-10

Mazerolle, M.J. 2006. Improving data analysis in herpetology: using Akaike’s Information Criterion (AIC) to assess the strength of biological hypotheses. Amphibia-Reptilia 27:169-180.

Symonds, M.R.E. e Moussalli, A. 2011. A brief guide to model selection, multimodel inference and model averaging in behavioural ecology using Akaike’s information criterion. Behav Ecol Sociobiol. 65:13–21.

Sugiura, N. 1978. Further analysis of the data by Akaike’s information criterion and the finite corrections. Commun Stat, Theory. Methods A7:13–26.

Turkman, M. e Silva, G. 2000. Modelos Lineares Generalizados - da teoria à prática, Universidade Técnica de Lisboa.

Wade, P.R. 2000. Bayesian methods in conservation biology. Conserv. Biol. 14: 1308-1316.

historico/2014/ensaios/madelaire.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1