Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:prado

Seleção de modelos na Ecologia da Paisagem

Amanda Prado

* Pós-graduação em Ecologia, Universidade de São Paulo/Instituto de Biociências

* amandaprado07@gmail.com

Seleção de modelos

A seleção de modelos é uma ferramenta que permite fazer inferências sobre processos não observados a partir de padrões observados. Esta ferramenta já é bem estabelecida em algumas áreas das ciências naturais e, nas últimas décadas, vem sendo implementada em certas disciplinas da biologia, como na Ecologia e na Evolução (Johnson e Omland, 2004). Sua crescente aceitação nestas áreas do conhecimento provavelmente é devido à possibilidade de calcular a plausibilidade de diversas hipóteses contrastantes ao mesmo tempo, ao contrário do que ocorre na abordagem clássica, na qual uma hipótese de interesse é testada contra uma única hipótese contrastante, a hipótese nula. Poder arbitrar sobre diversas hipóteses diferentes para um mesmo padrão ou processo pode ser particularmente útil quando estamos lidando com sistemas complexos e de difícil manipulação experimental, como é o caso de muitos estudos das ciências biológicas (Johnson e Omland, 2004).

O processo de seleção de modelos pode ser resumido em três passos principais: 1.) gerar um conjunto de hipóteses que melhor represente os fatores que se pensa estarem envolvidos no processo de interesse; 2.) Após a coleta de dados, deve-se ajustar os modelos aos dados observados; 3.) Selecionar a(s) hipótese(s) que é (são) melhor suportada(s) pelos dados (Johnson e Omland, 2004).

1º passo: criação do conjunto de hipóteses

Este passo consiste em pensar em hipóteses que possivelmente expliquem o fenômeno observado e traduzí-las em modelos matemáticos. As hipóteses podem representar modelos diferentes ou valores particulares de parâmetro(s) de um único modelo (Burnhan e Anderson, 2002).

O ideal é que os modelos que concorrerão sejam criados antes da coleta e análise dos dados (Johnson e Omland, 2004) e que as hipóteses sugeridas sejam amplamente suportadas pela teoria (Burnhan e Anderson, 2002). É fundamental que essa etapa seja feita cuidadosamente e com muito embasamento teórico, pois só poderemos arbitrar entre os modelos que sugerimos como prováveis para explicar o fenômeno em questão. Assim, se os modelos incluídos não fizerem sentido para explicar o fenômeno analisado, ao final do processo teremos uma hipótese selecionada, porém essa hipótese não fornecerá uma boa explicação de mundo (Johnson e Omland, 2004).

2º passo: ajuste dos modelos

A seleção de modelos é baseada na inferência por verossimilhança, a qual fornece uma medida da probabilidade de se observar os dados coletados, dado um modelo particular, com forma e valores de parâmetros específicos (Bolker, 2008). Entretanto, quando coletamos um conjunto de dados, não conhecemos o modelo e nem os valores dos parâmetros do modelo a partir do qual os dados coletados são provenientes. Podemos estimar os valores dos parâmetros a partir da função de verossimilhança (Burnhan e Anderson, 2002), que indica a plausibilidade de uma dada hipótese (neste caso, valor de parâmetro do modelo), dado que se obteve uma determinada observação (Batista, 2009).

A função de verossimilhança para uma amostra com apenas uma observação é calculada com a mesma função de densidade probabilística da distribuição do modelo (por exemplo, Poisson, Binomial, Gaussiana, etc) que acreditamos terem gerado os dados, porém, neste caso, fixam-se os valores das observações e mantêm-se variáveis os valores dos parâmetros (Bolker, 2008). Entretanto, mais condizente com os estudos científicos, quando temos múltiplas observações, a função de verossimilhança resultante será igual ao produto das funções de verossimilhança das observações independentes (Batista, 2009).

A melhor estimativa para o valor dos parâmetros, dado o conjunto de dados e o modelo especificado, é aquela que maximiza a função de verossimilhança e este valor é chamado de estimativa de máxima verossimilhança (Bolker, 2008). O método para calcular essa estimativa para modelos com um ou mais parâmetros pode ser encontrado em Batista (2009). Ao encontramos o valor de estimativa de máxima verossimilhança, dizemos que o modelo está ajustado aos dados, ou seja, que aqueles valores de parâmetros são os que tornam os dados observados mais prováveis de terem ocorrido (Bolker, 2008). Encontrado esse valor, podemos prosseguir com a seleção dos modelos, comparando-os e ranqueando-os de acordo com a sua plausibilidade diante dos dados.

3º passo: seleção dos melhores modelos

A seleção de modelos consiste na comparação dos modelos dois-a-dois através da razão de verossimilhança, um critério de comparação objetivo (Edwards,1972), que segue a Lei da Verossimilhança. Essa lei afirma que o modelo mais plausível é aquele que atribui maior probabilidade às observações obtidas (Batista, 2009). Desta forma, quando fazemos a razão das funções de verossimilhança de duas hipóteses diferentes, o resultado obtido explicita quantas vezes aquela hipótese é mais respaldada pelos dados do que a outra. Este valor é chamado de força de evidência (Batista, 2009) de uma hipótese em relação à outra.

Utilizando a razão de verossimilhança, podemos ranquear os modelos candidatos. Porém, existe um intervalo ao redor da estimativa de máxima verossimilhança no qual a razão de verossimilhança não ultrapassa certo limite e, então, consideramos que todos os modelos dentro deste intervalo são igualmente plausíveis (Batista, 2009). Esse intervalo é conhecido como intervalo de verossimilhança e tem sido amplamente assumido como tendo valor de 8.

Um princípio que temos que levar em conta quando estamos selecionando modelos é o Princípio da Parcimônia. De acordo com ele, quando dois modelos possuem poder de explicação igual, opta-se pelo mais simples, que geralmente é o que contem menos parâmetros (Burnham e Anderson, 2002; Batista, 2009). Entretanto, modelos com mais parâmetros tendem a possuir melhor ajuste do que aqueles com menos parâmetros. Por isso, um bom método para selecionar modelos é através do Critério de Informação de Akaike (AIC), o qual penaliza os modelos de acordo com o número de parâmetros (Burnham e Anderson, 2002), portanto, quanto menor o AIC, melhor o modelo. Modelos com uma diferença de AIC (dAIC) igual ou menor do que 2 são considerados igualmente plausíveis. Há uma correção do AIC para amostras pequenas chamado AICc, que tendo ao valor do AIC conforme aumenta o tamanho da amostra.

Além disso, podemos dar um peso relativo de suporte para cada um dos modelos concorrentes, que mostra a probabilidade de cada modelo ser o melhor, de acordo com os dados observados e segundo o conjunto de modelos que competiram (Johnson e Omland, 2004). Esse peso é conhecido como peso de evidência e a soma dos pesos de todos os modelos deve ser 1.

Aplicação da seleção de modelos no meu projeto de mestrado

Meu projeto de mestrado visa compreender como a estrutura da paisagem influencia a abundância de duas espécies de roedores, Oligorymozys nigripes e Necromys lasiurus, que são reservatórios dos hantavírus no bioma da Mata Atlântica. É conhecido que ambas as espécies são generalistas, possuem boa capacidade de adaptação a ambientes antrópicos e podem ser beneficiadas pelas mudanças no uso de solo, fazendo com que se tornem dominantes em habitats perturbados e agrícolas e se dispersem para áreas rurais e peri-urbanas (Putker et al., 2008; Goodin et al., 2006), o que proporciona maior contato destes com os seres humanos, facilitando a infecção por hantavírus nessas áreas (Figueiredo et al., 2009; Suzan et al., 2008).

Possuo dados de abundância das duas espécies em fragmentos e na matriz de três paisagens da Mata Atlântica. As paisagens possuem, cada uma, aproximadamente 10 mil hectares e diferem quanto à porcentagem de cobertura florestal: a paisagem de Tapiraí possui cerca de 10%, a de Caucaia cerca de 30% e a de Ribeirão Pires possui cerca de 50% de cobertura florestal. Além disso, há dados de abundância dos roedores em áreas controle, com 100% de cobertura vegetal. A cobertura de uso da terra das três paisagens foi classificada, através de imagens de satélite, em três categorias: mata, campo antrópico (composto por pastagem e agricultura e era o tipo de matriz predominante nas três paisagens) e outros.

Seguindo a metodologia proposta por Ribeiro et al. (2012), ao redor de cada ponto de coleta, nos fragmentos e na matriz, fiz buffers de raios de 200, 300, 400, 500 e 800 metros para determinar a escala que mais influencia nas abundâncias. Dentro de cada um desses buffers foi calculada, através do programa Fragstas versão 3.3, algumas métricas da paisagem: porcentagem de mata (PMata), porcentagem de campo antrópico (PCampo), número de fragmentos florestais (NP) e densidade de borda (ED). Escolhi essas métricas, pois, de acordo com a literatura, acredito que elas estejam relacionadas com a abundância de O. nigripes e N. lasiurus.

Após a escolha e extração das métricas da paisagem, fiz uma análise exploratória dos dados e, sendo a minha variável resposta uma variável discreta (abundância), fiquei em dúvida se o melhor modelo para meus dados seguiria uma distribuição Poisson ou Binomial negativa. A distribuição Poisson é usada para dados de contagem por unidade de tempo ou espaço. A distribuição Binomial Negativa é semelhante à Poisson, porém permite que a variância seja maior do que a média (Bolker, 2008), sendo utilizada normalmente para sistemas agregados. Para definir qual distribuição usar, comparei dois modelos no programa R, um utilizando a função glm do pacote stats, com a família “Poisson”, que ajusta o modelo a essa distribuição, e outro usando a função glm.nb do pacote MASS, a qual ajusta os modelos à Binomial negativa. De acordo com o resultado do ajuste, o modelo com a binomial negativa é a que possui menor AICc, sendo, então, escolhido como o melhor distribuição para os dados.

Utilizando a função de ajuste da binomial negativa (glm.nb), montei os modelos da influência da paisagem sobre a abundância dos roedores para cada buffer citado anteriormente. Para cada buffer, criei modelos simples, levando em consideração a PMata, PCampo, NP e ED, e um modelo aditivo de PMata mais ED, totalizando 25 modelos candidatos para cada espécie. Esses modelos foram comparados com modelos de ausência de efeito (modelo nulo) em termos do AICc. Além disso, foi medido o peso de evidência para cada um dos modelos. Abaixo segue uma tabela com os resultados obtidos.

Tabela 1. Resultados da seleção de modelos, relacionando a abundância dos roedores (ON = O. ngripes e NL = N. lasiurus), com a estrutura da paisagem (PMata, PCampo e ED) nas diferentes escalas (valores entre parênteses nas variáveis preditoras). Gl = graus de liberdade do modelo.

ModeloVariável RespostaVariáveis PreditorasAICcGldAICcPeso de evidência
Modelo 1ONPMata(200m) + ED(200m)689,240,00,5613
Modelo 2ONPMata(200m)691,131,90,2171
Modelo 3ONPCampo(200m)691,132,00,2111
NuloONAusência de efeito786,3297,1<0,001
Modelo 1NLPMata(300m)236,630,00,1500
Modelo 2NLPCampo(300m)236,730,10,1405
Modelo 3NLPCampo(400m)237,030,40,1234
Modelo 4NLPCampo(200m)237,330,70,1057
Modelo 5NLPCampo(500m)237,831,20,0826
Modelo 6NLPMata(400m)237,831,20,0825
Modelo 7NLPMata(300m) + ED(300m)238,041,40,0737
Modelo 8NLPMata(200m)238,131,50,0695
NuloNLAusência de efeito522,12285,5<0,001

De acordo com o resultado da seleção de modelos, temos várias hipóteses igualmente plausíveis (dAICc < = 2). Para O. nigripes, a escala de 200m é a que mais explica sua abundância, já para N. lasiurus, a escala varia de 200 a 500m. Tanto PMata quanto PCampo são variáveis importantes para explicar a abundância dos roedores e NP não foi selecionado em nenhum modelo, não sendo, portanto, uma variável importante.

Seleção de Modelos na Ecologia da Paisagem

A seleção de modelos está sendo especialmente útil em meu trabalho de mestrado, pois tenho diversas hipóteses diferentes sobre como a abundância dos roedores é influenciada pelos diferentes componentes da paisagem. Através da seleção de modelos, pude comparar esses modelos ao mesmo tempo, o que eu não poderia fazer utilizando a estatística clássica. Além disso, pude reconhecer em qual escala a abundância de cada uma das espécies responde à estrutura da paisagem. Tais resultados podem basear tomadas de decisão que atuem no sentido de reduzir a abundância desses roedores, a fim de evitar que ocorram novos casos de hantavirose.

Desta forma, percebe-se que a abordagem de seleção de modelos pode ser muito útil para estudos que levam em consideração múltiplas hipóteses, como muitas vezes ocorre nos estudos da Ecologia da Paisagem.

Referências bibliográficas

Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura ”Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.

Bolker, B., 2008. Ecological Models and Data in R. Princeton University Press, Princeton.

Burnham, K.P.; Anderson, D.R. 2002. Model selection and multimodel inference. A practical information - theoretic approach. Springer, New York.

Edwards, A. W. F., 1972. Likelihood: An Account of the Statistical Concept of Likelihood and its Application to Scientific Inference. Cambridge University Press.

Figueiredo, L. T. M.; Moreli, M. L.; Sousa, R. L. M.; Borges, A. A.; Figueiredo, G. G.; Machado, A. M.; Bisordi, I.; Nagasse-Sugahara, T. K.; Suzuki, A.; Pereira, L. E.; Souza, R. P.; Souza, L. T. M.; Braconi, C. T.; Harsi, C. M.; Zanotto, P. M. A. 2009. Hantavirus Pulmonary Syndrome, Central Plateau, Southeastern, and Southern Brazililian. Emerging Infectious Disease 15: 561-567.

Goodin, D. G.; Koch, D. E.; Owen, R. D.; Chu, Y. K.; Hutchinson, J. M. S.; Jonsson, C. B. 2006. Land cover associated with hantavirus presence in Paraguay. Global Ecology and Biogeography 15: 519–527.

Johnson, J.; K. Omland, 2004. Model selection in ecology and evolution. Trends in Ecology and Evolution 19:101-108.

Püttker, T., Pardini, R., Meyer-Lucht, Y., Sommer, S. 2008. Fragmentation effects on population density of three rodent species in secondary Atlantic rainforest, Brazil. Studies of Neotropical Fauna Environment. 43: 11–18.

Ribeiro, D. B., Batista, R.; Prado, P. I; Brown Jr., K. S.; Freitas, A. V. L. 2012. The importance of small scales to the fruit-feeding butterfly assemblages in a fragmented landscape. Biodiversity Conservation.

Suzan, G.; Marcé, E.; Giermakowski, T.; Armién, B.; Pascale, J.; Mills, J.; Ceballos, G.; Gómez, A.; Aguirre, A. A.; Salazar-Bravo, J.; Armien, A.; Parmenter, R.; Yates, T. 2008b. The Effect of Habitat Fragmentation and Species Diversity Loss on Hantavirus Prevalence in Panama. Animal Biodiversity and Emerging Diseases: Ann. N.Y. Acad. Sci. 1149: 80–83.

Citação

Este ensaio é um produto de disciplina de pós-graduação da Universidade de São Paulo. Para citá-lo:

Prado, A. 2014. Título. In: Prado, P. I & Batista, J. L. F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781

historico/2014/ensaios/prado.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1