Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:bertoncello

Seleção de modelos como alternativa para estudo de estruturação de comunidades vegetais

Ricardo Bertoncello

* Departamento de Ecologia, Instituto de Biociências- USP *ricardobertoncello@gmail.com

Uma vez que é impossível coletar todos os dados espaciais e temporais para entendermos exatamente como a natureza funciona, precisamos fazer isso através de observações pontuais que nos permitam inferir sobre o restante dos dados não coletados. Para tanto, é preciso transformar as ideias em equações matemáticas (ou modelos) que simplificam o funcionamento do sistema e ainda assim consigam explicar boa parte das variações observadas (Johnson et al 2004). Tradicionalmente a ciência vinha se desenvolvendo no paradigma frequentista, que se baseia no teste de hipóteses, onde o foco é em apenas uma hipótese (hipótese nula) e se calcula a probabilidade de que os dados fossem observados caso essa hipótese fosse verdadeira. Se a probabilidade for pequena o suficiente (geralmente entre 0,01 e 0,05) a hipótese nula é rejeitada (Hilborn & Mangel 1997). Entretanto, rejeitar a hipótese nula não implica necessariamente que a hipótese alternativa esteja correta, embora frequentemente esta seja utilizada para explicar a rejeição da hipótese nula.

A abordagem de seleção de modelos, por sua vez, pode comparar múltiplas hipóteses (inclusive uma hipótese nula) e ver dentre as hipóteses (isso é, ideias transformadas em equações matemáticas) qual a mais adequada (ou as mais adequadas) baseada no conjunto de dados existente (Hilborn & Mangel 1997). Isso significa que mais de um modelo pode explicar os dados com probabilidade semelhante, e ainda que haja outros modelos melhores para explicar os dados, mas que não foram elencados pelo pesquisador. Haja vista a complexidade dos sistemas naturais, a possibilidade de testar diversas teorias concorrentes ao mesmo tempo em detrimento a uma única ideia parece diminuir o caminho para o cientista gerar um modelo que explique seus dados de maneira mais efetiva.

Além disso, a análise frequentista se baseia no Teorema Central do Limite para construir Intervalos de Confiança ou testar hipóteses sobre o valor do parâmetro (Batista 2009). Isso significa que existiria um universo amostral teórico, do qual se pressupõe haver suficiência amostral para representá-lo. Dessa maneira as distribuições seriam relacionadas à esse universo teórico e não à amostra propriamente dita, pois representariam o “comportamento das estimativas baseado na repetição incontável do processo de amostragem” (Batista 2009). Entretanto, na prática não ocorre essa repetição incontável do processo de amostragem científica.

Por outro lado, existe uma análise denominada de verossimilhança, que é restrita apenas ao conjunto de dados existentes. Baseada nos dados coletados a análise de verossimilhança confronta hipóteses e expressa a força de evidência de uma hipótese em relação à outra (ou seja, quantas vezes uma hipótese é mais verossímil que outra). Embora não pressuponha uma “repetição incontável de amostragem”, a análise de verossimilhança associa todas as amostras para expressar a força de evidência de uma hipótese em relação à outra. Ou seja, a probabilidade de se obter a amostra, dado determinada hipótese, é igual ao produto das probabilidades das observações individuais, dado essa hipótese (Batista 2009). Dessa maneira a análise de verossimilhança consegue indicar qual o modelo que tem a maior força de evidência baseada nos dados coletados e apresentar uma razão de quantas vezes esse modelo é mais plausível do que os seus concorrentes.

Entretanto, a análise de verossimilhança não considera o número de parâmetros existentes em cada modelo. Quanto maior o número de parâmetros maior a chance de o modelo explicar melhor os dados. Todavia, um modelo com muitos parâmetros perde o poder de generalização e acaba ficando muito restrito a uma situação específica. Pelo princípio da parcimônia, quando dois modelos têm o mesmo poder explicativo, opta-se por aquele com menor número de parâmetros (mais simples) (Batista 2009). Por esse motivo algumas metodologias de seleção de modelos preveem uma penalização que leve em consideração o número de parâmetros ao considerar a razão de verossimilhança entre os modelos. Uma das metodologias de seleção de modelos é denominada critério de Akaike.

O critério de Akaike penaliza a log-verossimilhança negativa com duas vezes o número de parâmetros. Essa proporção não é arbitrária, uma vez que Akaike também multiplica a log-verossimilhança por esse número, de maneira que o modelo onde há minimização dos critérios permanece sem modificação (Burnham & Anderson 2002). De qualquer forma, o valor absoluto do AIC é irrelevante, o que interessa para a seleção de modelos via AIC é a diferença entre os valores dos modelos comparados. Uma vez que a seleção é realizada entre os modelos elencados pelo pesquisador considerando os dados disponíveis, a seleção de modelos por AIC seleciona a melhor inferência relativa aos dados, e não necessariamente o que representa a realidade. Em outras palavras, AIC selecionará os melhores modelos, entretanto, se todos os modelos forem ruins o AIC selecionará o “menos ruim”, que apesar de selecionado pode explicar pouco do fenômeno observado (Burnham & Anderson 2002). Daí depreende-se a importância de elencar modelos que sejam bem fundamentados e façam sentido biológico.

Uma vez que a comparação dos modelos é relativa ao mesmo conjunto de dados, não faz sentido compararmos valores absolutos gerados por conjuntos de dados diferentes. Dentro de um mesmo conjunto de dados o AIC estabelece valores que representam o quão plausível são os diferentes modelos. Em termos gerais, considera-se que se a diferença de AIC for menos ou igual a 2, não há diferença entre os modelos comparados. Caso a diferença seja entre 4 e 7 existe uma diferença considerável, e caso seja maior do que 10 os modelos de maior AIC podem ser completamente desconsiderados (Burnham & Anderson 2002). Cabe aqui ressaltar que os valores de AIC podem ser consideravelmente altos em termos absolutos, ou até negativos, mas a única importância reside na diferença relativas entre os valores observado para o mesmo conjunto de dados.

Dentro da área que estou desenvolvendo meu trabalho, proceder às análises através de seleção de modelos parece ser uma alternativa bastante adequada. De acordo com Hilborn & Mangel (1997), a abordagem de modelos pode ser adequada em pesquisas de longo prazo, com poucas réplicas e com dificuldade para se manter um controle fiel. No trabalho que estou desenvolvendo estamos interessados nas forças estruturadoras das comunidades vegetais. Para isso, usamos um projeto de restauração ecológica onde tivemos a oportunidade de configurar diferentes modelos de plantio para averiguar a influência da proximidade das plantas de diferentes estágios sucessionais, bem como a quantidade de recurso disponível, nas relações de interação entre as plantas (competição e facilitação). Portanto, temos um experimento de prazo relativamente longo (3 anos), com relativamente poucas réplicas de cada tratamento (8 blocos), e de extrema dificuldade de se manter sem influências de fatores fora de nosso controle.

Dentre as diferentes abordagens possíveis, escolhemos trabalhar com modelos mistos, pois esse tipo de abordagem é considerada adequada quando há auto correlação espacial e temporal, além de diferenças nas respostas entre os blocos do experimento de campo (Crawley, 2013). As análises foram feitas com um conjunto parcial de dados que foi obtido até o momento. Com os conhecimentos obtidos na presente disciplina espera-se entender melhor o que está por trás da seleção de modelos e refinar as análises quando utilizarmos todo o conjunto de dados que está sendo coletado.

Referências bibliográficas

Batista, J.L.F. 2009 Verossimilhança e Máxima Verossimilhança.

Burnham, K. P., & Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical-Theoretic Approach, 2nd ed. New York, Springer-Verlag.

Crawley MJ (2013) The R Book. John Wiley and Son Ltd. Chichester, West Sussex, United Kingdom, 2nd Edition.

Hilborn, R. & Mangel, M. (1997). The Ecological Detective – Confronting Models with Data. Princeton, Princeton University Press.

Johnson, J. B. & Omland, K. S. (2004). Model selection in ecology and evolution. Trends in Ecology and Evolution 19:101-108

Bertoncello,Ricardo. 2014. Seleção de modelos como alternativa para estudo de estruturação de comunidades vegetais. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

historico/2014/ensaios/bertoncello.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1