Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:gaiarsa

Uma breve introdução ao mundo dos modelos

Marilia Palumbo Gaiarsa

*Departamento de Ecologia, Universidade de São Paulo *gaiarsa.mp@gmail.com

Muitas vezes nós como cientistas estamos preocupados em não só em encontrar padrões, mas verificar o quão comum os padrões encontrados são, e quais os processos responsáveis por gerá-los. A partir da formulação de uma pergunta, criamos hipóteses, previsões e coletamos dados (simulados, experimentais ou observacionais) que respondam nossas perguntas (ou assim esperamos). É então que a maior parte dos cientistas se embaralha – mas como analisar esses dados?!

A abordagem clássica de análise de dados deriva da estatística frequentista. De uma maneira geral, nesta abordagem comparamos a média de nossos dados aos valores de uma distribuição teórica de probabilidades (a distribuição gaussiana ou normal) e observamos qual a probabilidade associada à nossa média. Por convenção, caso essa probabilidade seja igual ou maior que 0,05 rejeitamos a hipótese que estamos testando e aceitamos a hipótese nula. A pergunta por trás deste teste é: qual a probabilidade de eu obter o mesmo resultado se eu repetir o experimento repetidas vezes? Assim, nesta abordagem o que fazemos é testar uma hipótese de trabalho contra a hipótese nula, com uma distribuição de probabilidades previamente definida que algumas vezes não tem nenhuma ligação com a origem dos tipos de dados que estamos analisando. Por exemplo, vamos considerar a distribuição normal. Esse tipo de distribuição é simétrica, e possui média e variância independentes, o que nem sempre é verdade em dados biológicos. Além disso, como uma premissa da maior parte dos testes é que os dados sejam oriundos de uma distribuição normal, algumas vezes “torturamos” os dados de diversas maneiras até que eles se ajustem à distribuição gaussiana (por exemplo, transformando-os em seus logaritmos, no seno do cosseno da tangente, entre outros).

Mas o mundo é tão mais que uma normal! E então chegamos ao mundo dos modelos! Diferentemente das tradicionais ferramentas estatísticas frequentistas na qual comparamos apenas a hipótese (ou modelo) que estamos testando com uma hipótese (ou modelo) nulo, na modelagem estatística podemos comparar quantas hipóteses julgarmos necessárias. Se pensarmos na estatística frequentista como uma seleção entre dois modelos, podemos ver que existe uma mudança qualitativa e quantitativa quando utilizamos a abordagem da modelagem estatística - não estamos mais comparando a nossa hipótese de trabalho com apenas uma outra hipótese, na qual exista uma ausência de efeito. Agora podemos fazer inferências a partir de múltiplas hipóteses concorrentes (Johnson & Omland 2004).

Mas, antes de tudo, afinal de contas o que é um modelo estatístico? De acordo com Bolker (2008) modelos estatísticos nada mais são que distribuições de probabilidades geradas por uma função matemática. Assim, a partir dos dados coletados, podemos propor o modelo que julgarmos adequado dado o processo de gerou aquele conjunto de dados, e encontrar os valores dos parâmetros do modelo que melhor se ajustam aos dados. Diferentes distribuições de probabilidades são adequadas a diferentes tipos de dados. Ao usar uma distribuição de probabilidade em um modelo associamos probabilidades a cada um dos dados observados. Por exemplo, se seus dados são de contagem (número de indivíduos, número de árvores mortas) a distribuição Poisson pode ser indicada. A distribuição Poisson descreve o número de eventos independentes observados em uma unidade de tempo (ou de espaço), a uma taxa constante. O único parâmetro da distribuição Poisson é lambda, que é a taxa de eventos por unidade. Mas, como calcular lambda (ou quaisquer outros parâmetros de outras distribuições)? Uma forma de fazer isso é avaliar a probabilidade de um resultado em particular, dado um conjunto de valores de parâmetros. Para isso avaliamos qual é a probabilidade associada a cada uma das observações independentes em seu conjunto de dados. Uma maneira de se fazer isso é por meio da máxima verossimilhança . Nessa abordagem ajustamos diversos valores a cada um dos parâmetros do nosso modelo até encontrarmos os valores que melhor se ajustam aos dados.

Uma das maravilhas do mundo dos modelos é que que podemos criar modelos desde os mais simples, com apenas um parâmetro, até os mais complicados, incluindo por exemplo relações não lineares entre diferentes parâmetros possíveis. Aqui é necessário fazer um parênteses e lembrar que modelos são representações estatísticas simplificadas da realidade. Assim, ao criar modelos é necessário frisar que não estamos selecionando o melhor modelo, e sim o modelo que, dentre os modelos concorrentes, é melhor se ajusta ao nossos dados, o modelo que mais se aproxima da realidade, ou até mesmo, o modelo “menos pior”. Entretanto, existe um demanda conflitante importante: quanto maior o número de parâmetros, mais um modelo se adequará aos seus dados, e portanto, menos geral será o seu modelo. É claro que tudo depende do seu objetivo – se você está interessado em um modelo altamente preditivo do seu sistema, um modelo específico com muitos parâmetros é o mais indicado. Entretanto, se você quer um modelo mais geral, quanto menor o número de parâmetros, melhor. Se especificarmos demais os parâmetros do modelos acabaremos com um modelo que explica apenas os dados aos quais ele foi ajustado, sem generalização nenhuma. Portanto, devemos sempre ter parcimônia e lembrar das palavras de Leonardo da Vinci “A simplicidade é o último grau de sofisticação”. Então surge a pergunta: é possível comparar modelos que possuem parâmetros diferentes? Eis que, em 1974, Akaike propôs critérios para avaliar modelos concorrentes que ficou conhecido como Critério de Informação de Akaike, ou AIC. Ele demonstrou que existe um viés para o número de parâmetros a serem estimados, e definiu um critério parcimonioso para avaliar o melhor modelo que não só avalia qual modelo melhor se ajusta aos dados como também penaliza pelo número de parâmetros de cada modelo.

De acordo com Johnson & Omland (2004) a seleção de modelos possui três vantagens explícitas em relação ao clássico teste de hipótese nula. Em primeiro lugar, é possível que se avalie diversos modelos concomitantemente. Em segundo lugar, os modelos podem ser ranqueados, por exemplo por meio de seus valores de AIC, o que possibilita que seja atribuído diferentes pesos a diferentes modelos. E por fim, caso as análises indiquem que os modelos concorrentes são parecidos, é possível fazer uma média dos modelos e estimar os parâmetros de uma melhor forma.

Em resumo, no teste de hipótese frequentista só testamos um modelo por vez. Quando usamos a abordagem de modelagem estatística e seleção de modelos, podemos comparar quantos modelos julgarmos necessários, desde que os modelos devem sejam plausíveis e baseados em premissas biológicas. Outra característica da abordagem de modelos é que é possível colher informações sobre os modelos concorrentes e utilizar essas informações para propor novos modelos que se ajustem aos dados, caso faça sentido. Ou seja, a biologia é extremamente importante para que o modelo faça sentido. Os modelos concorrentes devem ter sido propostos com base em premissas científicas e de conhecimento do sistema que você está estudando. Se todos os modelos forem inadequados, o AIC ainda assim lhe dará informação sobre o “melhor” modelo, que no caso pode ser nenhum. Imagine a seguinte situação: temos um conjunto de dados sobre peso de bebês ao nascer, e queremos testar dois modelos para explicar esses dados. No primeiro avaliamos a cor do cabelo da mãe e no segundo a posição de uma constelação x no momento do parto. Sabemos que os dois modelos na verdade não possuem embasamento científico nenhum! Entretanto, é possível utilizarmos o AIC para verificar qual dos dois modelos melhor se ajusta aos dados (mesmo que nenhum dos dois faça sentido!). Por isso, independente do método, filosofia, ou religião que estamos utilizando, a biologia e o conhecimento do sistema que originou os dados devem ser prioritários.

Os modelos e minha pesquisa? Após essa breve introdução ao mágico mundo dos modelos, decidi pensar em alguns dados que eu coletei durante a minha iniciação cientifica (inspirada por Caetano & Aisenberg 2014). A pergunta que motivou meu estudo era se “juvenis das jararacas (Bothrops jararaca e B. jararacussu) escolhem locais de forrageamento?”. Para isso, a cada indivíduo encontrado, coletávamos diversas variáveis ambientais contínuas, como por exemplo distância da cachoeira. Os dados foram coletados ao longo de cinco anos por meio de visitas mensais a quatro riachos de encosta no Parque Estadual da Serra do Mar.

… Um pouco de história natural… Apesar de serem filogeneticamente distantes, as duas espécies de jararaca mais comumente encontradas na Mata Atlântica do estado de São Paulo, Bothrops jararaca e B. jararacussu, possuem histórias naturais semelhantes. Nas duas espécies ocorre mudança ontogenética tanto no habitat e quanto na dieta. Enquanto os adultos são mais comumente encontrados na mata e alimentam-se principalmente de pequenos mamíferos, os juvenis alimentam-se de anfíbios, e por isso são encontrados ao longo do riacho. Assim, a variável distância da cachoeira está relacionada ao forrageamento dessas espécies já que a maior parte dos anfíbios dos quais as jararaquinhas se alimentam está localizada no leito principal do riacho, bem próximo às cachoeiras e à corrente principal. Entretanto, existem sugestões na literatura de que devido ao seu pequeno tamanho, as jararaquinhas seriam muito sensíveis às fortes enxurradas das “cabeças d’água”, e portanto não estariam muito próximas às cachoeiras dos riachos. Desta forma, uma previsão possível é que existiria uma distância da cachoeira “ideal” – nem muito perto (diminuído assim a vulnerabilidade às cabeças d’água), nem muito longe (aumentando a possibilidade de capturar presas). Assim, para testar a hipótese de que juvenis das jararacas (Bothrops jararaca e B. jararacussu) escolhem locais de forrageamento umas das variáveis resposta que podemos utilizar é a distância da cachoeira.

Estou ciente que existem muitas maneiras de analisar estes dados, mas pensei da maneira mais simples possível, comparando dois modelos concorrentes. O primeiro modelo representaria a situação na qual as jararaquinhas estariam aleatoriamente espalhadas no ambiente. Assim, não haveria nenhum padrão nas medidas tomadas, e o modelo a ser testado seria uma distribuição uniforme. O segundo modelo a ser testado seria um modelo criado a partir da distribuição Gama, já que é um modelo para variáveis contínuas que descreve variáveis com distribuições de probabilidades assimétricas. Ao invés de analisar o tempo até a ocorrência de um número de eventos eu estou interessada no número de eventos a partir de uma distância. Então, conforme explicado acima, eu compararia esses modelos concorrentes por meio do Critério de Informação de Akaike. Em um futuro próximo pretendo incluir nas análises outras variáveis e/ou parâmetros. E em um futuro que espero não muito distante, ser capaz de utilizar os tão citados e aclamados modelos mistos.

Finalizando… Gostaria de terminar este ensaio com uma reflexão. Em uma das últimas aulas comentaram sobre o texto “I don’t know” de Robert Root-Bernstein, no qual o autor sugere algo com o qual me identifiquei – e que todos deveríamos utilizar - “go ignorance hunting”. Este texto descreve exatamente o motivo que me levou a fazer esta disciplina. Eu era completamente ignorante em relação ao fantástico mundo dos modelos. A partir deste ensaio e desta análise de dados (super) inicial, vejo que é um mundo estranho para mim, mas que já consigo ao menos (espero!) explicar a lógica por trás da seleção de modelos. Como disse o “Robert”: “I’m proud to do something about my ignorance, to dare the blank spots of the map of knowledge”.

Referências bibliográficas

Akaike, Hirotugu. 1974. A new look at the statistical model identification, IEEE Transactions on Automatic Control, 19:716–723.

Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press, Princeton.

Caetano, D.S. & Aisenberg, A. 2014. Forgotten treasures: the fate of data in animal behaviour studies. Animal Behaviour, 98:1-5.

Hilborn, R. & Mangel, M. 1997. The ecological detective: Confronting models with data. Princeton University Press, Princeton.

Johnson, J. B., & Omland, K. S. 2004. Model selection in ecology and evolution. Trends in ecology & evolution, 19:101-108.

Root-Bernstein, R. I don’t know.

historico/2014/ensaios/gaiarsa.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1