Como descrever as distribuições de massa de Mamíferos

Daniel Varajão de Latorre

*Mestrando no departamento de Ecologia da USP *danielvdelatorre@gmail.com

Os mamíferos constituem o grupo animal mais estudado pela ciência. Entre as mais de 5100 espécies descritas aproximadamente 3900 são terrestres (as outras 1200 se dividem entre aquáticas e voadoras). Entre as espécies terrestres viventes, uma característica que chama a atenção é o grande espectro de tamanho corpóreo, que varia desde musaranhos com 2g até elefantes de 5ton, ou seja uma variação de 6 ordens de grandeza (daqui em diante os valores de massa serão expresso escala logaritmica). Em um trabalho analisando fósseis de mamíferos da América do Norte, Alroy (1998) mostrou que a evolução de massa corpórea é melhor descrita ao se considerar que existem dois ótimos de massa corpórea. Esses ótimos podem ser compreendidos como os valores onde as espécies estão fisiologicamente melhor adaptadas (mas esse aspecto não foi estudado no trabalho de Alroy, 1998), e por isso podem funcionar como dois atratores em torno dos quais se encontra a variação de massa corpórea de mamíferos. Isso nos faz esperar que a distribuição de massa corpórea apresente uma distribuição bimodal, onde cada moda representa um ótimo. No entanto, a teoria metabólica da diversidade sugere que há apenas um valor ótimo de massa de mamíferos. Em torno desse ótimo deveria haver uma variação assimétrica de tamanho em função de um maior “turn-over” espacial de espécies pequenas (revisado em Blackburn & Gaston, 1994). Isso nos faria esperar uma distribuição unimodal assimétrica. Neste ensaio irei explicar como podemos utilizar a abordagem de seleção de modelos para comparar as duas hipóteses propostas na literatura:

A - A distribuição de massa de mamíferos atuais é unimodal assimétrica; e

B - A distribuição de massa de mamíferos atuais é bimodal.

Em primeiro lugar devemos saber como as diferentes hipóteses podem ser traduzidas em modelos, mas o que são modelos? De maneira sucinta podemos dizer que modelos são traduções matemáticas de hipóteses. No parágrafo acima, foram propostas duas hipóteses biológicas para descrever o padrão de distribuição de massa de mamíferos terrestres. Agora precisamos transformar essas hipóteses em funções matemáticas que expressem essas hipóteses. Vamos começar pela hipótese A que já foi descrita na literatura por uma distribuição teórica de probabilidades chamada Skew-Normal. Essa distribuição decorre de uma modificação na distribuição Normal via adição de um novo parâmetro (alfa) que permite gerar assimetrias. Quando alfa é zero obtemos a distribuição Normal simétrica, ou seja descrita pelos seus dois parâmetros: localização e escala, que são a média e o desvio-padrão, respectivamente.

Afim de saber se é razoável descrever a massa de mamíferos a partir de uma Skew-Normal, devemos usar uma função de Verossimilhança. A função de verossimilhança tem por objetivo estimar quais são os melhores valores de parâmetros do modelo que permitem explicar o conjunto de dados observados. Na prática isso é feito variando os valores dos parâmetros até encontrar aqueles que explicam melhor os dados. Para decidir o quanto está sendo explicado multiplicamos a probabilidade associada a cada um dos dados quando o modelos tem valores específicos de parâmetro. Por exemplo, a probabilidade das massas de um elefante (6.59 em log10 gramas) um macaco (4.00) e um rato (1.00) pertencerem a uma distribuição Normal com média 0 e desvio-padrão 1 (ou uma Skew-Normal com alfa igual a 0) é aproximadamente 0.000, 0.001 e 0.242 respectivamente. Mantendo os outros parâmetros iguais mas mudando o valor da média para 4, obtemos probabilidades de 0.014, 0.399 e 0.004. A multiplicação dessas probabilidades resulta em um maior valor da função de verossimilhança quando a média é 4 do que quando é 0. Isso significa que a combinação de parâmetros com média 4 é mais plausível para explicar a distribuição de massa de um elefante, um macaco e um rato. Um detalhe operacional relevante que podemos perceber é que ao multiplicar as probabilidades chegaremos a um número muito pequeno, tão pequeno que os computadores começam a ter dificuldade em lidar com a quantidade de casas decimais. Por esse motivo é mais fácil calcular a soma do logaritmo (na base e) das probabilidades, o que é conhecido como a função de Log-Verossimilhança. Ao colocar o computador para testar muitas combinações de parâmetros da Skew-Normal para explicar os dados de massa de mamíferos, encontramos que: locação=2.244, escala=3.99 e alfa=6.13, são os parâmetros que melhor descrevem os dados. Esses valores são as melhores estimativas de parâmetros que conseguimos por máxima verossimilhança (por isso chamados de “Maximum Likelihood Estimate” - MLE) e descrevem uma Skew-Normal como a encontrada na Figura 2 (linha azul).

Agora precisamos de um modelo que descreva a hipótese B, ou seja uma distribuição que represente dois ótimos adaptativos. Nesse caso podemos imaginar que a variação em torno de cada ótimo é descrita por uma distribuição Normal: N(µ, s). Uma dada espécie pode pertencer a variação esperada em torno do primeiro ótimo ou em torno do segundo ótimo, sendo que há uma chance dessa espécie pertencer à primeira ou à segunda Normal. Vale ressaltar que uma das propriedades das distribuições de probabilidade é que a área sob a curva tem que ser igual a um. Logo ao misturarmos duas normais como pretendemos fazer precisamos de somente um parâmetro (p) para indicar a proporção e o seu complementar (1-p). Logo temos a função p*N₁(µ₁, sd₁) + (1-p)*N₂(µ₂,sd₂) que nos permite descrever uma distribuição com duas tendências centrais e variações em torno dessas tendências. Ou seja temos nossa hipótese descrita por um modelo matemático. Agora podemos utilizar o mesmo procedimento descrito anteriormente, e variar os valores de parâmetros para encontrar qual a combinação desses valores que descreve com maior plausibilidade os dados de massa de mamíferos. Quando fazemos isso encontramos que os MLE são µ₁=3.842, sd₁=1.142, µ₂=7.436, sd₂=2.320 e p=0.576, que ajustam uma distribuição bimodal como a que pode ser vista na Figura 2 (linha vermelha).

Com os dois modelos ajustados como podemos fazer para comparar qual é melhor para descrever a massa de mamíferos? Para isso podemos utilizar o critério de informação Akaike (AIC). Esse critério utiliza duas informações para julgar qual modelo é mais plausível: a Log Verossimilhança e o número de parâmetros (k) de um modelo, de acordo com a seguinte fórmula:

$AIC = -2\times Log Verossimilhança + 2\times k$

O valor de AIC calculado para cada um dos modelos pode ser comparado, oferecendo uma ferramenta para podermos escolher qual o modelo melhor descreve os dados de maneira parcimoniosa. A parcimônia é relevante pois quanto maior a quantidade de parâmetros em um modelo melhor deve ser seu ajuste (maior valor de Log Verossimilhança), porém menor deve ser seu poder de generalização sobre os processos que estão por trás dos dados. Dessa forma quanto menor o valor de AIC associado a um modelo maior a força de evidência para ele. Em alguns casos a diferença no AIC de modelos pode ser muito pequena, então pode-se considerar que os modelos sendo comparados oferecem igual suporte aos dados. Em geral quando a diferença de AICs é maior do que 2 aceitamos um modelo em detrimento do concorrente. A diferença nos valores de AIC nos diz também quanto um modelo é mais plausível do que o outro. No nosso caso o AIC atribuido à hipótese A é 17527.9 e à hipótese B é 17484.3. Dada a diferença de AICs podemos dizer que a hipótese B é 43.7 vezes mais plausível do que a hipótese A. Assim, apesar dessa hipótese ser menos mencionada na literatura, temos evidências de que a distribuição de massa de mamíferos seja bimodal.

Referências Bibliográficas

Alroy, J. (1998). Cope's rule and the dynamics of body mass evolution in North American fossil mammals. Science, 280(5364), 731-734.

Blackburn, T. M., & Gaston, K. J. (1994). Animal body size distributions: patterns, mechanisms and implications. Trends in Ecology & Evolution, 9(12), 471-474.