Uso de verossimilhança para estimar diversificação dependente de traço
Davi Mello Cunha Crescente Alves
*Universidade Federal de Goiás - Programa de Pós-graduação em Ecologia e Evolução *davimello22@gmail.com
Para entender como a biodiversidade variou ao longo do tempo é importante entender como se deu o processo de diversificação dos grupos de organismos (Quental e Marshall 2010). A diversificação é geralmente compreendida como o balanço entre especiação (i.e. o surgimento de linhagens) e extinção (i.e. o desaparecimento de linhagens), onde grupos com uma taxa de diversificação positiva estão aumentando sua diversidade e grupos com uma taxa negativa estão reduzindo sua diversidade. Um assunto interessante de ser explorado dentro desse tema é compreender qual o motivo de um determinado grupo ser mais diverso do que outro. Existe um grande campo teórico que discute a importância de como que características que variam ao nível de espécies podem proporcionar ajustamento evolutivo diferenciado entre elas e consequentemente gerar riqueza diferenciada em níveis hierárquicos mais elevados (e.g. gênero, família ou ordem). Essas características podem ser intrínsecas às espécies (e.g. tamanho corporal ou tamanho de distribuição geográfica) ou extrínsecas (e.g. ocorrência em região tropical ou extratropical).
Nesse ensaio nós exploraremos dois métodos - um baseado na filosofia estatística frequentista e outro na verossimilhança - para avaliar o efeito de uma dada característica sobre a dinâmica de diversificação entre clados e quais são as principais desvantagens do primeiro em relação ao segundo. Será demonstrado como o método baseado na verossimilhança provavelmente é a única forma dentre as duas para realmente estimar os valores de especiação e extinção e a importância dessa propriedade na minha pesquisa. O conceito abordado nesse ensaio é o uso de uma equação diferencial para estimar a verossimilhança dos parâmetros macroevolutivos e será discutido na apresentação do segundo método.
O primeiro método que é baseado na estatística frequentista para compreender se um determinado estado de uma característica proporciona maior taxa de diversificação de um clado em relação a outro é conhecido como “clados irmãos”. Essa análise basicamente consiste em primeiro, identificar teoricamente uma característica que determina taxa de diversificação diferenciada entre clados, e posteriormente identificar clados em que o ancestral comum é o mais recente mas em que as linhagens dentro dos clados possuem a mesma característica e as linhagens entre os clados possuem características diferentes. Assim que os dados foram estabelecidos, é testado a hipótese nula de que a probabilidade de se encontrar clados com uma determinada característica serem mais ricos do que clados com uma segunda característica é maior do que 5% dado uma distribuição binomial em que a quantidade de ensaios é igual a quantidade de clados irmãos e a probabilidade de “sucesso” é 0.5 (Teste binomial). Ou seja, cada um dos clados possuem a mesma probabilidade serem mais ricos. Um exemplo foi o teste feito para Passeriformes testando se clados tropicais eram mais ricos do que clados temperados (Ricklefs 2007). Para isso, foram identificados 11 clados irmãos (i.e. número de ensaios) em que foi determinado que a probabilidade de um clado tropical ser mais rico do que um clado temperado é de 0.5. Em 10 dos 11 pares, os clados tropicais foram mais ricos e a probabilidade desse valor ocorrer foi bem menor do que 0.05 (i.e. número de ensaios = 11; probabilidade = 0.5; teste unicaudal para valores altos de clados tropicais ricos).
O método de “clados irmãos” possui três desvantagens. A primeira é que como ele necessita que haja clados que que compartilhem um acestral comum mais recente do que qualquer outro clado e que nenhuma espécie de um clado compartilhe a mesma característica com o segundo clado, isso diminui muito os grupos de organismos em que esse método possa ser aplicado já que poucos possuem uma história evolutiva tão estruturada como o método necessita. A segunda desvantagem é que a análise de “clados irmãos” não possibilita estimar os valores de especiação e extinção, apenas testar a hipótese de que os dois clados possuem a mesma probabilidade de serem mais rico do que o outro. E por último, a terceira desvantagem é que ele não permite comparar entre modelos de diversificação.
Um outro método consiste na utilização de um estimador de máxima verossimilhança para os valores de especiação e extinção dado uma filogenia e um traço binário. Esse método foi proposto por Maddison et al. (2007) e se chama BiSSE (i.e. “binary state, speciation and extinction”). Os dados necessários são uma filogenia ultramétrica com comprimento de ramo aonde cada espécie possui um valor de traço e os seis parâmetros do modelo são: especiação associado ao traço 1, especiação associado ao traço 2, extinção associado a cada um dos traços, e mudança do traço 1 para o 2 e vice-versa. O BiSSE consiste em calcular para cada intevalo de tempo infinitesimal na filogenia todos os eventos possíveis que levariam o traço das linhagens mudar ou não, e a partir daí multiplicar a verossimilhança ao longo de toda filogenia. Os quatro eventos possíveis são: i) sem mudança de traço e sem especiação, ii) com mudança de traço e sem especiação, iii) sem mudança de traço, com especiação e subsequente extinção da linhagem A, e iv) sem mudança de traço, com especiação e subsequente extinção da linhagem B. Portanto, resumidamente a função de verossimilhança é uma equação diferencial que incorpora esses quatro eventos (para simplificar eu apresentei apenas a função calculada para o traço 1):
dL(s1,x1,m1|n1)/dt = - (s1 + e1 + m12)*Pn1(t) + m12*Pn2(t) + 2s1*E1(t)*Pn1(t)
Aonde “L(s1,x1,m1|n1)” representa a verossimilhança dos valores de especiação, extinção e mudança de traço associados ao traço 1 dado uma linhagem “n” com traço 1. O termo “- (s1 + e1 + m12)*Pn1(t)” representa a não ocorrência dos eventos de especiação, extinção e mudança de traço associados ao traço 1 multiplicado pela probabilidade da linhagem “n” no intervalo de tempo anterior (lembrando que o tempo é contínuo) possuir o traço 1. O termo “m12*Pn2(t)” representa um valor de mudança do traço 1 para o 2 multiplicado pela probabilidade da linhagem “n” possuir o traço 2 no intervalo de tempo anterior. E por último, o termo “2s1*E1(t)*Pn1(t)” representa um valor de especiação associado ao traço 1 multiplicado pela probabilidade de extinção da linhagem “n” com o traço 1 ser extinto multiplicado pela probabilidade da linhagem “n” possuir o traço 1 no intervalo de tempo anterior. Como a especiação gera duas linhagens e cada uma das duas podem ser extintas, esse termo é multiplicado por dois. Essa função é “alimentada” a partir das informações dos “tips” (i.e. espécies atuais) da filogenia aonde as probabilidades para as espécies atuais com o traço 1 são 1 (i.e. Pn1 = 1 e Pn2 = 0). Por fim, a verossimilhança é multiplicada dos “tips” até a raiz para os dois traços, permitindo estabelecer quais são os valores de especiação e extinção que são mais plausíveis para aquele conjunto de dados (i.e. filogenia com a informação dos traços para as espécies atuais).
A primeira vantagem do BiSSE em relação à análise de “clados irmão” é que não é necessário selecionar apenas grupos de organismos que possuam clados irmãos com características altamente dicotômica. O método permite que os traços estejam espalhados entre as espécies, o que amplia enormemente o leque de grupos que podem ser avaliados pelo método. A segunda vantagem é a possibilidade de decompor a taxa de diversificação em especiação e extinção, e descobrir qual dos dois componentes é mais importante para explicar a diferença de riqueza entre clados. A última vantagem se baseia no fato de que uma vez sendo possível estimar os valores de especiação e extinção, aumenta a quantidade de hipóteses macroevolutivas a serem comparadas. Agora não será testado apenas a hipótese nula mas sim várias hipóteses de como os parâmetros macroevolutivos estão associados.
Essa capacidade de estimar os parâmetros macroevolutivos através de equações diferenciais é de fundamental importância na minha linha de pesquisa já que o meu principal objetivo é selecionar dentre cerca de dez hipóteses biogeográficas tradicionalmente utilizadas para explicar a diferença de riqueza entre ambiente tropical e extratropical.Todas as hipóteses possuem predições explícitas quanto a relação de especiação e extinção entre os dois ambientes. Por exemplo, uma determinada hipótese prediz que especiação em ambiente tropical é maior do que em ambiente extratropical mas que extinção em ambiente tropical é menor do que em ambiente extratropical. Portanto, não seria possível no meu caso utilizar uma filosofia estatística em que não é permitido avaliar a força de evidência entre os modelos, como é o caso da frequentista, e sim uma que permite avaliar o ajuste de cada um dos modelos aos dados e selecionar dentre aquele que possui maior plausibilidade.
Referências Bibliográficas
Quental, T; Marshall, C. 2010. Diversity dynamics: molecular phylogenies need the fossil record. Trends in Ecology and Evolution 25, 2010. Ricklefs, R. 2007. Estimating diversification rates from phylogenetic information. Trends in Ecology and Evolution 22, 2007. Maddison, W; Midford, P; Otto, S. 2007. Estimating a binary character's effect on speciaton and extinction. Sistematic Biology 56, 2007.
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Alves, DMCC. 2014. Uso de verossimilhança para estimar diversificação dependente de traço. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.