Tabela de conteúdos
Uso da verossimilhança para atribuição de paternidade em plantas
Carolina Carvalho
* Unesp-Rio Claro * carolina.carvalho@ymail.com
Análise de paternidade
Estudos de paternidade e maternidade são importantes para entender processos evolutivos, ecológicos e comportamentais. Muitos desses estudos são baseados em dados moleculares e nos ajudam a compreender questões sobre sistema de acasalamento, comportamento e sucesso reprodutivo (Harisson et al. 2013) em diversos grupos de animais e plantas. Esses estudos também podem ser aplicados para entender a estrutura populacional em escala fina e a conectividade populacional (migração e dispersão, Harisson et al. 2013).
Análises de paternidade utilizando marcadores moleculares altamente polimórficos são comuns em estudos de populações naturais e consistem na comparação dos genótipos da prole e dos possíveis pais. Em populações naturais, a análise de paternidade pode ser obtida conhecendo ou não as mães, e cada uma das abordagens são estatisticamente distintas (Marshall et al. 1998). Conhecendo as mães, há diversas formas de se obter a paternidade dessas progênies, sendo que os dois principais métodos são a exclusão rigorosa e a designação categórica.
No método da exclusão rigorosa, um pai candidato é excluído caso apresente um alelo diferente em um determinado loco. No entanto, devido a possíveis erros de genotipagem, dados faltantes e ocorrência de alelos nulos que podem ocorrer em dados genéticos obtidos por microssatélites (Harisson et al. 2013), tanto nenhum pai quanto múltiplos pais podem ser atribuídos a uma mesma prole (Marshall et al. 1998). Para driblar esse problema, o método de designação categórica passou a ser amplamente utilizado. Esse método utiliza a abordagem baseada em verossimilhança para selecionar o pai mais provável a partir de um conjunto de possíveis pais (Jones & Ardren 2003). Esse método estima a probabilidade que cada par pai-prole seja verdadeiro dado os genótipos multilocos e a frequência alélica observada na população. A paternidade será atribuída a um determinado pai caso a razão de verossimilhança for grande em relação a razão de verossimilhança de pais alternativos (Marshall et al. 1998).
Verossimilhança
A verossimilhança pode ser definida como a probabilidade de um evento acontecer. Diferente da probabilidade que se refere a ocorrência de eventos futuros, a verossimilhança é a probabilidade hipotética de um evento que já ocorreu produzir um resultado específico. A verossimilhança se refere a eventos passados com resultados conhecidos (Weisstein 2014). A filosofia por trás da análise de verossimilhança é ter os dados como ponto de partida para então avaliar as hipóteses com base nos dados.
Uma vez que pode haver mais de uma explicação para um conjunto de dados e que cada hipótese atribui uma probabilidade diferente aos dados, segundo a lei da verossimilhança, a explicação mais plausível será aquela que atribui maior probabilidade aos dados. Portanto, podemos expressar o quão plausível uma hipótese é em relação às outras por meio de uma função, chamada verossimilhança. Por exemplo, em um cenário estocástico que gera dados X, com um determinado modelo estocástico M, nós temos duas hipóteses: H1 e H2. A probabilidade dos dados segundo a hipótese H1 é p1 e a probabilidade dos dados segundo a hipótese H2 é p2. A Lei de verossimilhança nos diz que se p1>p2, o resultado X é uma evidência a favor de H1 comparado com H2. Essa força de evidência a favor de uma hipótese contra a outra é chamada de razão de verossimilhança. Devemos lembrar que essa força é sempre relativa. Segundo o princípio de verossimilhança, a magnitude da razão de verossimilhança é uma medida absoluta de valor de evidência, independente das hipóteses comparadas. Portanto, a evidência contida nos dados a respeito de qualquer hipótese está totalmente caracterizada pela função de verossimilhança.
Abordagem de verossimilhança para análise de paternidade
A abordagem de verossimilhança para análise de paternidade calcula o logaritmo da razão de verossimilhança através do cálculo da verossimilhança de um indivíduo ser o pai de uma prole dividido pela verossimilhança desses indivíduos não serem aparentados (Marshall et al. 1998).
A razão de verossimilhança pode ser escrita como:
L(H1,H2|D) = P(D|H1)/P(D|H2), onde P(D|H1) é a probabilidade de se obter dados sob a hipótese 1 e P(D|H2) é a probabilidade de se obter dados sob hipótese 2.
Na análise de paternidade, os dados são os genótipos da prole, da mãe e do pai selecionado. A hipótese H1 é que o pai selecionado é o pai verdadeiro, e a hipótese H2 é que o pai é um indivíduo não relacionado selecionado ao acaso na população. A verossimilhança de cada hipótese dado os genótipos observados é calculada a partir da probabilidade de se obter os genótipos observados sob aquela hipótese. O cálculo da razão de verossimilhança é a verossimilhança que o pai selecionado é verdadeiro pela verossimilhança que o pai é um indivíduo não relacionado selecionado ao acaso na população. Vamos pensar que o genótipo da prole é gp, da mãe é gm e do pai selecionado é ga. Em uma situação em que conhecemos quem é a mãe, para a hipótese H1 que o pai elegido é o pai verdadeiro, podemos calcular a verossimilhança pela seguinte equação:
L(H1|ga,gm,gp) = T(gp|gm,ga)*P(gm)*P(ga),
onde T(gp|gm,ga) representa a probabilidade de segregação Mendeliana dos pais para a prole, ou seja, a probabilidade do genótipo da prole dado o genótipo da mãe e do pai elegido (Meaher 1986). P(gm) e P(ga) são as frequências alélicas da mãe e do pai elegido na população sob equilíbrio de Hardy-Weinberg, por exemplo, a probabilidade de um homozigoto é o quadrado da frequência alélica.
A verossimilhança que o pai é um indivíduo aleatório na população pode ser calculada pela equação a seguir:
L(H2|ga,gm,gp) = T(gp|gm)*P(gm)*P(ga), onde, T(gp|gm) é a probabilidade do genótipo da prole dado o genótipo da mãe.
A razão de verossimilhança é:
L(H1, H2|ga,gm,gp) = T(gp|gm,ga)/T(gp|gm).
No caso em que a mãe não é conhecida, a razão de verossimilhança é:
L(H1, H2|ga,gp) = T(gp|ga)/P(gp), onde P(gp) é a frequência dos genótipos da prole.
A razão de verossimilhança é sempre calculada para cada loco autossômico separadamente. Se assumimos que os locos não são ligados, podemos calcular o logaritmo da verossimilhança do pai selecionado somando os logaritmos da verossimilhança de todos os locos (Jones e Ardren 2003). Nesse tipo de análise, a frequência alélica só pode ser usada como uma estimativa da frequência genotípica se as populações estiverem em equilíbrio de Hardy-Weinberg, ou seja, só devemos usar se as frequências alélicas seguirem uma distribuição binomial.
Para garantir a máxima robustez na decisão da paternidade em populações naturais, diversos estudos aconselham o uso de um maior número de marcadores microssatélite polimórficos. Além disso, estudos vem trazendo alternativas nas análises de paternidade baseada em verossimilhança, como a inclusão, por exemplo, do erro de genotipagem nessas análises (Kalinowski et al. 2007) e também o uso de simulações para avaliar a confiabilidade na atribuição do parentesco ao pai selecionado mais provável (Marshal et al. 1998).
Referências bibliográficas
Harrison HB, Saenz-Agudelo P, Planes S, Jones GP, Berumen ML 2013. Relative accuracy of the three common methods of parentage analysis in natural population. Molecular Ecology, 22, 1158-1170.
Jones, AG and Ardren WR 2003. Methods of parentage analysis in natural populations. Molecular Ecology, 12, 2511-2523.
Kalinowski ST, Taper ML, Marshall TC 2007. Revising how the computer program Cervus accommodates genotyping error increases success in paternity assignment. Molecular Ecology, 16, 1099-1106.
Marshall TC, Slate J, Kruuk LEB, Pemberton JM 1998. Statistical confidence for likelihood-based paternity inference in natural population. Molecular Ecology, 7, 639-655.
Meaher TR 1986. Analysis of Paternity within a Natural Population of Chamaelirium luteum. 1. Identificationof Most-Likely Male Parents. The American Naturalist, 128, 199-215.
Weisstein EW 2014. “Likelihood.” From MathWorld–A Wolfram Web Resource. http://mathworld.wolfram.com/Likelihood.html – acessado em 17/10/2014.