Tabela de conteúdos
Mini-Ensaio sobre Verossimilhança
Júlia Raíces
- Departamento de Genética e Biologia Evolutiva - Instituto de Biociências - USP
- julia.raices@gmail.com
“Não existe nada mais verossímil que dizer que eu não sei nada.”
- Fernando Pizza Rossine
Introdução ou Verossimilho-quê?
Em geral, durante nossa formação como cientistas (e também como não-cientistas), fomos acostumadas 1) com uma visão clássica de inferência estatística na qual observamos a probabilidade de termos obtido um certo conjunto de dados tendo em vista um modelo pré-estabelecido (que costuma ser uma distribuição gaussiana) com parâmetros também pré-estabelecidos (Bolker, 2008). Assim, as funções que testam nossas hipóteses na estatística por inferência clássica mantém fixos o modelo e os parâmetros, variando nossos dados (Lewin-Koh et al., 2004) - é uma função de probabilidade dos dados dado os parâmetros e modelo. Dentro dessa perspectiva estatística raramente (se em algum momento) paramos para imaginar se há algum outro modelo (ou modelos) que pode (ou podem) se encaixar melhor a nossos dados.
Nesse momento, é importante fazer algumas ressalvas: A ideia de que as distribuições serão sempre gaussianas, vem do teorema contral do limite, que especifica que a distribuição das médias das amostras tende a uma distribuição gaussiana, a medida que os ensaios tendem ao infinito. Porém, esse teorema nem sempre é aplicável, e embora possa ser verdade para as médias nem sempre o é para os dados em si, por exemplo em distribuições não simétricas, ou por conta do fato de que em geral temos apenas uma amostra, o que dificulta pensar na distribuição de médias e não dos próprios dados (Batista, 2009). Outra questão importante é que as probabilidades se referem a medidas de incerteza, ou seja, a probabilidade não te indica o quanto aquilo é verossímil ou plausível, mas sim quais as chances de você estar certa ou errada. Isto posto, podemos voltar a falar (ou começar no caso) de verossimilhança.
A verossimilhança vem nos falar sobre nossas hipóteses e dados e modelos e parâmetros de uma outra perspectiva que pensa que vários modelos podem ser usados para explicar aqueles dados e que algum (ou alguns) desses modelos será mais verossímil 2). Assim, a verossimilhança não é uma medida de probabilidade, e visa a partir dos dados (e de modelo escolhido previamente) estimar os parâmetros do modelo que tornam aqueles dados mais verossímeis. Assim, trata-se de uma função dos parâmetros do modelo, dadas as observações que temos (dados) - é uma função de verossimilhança dos parâmetros dados (ou seja, mantidos fixos) os dados e modelo. Embora a princípio pareça estranho variar os parâmetros dos modelos para que eles se adequem melhor aos dados, quando pensamos que as informações que temos sobre o sistema em estudo estão todas contidas nos nossos dados fica mais fácil entender por que modificar os parâmetros do modelo em relação a esses dados.
Antes de chegarmos ao cálculo de fato da verossimilhança algumas outras questões precisam ser elucidadas. A primeira delas é a Lei de Verossimilhança, que postula que dadas duas hipóteses (modelos + parâmetros) A e B em que a probabilidade de um conjunto de dados são respectivamente $p$a e $p$b, a hipótese A será favorecida se e somente se $p$a > $p$b (Batista, 2009). Com isso conseguimos definir que a força de evidência de uma hipótese A em relação a hipótese B é dada por $$ \frac{p_a}{p_b} $$ e essa razão é chamada de Razão de Verossimilhança (Batista, 2009). A Razão de Verossimilhança vê, então, a força de evidência dos dados que devem ser independentes (pois se os dados influenciarem uns aos outros as regras dessa razão não se aplicam mais), e ela é sempre uma medida comparativa, que mostra o quão mais verossímil é um dado (ou conjunto de dados) em relação a outro. Assim, se queremos saber qual dentre várias hipóteses é mais verossímil, devemos testar todas duas-a-duas, o que embora seja mais trabalhoso, permite testar múltiplas hipóteses para um mesmo conjunto de dados, e ajustar os modelos aos dados (Bolker, 2008).
Por fim, a função de verossimilhança é a função de densidade do modelo na qual a observação (dados) é fixa e o parâmetro é variável $\mathcal{L}${hipótese | dados} (Batista, 2009), e pode assim obter valores muito diferentes para modelos diferentes, tornando difícil a comparação. Quando analisamos uma função de verossimilhança o que buscamos encontrar é o melhor (ou os melhores) parâmetro para aquele conjunto de dados, e para isso basta maximizar a função de verossimilhança: ao encontrar seu máximo, encontramos os parâmetros que melhor se ajsutam aquele conjunto de dados. Ao fazer isso, encontramos a Máxima Verossimilhança, que é a melhor estimativa para esses parâmetros, ou seja, são as estimativas para os parâmetros que tornam aquele conjunto de dados mais verossímil (Bolker, 2008).
Assim como na abordagem clássica havia um intervalo de confiança no qual a probabilidade da hipótese testada era mais alta, na abordagem por verossimilhança temos um intervalo de verossimilhança dentro do qual os valores do parâmetro são igualmente verossímeis. Tais intervalos são muito importantes pois toda predição tem incertezas associadas (Bolker, 2008), e ao criarmos um intervalo de valores possív eis tornamos essas incertezas menores (pois tem mais valores que consideramos possíveis).
A função de Log-Verossimilhança Negativa
Como já mencionado na seção anterior, a verossimilhança pode vir em escalas muito grandes e diferentes para diferentes modelos, dificultando a sua manipulação e comparação para decidir sobre o uso de um ou outro modelo ou parâmetros (Batista, 2009). Além disso, trabalhar com logaritmos é matematicamente mais fácil, mas não obrigatoriamente mais fácil para pessoas não-matemáticas 3). Assim, a função logarítmica com base e4), ou logaritmo natural (ou logaritmo neperiano), é usada na sua função de verossimilhança para tornar os valores mais palpáveis, ficando assim: $$ log[\mathcal{L}(hipótese | dados)] $$ depois disso, é só colocar um sinal de menos na frente e temos a função de log-verossimilhança negativa: $$ -log[\mathcal{L}(hipótese | dados)] $$
Tornar a função negativa implica que agora vamos buscar o mínimo da função de log-verossimilhança negativa (Batista, 2009), pois antes estavamos buscando o máximo da função de verossimilhança. Em geral, como a verossimilhança é um número (em geral!) positivo menor que um, a log-verossimilhança negativa vai ser um número positivo maior que um, tornando a manipulação desses números muito mais fácil (mesmo pra quem não é matemática).
Massa, mas como eu uso isso? ou Aplicações Práticas (ou nem tanto)
Uma possível aplicação prática na área de genética e expressão gênica para tais princípios e funções se relaciona a expressão de genes durante a espermatogênese de Drosophila melanogaster. Ao compararmos grupos de genes sendo expressos nessa importante fase do desenvolvimento comparamos apenas suas médias, por partir do pressuposto que a expressão dentro de cada grupo segue uma distribuição normal. O teste apenas de se as médias dos grupos são iguais ou diferentes pode esconder diversos outros dados sobre a expressão nesse processo, pois não é difícil que as distribuições das expressões nesses dois grupos de genes (por exemplo, genes novos e antigos) sejam diferentes, devido a fatores mutacionais e de seleção que estão envolvidos na expressão dos mesmos (pois genes antigos e mais conservados devem ser expressos de forma diferente, pois já passaram por muitos eventos de seleção, enquanto genes novos ainda não foram totalmente selecionados e podem por isso estar sendo expressos de formas diferentes).
Por exemplo, nada impede que nos genes antigos tenhamos uma distribuição de Bernoulli, pois muitos genes tem expressão baixa ou zero, pois foram selecionados ao longo de muitas gerações para não serem expressos nessa fase, enquanto genes novos tem uma distribuição exponencial pois muitos deles são expressos nessa fase, pois ainda não passaram por amarras de seleção que diminuiriam a expressão de boa parte deles.
Uma outra aplicação (nem tão) prática muito interessante pode ser vista no campo da educação. A atribuição de notas a estudantes segue uma distribuição gaussiana também por questões filosóficas, afinal, se todas tirassem dez, as pessoas se esforçariam menos naquela disciplina. Em geral porém, tal classificação pode levar a relações intra-estudantis que não são saudáveis e podem levar as crianças a se julgarem melhores que outras devido a suas notas. Em situações mais extremas as próprias intituições educacionais agrupam as estudantes de acordo com suas classificações criando as salas das “boas alunas” e “más alunas”, o que também pode ter implicações na formação delas enquanto cidadãs.
A concepção de que as notas atribuidas a estudantes não precisam seguir uma distribuição normal, pode ser um primeiro passo numa revolução muito neccessária ao sistema educacional atual. A noção de que não se trata de atribuir um modelo já criado ao nosso conjunto de dados (nesse caso o corpo estudantil e seus desempenhos), mas sim de encontrar o modelo que melhor se encaixa a ele pode ser extrapolado afim de garantir espaços de ensino-aprendizagem onde todas se sintam a vontade e as distribuições de notas sejam mais próximas ao que encontramos na vida escolar, no lugar de uma gaussiana que insiste em nos perseguir e classificar.
Referências bibliográficas
Batista, J.L.F. 2009 Verossimilhança e Máxima Verossimilhança.
Bolker, B.M. 2008 Ecological Models and Data in R, Princeton: Princeton University Press.
Lewin-Koh N., Taper, M. L. & Lele, S. R. (2004). A brief tour of statistical concepts. *In:* The nature of scientific evidence (eds. ML Taper and SR Lele), University of Chicago Press.
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Raíces, J. 2014. Mini-Ensaio sobre Verossimilhança. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.