Ferramentas do usuário

Ferramentas do site


historico:2014:ensaios:santana

Dados aos modelos ou modelos aos dados? Vantagens e exemplos do uso da inferência por verossimilhança em análises de dados ecológicos

Erika Marques de Santana

* Doutoranda em Ecologia, Instituto de Biociências, Universidade de São Paulo (USP) * erika.ms@gmail.com

Inferência estatística é a forma que usamos para relacionar o que é observado nos sistemas naturais à teoria científica. Consiste na elaboração de hipóteses científicas testáveis, com base no conhecimento científico existente, e por meio delas construir modelos (ou hipóteses) estatísticos comparáveis com diferentes propriedades explanatórias de como o sistema funciona (Lewin-Koh et. al, 2004). As propriedades dos modelos estatísticos, ou parâmetros, são definidos por funções matemáticas dos modelos que atribuem probabilidades aos dados amostrados (Bolker, 2008). Existem diferentes abordagens de inferência estatística, que tem por base diferentes pressupostos para elaboração de modelos. Cada abordagem possui vantagens e limitações, sendo importante que o pesquisador saiba as características e os pressupostos dos modelos testados em cada abordagem, a fim de ser capaz de avaliar criticamente e escolher a melhor opção de inferência.

A inferência frequentista é a abordagem estatística clássica, mais comumente utilizada para testar hipóteses. Nessa abordagem, a distribuição de probabilidades dos dados amostrais é definida a priori, de forma que o teste parte da premissa de que os dados possuem determinada distribuição probabilística, em geral a distribuição Gaussiana. Na inferência frequentista, quanto maior o n amostral maior será a robustez da análise, já que melhor estará representado o universo do qual os dados foram amostrados. Outra característica da inferência frequentista é que os testes consideram somente dois modelos contrastantes, o primeiro no qual há ausência do efeito inferido (hipótese nula, H0) e um modelo alternativo (hipótese alternativa, H1). A escolha do modelo mais plausível para explicar o que é observado nos dados amostrados se baseia no resultado do valor p, que é a probabilidade de se obter outro resultado igual caso a H0 seja verdadeira (Gotelli & Ellison 2004). Assim, a inferência frequentista nos permite somente aceitar ou rejeitar a H0, não sendo possível fazer testes sobre a plausibilidade da H1. Além disso, a distribuição de probabilidades dos modelos comparados na inferência frequentista possuem pressupostos de normalidade, unicaudalidade e parâmetros média e variância constantes, o que na maior parte das vezes não corresponde com a natureza dos dados de sistemas naturais.

Uma abordagem proposta inicialmente por Fisher (1921) que vem sendo amplamente utilizada atualmente é a inferência estatística com base na verossimilhança. Ela se baseia no Principio da Verossimilhança, que postula que é necessário se basear no que realmente foi observado para fazer inferência sobre os parâmetros de modelos estatísticos (Batista, 2009). Na inferência por verossimilhança a comparação se dá entre dois ou mais modelos estatísticos, em que cada modelo é uma hipótese que atribui uma probabilidade diferente aos dados. Não há uma H0 e os modelos de distribuição dos dados não são definidos à priori, mas sim propostos pelo pesquisador e comparados com base no ajuste dos parâmetros dos modelos propostos aos dados. Sendo assim, diferente da abordagem utilizada na estatística clássica, na inferência por verossimilhança os dados são fixos e o que varia são os modelos propostos para explicá-los (Hobbs & Hilborn 2006), tornando a inferência totalmente sensível aos dados amostrados. A inferência por verossimilhança se baseia na Lei da Verossimilhança (Batista, 2009), que afirma que o modelo 1 (H1) será mais plausível que o modelo 2 (H2) quando a probabilidade dos dados amostrais atribuída por H1 (p1) for maior do que a probabilidade dos dados amostrais atribuída por H2 (p2). A força de evidência em favor de H1 em detrimento de H2 é dada pela Razão de Verossimilhança, encontrada pela razão p1/p2 (Hobbs & Hilborn 2006; Batista, 2009).

Mas como funciona a inferência baseada na verossimilhança? Primeiramente, é necessário que o pesquisador defina quais serão os modelos concorrentes. Esta etapa é chamada de especificação e consiste em gerar modelos estatísticos, compostos por funções de distribuição de probabilidades, que representem hipóteses cientificas que expliquem a variação encontrada nos dados. A especificação dos modelos concorrentes é uma etapa importante porque pelo menos um dos modelos será selecionado como melhor explicação para os dados. Dessa forma, é importante que todos os modelos representem explicações biológicas coerentes e que façam sentido a luz da teoria científica. Em seguida, são estimados os parâmetros da função matemática (ou funções matemáticas) presente no modelo estatístico. A estimação desses parâmetros consiste na busca pelo melhor ajuste para cada modelo, ou seja, na busca pelos valores de parâmetros que maximizam a verossimilhança da função do modelo para aqueles dados, conhecida como Estimativa de Máxima Verossimilhança dos parâmetros do modelo (MLEs) (Batista, 2009). A seleção dos modelos com melhor ajuste, última etapa da inferência por verossimilhança, se dá com base no modelo com maior MLE, o modelo considerado mais plausível. As MLEs dos modelos permitem a construção de Intervalos de Verossimilhança para os parâmetros do modelo, que é uma medida de incerteza dentro da qual os valores dos parâmetros do modelo são igualmente plausíveis (Batista, 2009).

Diferente do que ocorre na inferência frequentista, na inferência por verossimilhança mais de um modelo pode ser definido como plausível de acordo com os dados. Isso quer dizer que mais de uma hipótese proposta é plausível para explicar o padrão encontrado em um conjunto de dados. Nesse caso, cabe ao pesquisador avaliar ou argumentar sobre o resultado da análise com base no conhecimento científico do sistema estudado. Na inferência por verossimilhança, a comparação entre modelos elaborados pelo pesquisador e a possibilidade de mais de um modelo ser escolhido retira da estatística o “poder mágico” de explicar se uma hipótese é verdadeira ou não (como ocorre na inferência frequentista), aumentando a plasticidade da análise e permitindo ao pesquisador propor e explicar as hipóteses do estudo (Bolker, 2008).

A plasticidade na elaboração de modelos por verossimilhança e as ferramentas computacionais existentes atualmente abriu precedentes para que a inferência por verossimilhança fosse utilizada nas mais diversas áreas de estudos biológicos (Bolker, 2008). Como exemplos da utilização da inferência por máxima verossimilhança, citarei a pesquisa que realizei no mestrado e parte do trabalho que farei no doutorado. Durante o mestrado, busquei avaliar se anuros (Amphibia) expostos à poluição atmosférica proveniente do Complexo Industrial de Cubatão apresentariam efeitos fisiológicos negativos. Para tanto, coletei diversas variáveis fisiológicas dos indivíduos de três populações expostas a diferentes graus de poluição atmosférica. Havia mais de uma variável preditora (localidade, quantidade de parasitas, condição corporal) para cada variável resposta (razão neutrófilo/linfócito e taxa de eosinófilos) e o efeito de tais variáveis preditoras sobre a variável resposta poderia ser aditivo ou interativo. Além disso, dentre as variáveis preditoras havia uma variável categórica, uma discreta e uma contínua, possuindo diferentes padrões de distribuição probabilística. Dessa forma, elaborei diferentes modelos estatísticos com base em hipóteses alternativas do que eu esperava encontrar, utilizando diferentes variáveis preditoras, com diferentes distribuições probabilísticas em cada modelo. Testar hipóteses com modelos que contemplassem tais variáveis, com suas características e diferentes interações entre elas, não teria sido possível por meio da inferência frequentista clássica. Para elaborar os modelos, me baseei em estudos recentes sobre efeitos de diferentes indicadores fisiológicos, onde o uso da inferência por verossimilhança e seleção de modelos tem se tornado comum (p. ex. Madelaire et al, 2013).

Em um dos capítulos do meu doutorado, pretendo avaliar se a reprodução terrestre reduz o risco de competição espermática e, consequentemente, o investimento gonadal e a competitividade do esperma dos machos. Para tanto, vou amostrar variáveis de machos adultos de algumas espécies pertencentes ao mesmo clado. Eu terei várias variáveis respostas (como tamanho relativo dos testículos e as características do esperma) e a variável preditora será o tipo de reprodução das espécies (terrestre e aquática) que apesar de ser uma variável categórica binária, não é independente entre as espécies. Sendo assim, para avaliar se os valores das variáveis respostas variam de acordo com o tipo de reprodução, serão utilizados modelos lineares generalizados filogenéticos (PGLMs) (Martins & Hansen, 1997). Esses modelos levam em consideração a dependência entre os dados multiespecíficos para os quais se conhece a filogenia. Em outras palavras, a função que prevê os valores da variável preditora contempla a dependência existente entre as espécies devido às relações filogenéticas entre elas. Há pacotes estatísticos no programa R que permitem implementar e trabalhar com esses tipo de análise, como por exemplo o pacote ‘pgls’ (R Core Team 2014) que eu pretendo utilizar. Os PGLMs vem sendo utilizados na análise dos mais diversos tipos de estudos, desde estudos evolutivos que avaliam o papel da seleção sexual na evolução de fenótipos (p. ex. Ramm 2007), até estudos que avaliam a diversificação da coloração de flores em comunidades (p. ex. McEwen & Vamosi) ou plasticidade fenotípica dentro de um clado (p. ex. Herben et. al, 2014).

Como relatado acima, a inferência por verossimilhança vem ganhando cada vez mais espaço nas ciências biológicas e seu uso tende a se tornar cada vez mais comum. Dado o desenvolvimento de ferramentas computacionais poderosas, é esperado o desenvolvimento e uso de modelos cada vez mais complexos. Dessa forma, o entendimento da lógica e do funcionamento dos modelos estatísticos torna-se imprescindível na formação acadêmica de um bom pesquisador.

Referências bibliográficas

Batista, J.L.F. 2009. Verossimilhança e Máxima Verossimilhança. Centro de Métodos Quantitativos, Departamento de Ciências Florestais, Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Campus Piracicaba.

Bolker, B.M. 2008 Ecological Models and Data in R Princeton: Princeton University Press.

Fisher , R. A. 1921. On the probable error of a coefficient of correlation deduced from a small sample. Metron, vol. 1, p. 1-32.

Gotelli, N.J. & Ellison, A.M. 2011. Princípios de Estatística Em Ecologia Editora Artmed.

Herben, T.; Rydlová, V; Fér, T.; Suda, J.; Münzbergová, Z.; Wildová, R.; Wild, J. 2014 Phylogenetic signal in growth and reproductive traits and in their plasticity: the Descurainia radiation in the Canary Islands. Botanical Journal of the Linnean Society, vol. 174, p. 384–398.

Hobbs, N.T. & Hilborn, R. 2006. Alternatives to statistical hypothesis testing in ecology: A guide to self-teaching. Ecological Applications, vol. 16, n. 1. p. 5–19.

Lewin-Koh N.; Taper, M.L.; Lele, S. R. 2004. A brief tour of statistical concepts. In: The nature of scientific evidence (eds. ML Taper and SR Lele), University of Chicago Press, p 3 -16.

Madelaire, C.B.; Silva, R. J. da; Gomes, F.R. 2013. Calling behavior and parasite intensity in treefrogs, Hypsiboas prasinus. Journal of Herpetology, vol. 47, n. 3, p. 450-455.

Martins, E.P. & Hansen T.F. 1997. Phylogenies and the comparative method: a general approach to incorporating phylogenetic information into the analysis of interspecific data. The American Naturalist, vol. 149, n. 4, p. 646-667.

McEwen J.R. & Vamosi, J.C. 2010. Floral colour versus phylogeny in structuring subalpine flowering communities. Proceedings of The Royal Society - Biological Sciences, vol. 501, May, p. 1-10.

R Core Team, 2014. . R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/.

Ramm, S.A. 2007. Sexual selection and genital evolution in mammals: a phylogenetic analysis of baculum length. The American Naturalist, vol. 169, n. 3, p. 360-369

Citação

Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:

Santana, E.M. 2014. Título do Ensaio. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.

historico/2014/ensaios/santana.txt · Última modificação: 2022/11/24 14:12 por 127.0.0.1