Tabela de conteúdos
Uso de distribuições de probabilidade contínuas para modelar padrões de atividade gerados a partir de dados de armadilhas fotográficas
Bruno Cid
*Laboratório de Ecologia e Conservação de Populações, Programa de Pós-Graduação em Ecologia – Universidade Federal do Rio de Janeiro
*Email: bccguima@yahoo.com.br
Contextualização
Os padrões de atividade circadiana animal são regidos pela capacidade dos indivíduos em balancear os riscos (como a exposição à predação) e benefícios (como ganho de recursos) de estarem ativos em um determinado momento, levando em consideração seus limites morfológicos e fisiológicos. Sendo assim, o conhecimento dos padrões de atividade é importante para o entendimento da ecologia de qualquer espécie animal. Sabendo disso, pesquisadores têm usado diversos métodos capazes de dar informações sobre esses padrões, todos tendo suas vantagens e desvantagens. As vantagens do uso de armadilhas fotográficas para a estimativa dos padrões de atividade vêm da facilidade em cobrir uma grande área e, conseqüentemente a possibilidade de amostrar muitos indivíduos, e por ser uma técnica não-invasiva, o que gera padrões não enviesados pela ação do pesquisador. As desvantagens vêm do fato de que, na maioria das vezes, é impossível reconhecer os indivíduos, o que permite apenas uma estimativa geral no nível da espécie, e de que existe uma confusão entre atividade e abundância, inerente ao número de registros, por causa disso.
O uso de armadilhas fotográficas se tornou mais comum a partir de dos anos 2000. Com o barateamento do equipamento e aumento do uso, alguns modelos matemáticos foram desenvolvidos para a estimativa de tamanho populacional, ocupação da paisagem e padrões de atividade circadianos. Para este último, um dos métodos mais recentes usa a lógica da estimativa do tamanho da área-de-vida por densidade de kernel para criar uma forma não anedotal e que respeita a natureza contínua e circular da atividade circadiana para decompor padrões de atividade a partir de dados vindos de armadilhas fotográficas (Oliveira-Santos et al. 2012). A distribuição de densidade probabilística de kernel conta com apenas um parâmetro (h), que indica o quão suavizado é o contorno da distribuição em torno de um conjunto de valores. A partir do uso do kernel circular é possível fazer inferências sobre diversos componentes da atividade como a atividade total (isopleth de 95%) e o centro de atividade das espécies (isopleth de 50%), além de estimar o tamanho da atividade em horas e a densidade probabilística em cada período do dia (dia, noite e crepúsculos) (exemplo: Fig.1)
Fig. 1. Padrão de atividade de quatis (Nasua nasua) no Pantanal da Nhecolândia gerado por kernel circular (h=5, n=330 registros). A linha contínua representa a atividade total (isopleth de 95%). A área hachurada representa o centro de atividade (isopleth de 50%). O tamanho do eixo x nos limites de cada isopleth indica o tamanho da atividade referente à cada uma. O retângulo branco representa a duração do dia. Os retângulos cinza claros representam a duração dos crepúsculos. O retângulo cinza escuro representa a duração da noite. A área abaixo da curva em cada período do dia(dia, noite e crepúsculo) indica o quanto da atividade total está concentrada em cada um.
Uma das perguntas da minha tese de doutorado é: quantos registros são necessários para estimar um bom padrão de atividade circadiana? Para isso, resolvi entender o desempenho do ganho de tamanho amostral (número de registros) em recuperar o formato do padrão de atividade global (gerada a partir do conjunto completo de registros) e estimar o tamanho da atividade (tempo, em horas, que o animal fica ativo) relacionado a este padrão. Escolhi para este ensaio uma espécie diurna, o quati (Nasua nasua), como modelo de distribuição empírica. Esta espécie possui 330 registros no local de estudo escolhido. A principal premissa deste trabalho é que uma distribuição de atividade estimada a partir do conjunto completo de registros está bem estimada.
Métodos
Para entender o efeito do ganho amostral na descrição do formato do padrão de atividade global, eu subamostrei o conjunto completo de registros em intervalos crescentes de cinco registros cada, gerando a distribuição de atividade por kernel circular para cada intervalo (sempre a atividade total, ou seja, a isopleth de 95%).Depois,estimei a sobreposição de cada uma dessas distribuições com a distribuição de atividade global. Este procedimento foi repetido 100 vezes para cada intervalo e intervalos foram reamostradas com reposição (bootstrapping).Procedimento análogo foi realizado para a estimativa tamanho da atividade. Porém, para esta, foi estimado o tamanho do eixo x relacionado à isopleth de 95% (Fig. 2).
Fig. 2. Aumento da eficácia em recuperar características do padrão de atividade global de quatis (Nasua nasua) gerado por kernel circular (h=5; isopleth 95%) com o crescimento do tamanho amostral. Os pontos representam as médias e as linhas representam o intervalo de confiança de 95%. A = aumento da sobreposição com a atividade global em função do crescimento do tamanho amostral. Em A, as linhas tracejadas horizontais marcam as sobreposições em 80%, 85%, 90%, 95% e 100% e as linhas tracejadas verticais marcam os respectivos números de registros necessários para alcançar tais valores. B = estabilização do tamanho da atividade com o aumento do tamanho amostral. Em B, a linha tracejada vertical marca o número de registros necessários para atingir a estabilização do tamanho da atividade.
A sobreposição com o padrão de atividade global nunca chega a 100%, ou seja, é impossível, com esse tamanho amostral, recuperar perfeitamente seu formato, usando reamostragem com reposição. Em relação ao tamanho da atividade, parece mais fácil recuperá-lo. A pergunta que fica então é: a partir de quantos registros posso dizer que podemos estimar um bom padrão de atividade? Esperar por 100% de sobreposição com a distribuição global me parece irreal. Será essa uma característica geral de distribuições de probabilidade submetidas ao mesmo procedimento? Para entender a generalidade desses resultados, escolhi três modelos baseados em distribuições de probabilidade contínuas paramétricas para simular padrões de atividade. Acredito que estes resultados possam me ajudar a entender que expectativas posso ter em relação à capacidade do crescimento do tamanho amostral em recuperar o formato e os quantis (que são análogos ao tamanho da atividade) de algumas distribuições.
A distribuição de probabilidades é uma função que estabelece uma relação entre um conjunto de valores e o intervalo de probabilidades [0,1]. Se essas distribuições são paramétricas, elas têm parâmetros próprios que as definem. Nas distribuições contínuas, a distribuição de probabilidades é chamada função de densidade probabilística. Ela descreve a probabilidade de um valor estar entre x e x + Δx/Δx. Ao contrário das distribuições de probabilidades, a função de densidade probabilística pode assumir valores maiores do que um. Mas como estamos interessados nas probabilidades relativas isso importa pouco (Bolker 2008).
Vou usar três variáveis aleatórias contínuas (sinônimo de distribuições de probabilidade contínuas) como modelos para simular distribuições de atividade empíricas. Como estou usando uma espécie diurna como modelo empírico, limitei a distribuição de todas as variáveis aleatórias entre o nascer e o pôr do sol (valores de 6 a 18). As três distribuições são: distribuição uniforme (onde o animal tem probabilidade constante de estar ativo durante o dia), distribuição gaussiana (onde o animal tem um pico de probabilidade de estar ativo durante certo momento do dia) e um modelo que conta com a mistura de duas distribuições gaussianas (onde o animal tem dois picos de probabilidade estar ativo durante dois momentos do dia). Essas distribuições estão ordenadas da menos para a mais fiel aos padrões de atividade demonstrados na natureza.
A distribuição uniforme tem como parâmetros seus limites (mínimo e máximo) e apresenta uma função de densidade probabilística constante, sendo qualquer valor dentro deste intervalo igualmente provável (Fig. 3A). Esta distribuição se afasta das distribuições geradas a partir de dados empíricos porque, de forma geral, os animais apresentam um (ou mais) pico de atividade ao longo do seu ciclo circadiano, tendo maior probabilidade de estarem ativos em determinados momentos ao longo do seu período de atividade. A parametrização, em linguagem R usada foi: dunif(seq(0.1,24,0.1), min=6, max=18), onde os valores dos parâmetros de mínimo e máximo representam os limites do dia.
A distribuição gaussiana tem como parâmetros a média e o desvio-padrão. Esta apresenta uma forma de sino centrada na média e distribuída de acordo com o desvio-padrão. Esta distribuição é uma aproximação mais verdadeira da natureza do que o modelo uniforme porque permite a simulação de um pico de atividade ao longo do ciclo circadiano (Fig. 3B).A parametrização, em linguagem R usada foi: dnorm(seq(0.1,24,0.1), mean=12, sd=2),onde o valor do parâmetro média indica o meio do dia e o parâmetro desvio-padrão insere a distribuição nos limites do dia.
O modelo de misturas conta com duas distribuições gaussianas e é descrito por cinco parâmetros, as duas médias e os dois desvios-padrão das duas gaussianas e mais um parâmetro que indica a qual a probabilidade de determinado valor pertencer a cada uma delas (w). Sendo assim, este permite a simulação de dois picos de atividade ao longo de um ciclo circadiano (Fig. 3A). Esse modelo de misturas é o mais fiel aos padrões empíricos já que a maioria deles apresenta dois picos de atividade. Também acredito que seja o mais fiel à distribuição do conjunto de dados que estamos usando (Fig. 1).A parametrização, em linguagem R usada foi: mist(seq(0.1,24,0.1), mean1=9, mean2=15, sd1=1.3, sd2=1.3,w=0.55), onde os parâmetros de médias centram as duas gaussianas nos mesmos pontos em que a distribuição empírica (Fig. 1), os parâmetros de desvios-padrão inserem a distribuição nos limites do dia e o parâmetro w mostra que existe uma probabilidade um pouco maior (55%) de pertencer à primeira gaussiana, como na distribuição empírica (Fig. 1).
Fig. 3. Distribuições teóricas usadas para simular o padrão de atividade de quatis (Nasua nasua) gerado por kernel circular (h=5; isopleth 95%). As linhas representam as funções de densidade probabilística dos modelos de padrões de atividade circadianos diurnos. O retângulo branco representa a duração do dia. Os retângulos cinza claros representam a duração dos crepúsculos. O retângulo cinza escuro representa a duração da noite. A = modelo uniforme (parâmetros: min=6, max=18). B = modelo gaussiano (parâmetros: m=12, dp=2). C = modelo de misturas (parâmetros: m1=9, m2=15, dp1=1.3, dp2=1.3, w=0,55).
Para entender se os padrões de ganho de informação sobre a distribuição total com o aumento do tamanho amostral vão se repetir nas distribuições teóricas, vou repetir os procedimentos realizados para a distribuição empírica. Neste caso, serão simulados 330 valores a partir de cada uma das variáveis aleatórias (mesmo tamanho amostral da distribuição empírica).A sobreposição entre a distribuição global e as distribuições de cada intervalo serão calculadas como uma sobreposição simétrica (a mesma usada para calcular a sobreposição entre duas distribuições de atividade no kernel circular):A∩B/AUB, onde AUB = A+B-A∩B. A estabilização do tamanho da atividade será simulado pela estimativa da estabilização dos quantis das distribuições (Fig. 4).
Fig. 4. Aumento da eficácia em recuperar características de distribuições teóricas com o crescimento do tamanho amostral. Os pontos representam as médias e as linhas representam os intervalos de confiança de 95%. Os três gráficos de cima mostram o aumento da sobreposição com a distribuição global em função do crescimento do tamanho amostral. Nestes, as linhas tracejadas horizontais marcam as sobreposições em 80%, 85%, 90%, 95% e 100% e as linhas tracejadas verticais marcam os respectivos números de registros necessários para alcançar tais valores. A = modelo uniforme. B =modelo gaussiano. C =modelo de misturas. Os três gráficos de baixo mostram a estabilização do tamanho dos quantis com o aumento do tamanho amostral. Nestes, a linha tracejada vertical marca o número de valores necessários para a estabilização do quantil de 95% visualmente estimado. D = modelo uniforme. E = modelo gaussiano. F = modelo de misturas.
Resultados
Em nenhuma das reamostragens para os modelos teóricos foi possível atingir média de 95% de sobreposição com a distribuição global (Fig. 4A, B e C). Na medida em que os modelos foram ficando mais complexos, foi se tornando necessário um tamanho amostral cada vez maior para atingir as metas de sobreposição. Em relação à estabilização dos quantis, apenas o modelo normal precisou de mais valores para atingi-la (Fig.5).
Fig. 5. Número de registros/valores necessários para recuperar características de forma e quantis em 4 conjuntos de valores: empírico e modelos uniforme, gaussiano e de misturas gaussianas. Os pontos indicam o número de fotos em cada ocasião e as linhas tracejadas indicam as mesmas metas. Linhas tracejadas pretas: metas de 80%, 85% e 90% de sobreposição com a distribuição completa. Linhas tracejadas cinzas: estabilização do tamanho da atividade/quantis.
Discussão
O número de registros necessários para recuperar o padrão de atividade global de uma espécie, no caso do uso do kernel circular, depende do parâmetro de suavização (h, que define esta distribuição) e do formato geral da atividade. Neste caso, o h é fixo (=5) e foi definido por simulações da estabilização do formato da distribuição em função da variação do h em Oliveira-Santos et al. (2012). Já o formato geral da atividade é um dado empírico.
Recuperar a forma perfeita das distribuições usadas como modelos é impossível com conjuntos que contam com, no máximo, 330 valores reamostrados com reposição. As simulações realizadas me ajudaram a entender que esta é uma característica das distribuições usadas e não uma particularidade das distribuições de atividade geradas por kernel circular a partir de dados de armadilhas fotográficas. Olhado as simulações já não acredito que 100% de sobreposição seja uma meta real esperada para qualquer um dos casos. Como todas as distribuições teóricas atingiram um nível máximo de 90%, talvez esse seja um bom valor assintótico de efetividade na recuperação do formato de distribuições pelo aumento do tamanho amostral. Tomando 90% como base, eu precisaria de 40 registros para estimar uma distribuição de atividade de quatis (Nasua nasua) no Pantanal. Se pensarmos que o padrão de atividade dos quatis não será muito diferente do que outros gerados a partir de registros de espécies diurnas, esse resultado pode ser generalizado para essas espécies. Esse valor me parece condizente com a realidade de esforço amostral em campo e satisfatório em termos estatísticos. É claro, este pode sofrer pequenas alterações quando estivermos lidando com padrões gerais de atividade distintos como espécies crepusculares e catemerais.
A estabilização do tamanho da atividade na distribuição empírica aconteceu com 60 registros.A estabilização dos quantis parece coincidir com o alcance da meta de 85% da sobreposição com a distribuição total e também varia em torno de 60 valores para as distribuições teóricas, tendo apenas a gaussiana destoado para mais valores. Mesmo que estes números façam sentido, ainda se faz necessário um método analítico para definir o início da estabilização, já que o método aqui usado foi visual e sujeito a erros. Também carece de melhora a forma de simular a recuperação do tamanho da atividade, já que tamanhos amostrais pequenos só conseguiram alcançar valores de quantis menores do que o quantil de 95% da distribuição global, o que se mostrou incondizente com os padrões encontrados para os dados empíricos.
As simulações do padrão de atividade diurno de quatis me ajudaram a entender as limitações dos métodos que estou usando para inferir tamanho amostral mínimo para gerar um padrão de atividade a partir de dados de armadilhas fotográficas confiável. Para chegar à conclusões mais gerais, os novo passos a serem dados são: realizar os mesmos procedimentos para padrões de atividade gerais distintos (como crepuscular, catemeral e noturno), com tamanhos amostrais e formatos variados.
Referências bibliográficas
Bolker, B. M. 2008. Ecological models and data in R. Princeton University Press.
Oliveira-Santos, L.G.R., C. A. Zucco, and C. Agostinelli. 2013. Using conditional circular kernel density functions to test hypotheses on animal circadian activity. Animal Behavior, 85:269-280.
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Cid, B. 2014. Uso de distribuições de probabilidade contínuas para modelar distribuições de atividade gerados a partir de dados de armadilhas fotográficas e testar padrões. In: Prado , P.I & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.