Tabela de conteúdos
Trade-off entre variância e viés e suas implicações na predição do estoque de carbono por florestas em processo de restauração
Marina Melo Duarte
* Laboratório de Silvicultura Tropical, Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo
* mmeloduarte@gmail.com
Introdução
Durante o doutorado, que inicio neste semestre, estudarei o estoque de carbono/biomassa por florestas em processo de restauração. Dentre outras atividades, elaborarei modelos do acúmulo de biomassa por florestas em restauração em função do tempo e de outras variáveis preditoras, usando dados de florestas entre 0 e 8 anos de idade. Tenho intenções de usar esses modelos para fazer predições de como as florestas se comportarão após o período de coleta de dados.
A importância desse tipo de estudo se deve ao fato de que é muito provável que o cenário de mudanças climáticas vivido atualmente esteja relacionado à emissão de gases de efeito estufa na atmosfera, como o dióxido de carbono (Stern, 2007). O desmatamento é a segunda maior fonte antrópica de emissão de carbono à atmosfera (van der Werf et al., 2009) e a incorporação desse elemento pela vegetação é uma relevante forma de se reverter esse processo (Angelsen, 2009). Assim, é de grande importância monitorar o teor de carbono da vegetação (van der Werf et al., 2009). Da mesma forma, é importante que, no planejamento de um projeto de restauração florestal, se possa predizer quanto um plantio poderá estocar de biomassa (e, consequentemente, de carbono), para que, no futuro, cumpra de forma mais eficiente seu papel na mitigação de mudanças climáticas.
Um dos assuntos abordados durante a disciplina que se mostrou muito relevante em estudos de predições, é o trade-off entre viés e variância, que será explicado a seguir.
Explicando a teoria: O trade-off entre viés e variância na modelagem estatística
Quando realizamos um experimento, não temos noção das propriedades dos sistemas ecológicos: qual a real distribuição dos dados na natureza e quais os seus parâmetros verdadeiros. Só sabemos o que nossos dados são capazes de nos informar, permitindo-nos obter parâmetros estimados a partir deles. A qualidade dos dados influenciará a qualidade da resposta a ser obtida, gerando maior ou menor exatidão (acurácia) e precisão. A acurácia ou exatidão da resposta está relacionada com o quão fielmente os parâmetros estimados representam os verdadeiros. Essa distância entre os valores de um parâmetro estimado e de um verdadeiro é denominada viés. Já a precisão da resposta está relacionada com o quão mais finamente você pode estimar parâmetros. A variância mede essa distância de cada estimativa pontual à sua média. O erro quadrático médio, que indica a qualidade de um estimador, é a soma da variância e do quadrado do viés. Ele mostra a variação total em torno de um valor verdadeiro (Bolker, 2008).
A seleção de modelos atua na minimização do erro quadrático médio. Porém, como ele tem os componentes viés e variância, eles devem dividir entre si esse erro. Especialmente os modelos aninhados, em que um modelo está contido dentro do outro, alternarão os valores de viés e variância um em detrimento do outro (Forster, 2000).
Existe um “trade-off”, ou seja, um balanço, entre viés e variância, de forma que, quando se aumenta a complexidade de um modelo, o quadrado de seu viés tem seu valor diminuído, enquanto a variância tem seu valor aumentado (Hastie et al., 2009). Quando colocamos mais parâmetros em um modelo, ele pode se ajustar melhor aos dados disponíveis, diminuindo seu viés. Por outro lado, há um aumento na variância e a capacidade de o modelo fazer predições precisas diminui. Isso porque a quantidade de informações contida em um conjunto de dados é fixa e será diluída se for dividida entre um número muito grande de parâmetros, tornando-se menos eficiente para explicar cada um deles. A inclusão de detalhes aumentará a acurácia do modelo, mas enfraquecerá sua capacidade de explicar os efeitos de cada um desses detalhes, diminuindo a precisão (Bolker, 2008).
É comum ocorrerem dois tipos de erro devido ao trade-off entre viés e variância: o sobreajuste (overfitting) e sub-ajuste (underfitting). Sobreajuste ocorre quando são incorporados ao modelo detalhes que são específicos da amostra em questão e que não necessariamente refletem processos da natureza. É diminuído seu viés, mas são incorporados efeitos espúrios ao modelo e ocorre perda desnecessária de precisão. Já o sub-ajuste ocorre quando informações importantes contidas nos dados não são incorporadas ao modelo, fazendo com que ele seja simplificado, com maior viés, poucos parâmetros e uma precisão superestimada. O sobreajuste é considerado menos grave que sub-ajuste (Anderson & Burnham, 1999). Por outro lado, o sobreajuste diminui a precisão para se realizar predições, diminuindo, assim, a eficiência do modelo, se seu objetivo é realizar estudos preditivos (Bolker, 2008).
Como podemos lidar com esse dilema de escolha entre viés e variância?
É recomendado se trabalhar com amostras de tamanho suficiente para a proposição dos modelos desejados. Amostras de tamanho muito pequeno podem levar a estimativas de parâmetros por verossimilhança apresentando alto viés (Bolker,2008). Amostras de tamanhos maiores são mais capazes de aceitar maior número de parâmetros (Anderson & Burnham, 1999).
Podemos atuar também no momento da proposição de modelos. Devem ser propostos apenas modelos coerentes com a realidade e com a teoria que se conhece de cada área de estudo. Por outro lado, deve-se fazer esforço para incluir na análise todos os modelos que façam sentido biologicamente, que tenham uma justificativa plausível (Anderson & Burnham, 1999). Atuando cuidadosamente na proposição de modelos e os embasando bem, podemos evitar que o modelo a ser escolhido apresente um comportamento incoerente com a realidade.
Outro momento em que podemos atuar na redução dos problemas de sobreajuste ou de sub-ajuste é na seleção de modelos. Essa seleção pode ser feita de formas diferentes, por distintas abordagens, como por teste de razão de verossimilhança, por critérios de informação (AIC e derivados dele) e por abordagem Bayesiana (verossimilhança marginal, BIC, DIC), que devem ser escolhidos de acordo com os objetivos e afinidades do pesquisador. Aqui, focaremos na seleção de modelos pela abordagem da verossimilhança, utilizando o critério de informação de Akaike (e derivados dele). Esse critério se baseia na distância entre um modelo estabelecido e um modelo teórico verdadeiro de distribuição de dados na natureza. Logo, valores inferiores de AIC indicam modelos mais plausíveis (menos distantes do verdadeiro). Melhores ajustes minimizam seu valor, porém, a adição de parâmetros que não explicam bem os dados faz com que seu valor aumente. Pode ser usada uma correção para amostras de tamanhos pequenos, por meio do AICc (corrigido). Isso merece atenção especial no estudo de trade-off entre viés e variância porque estimativas de parâmetros por verossimilhança podem ser enviesadas nas amostras de tamanhos pequenos (Bolker, 2008). O AICc, para um determinado tamanho de amostra, pode indicar que certo modelo realiza de forma mais eficiente o trade-off entre viés e variância (Burnham et al., 2011). Logo, o uso dessa correção no AIC, para amostras pequenas, pode ser útil na escolha de modelos com finalidade de predição.
Mas como essa teoria está relacionada a estudos de predição do estoque de carbono em florestas em restauração?
Quando resolvemos restaurar uma floresta com finalidade de sequestro de carbono, é desejável que, desde o início do projeto, possa-se ter uma noção de quanto carbono ela poderá incorporar no futuro e que fatores podem maximizar esse processo. Assim, é útil construir modelos de acúmulo de biomassa por florestas ao longo do tempo, com finalidade de predição. Esses modelos devem incorporar como parâmetros fatores que possam interferir no acúmulo de biomassa, como, por exemplo, o número de espécies presentes, os grupos funcionais dessas espécies, características de solo e clima etc.. De tal forma, a partir da presença desses fatores, no início do processo de restauração, poderemos ter ideia de como a floresta incorporará carbono no futuro.
Contudo, como foi exposto, para modelos preditivos, deve-se atentar ao trade-off entre viés e variância. É de grande importância que se analisem quais fatores realmente interferem no comportamento dos dados estudados, a fim de que parâmetros importantes não sejam deixados de lado na formulação de um modelo (sub-ajuste). Por outro lado, se forem acrescentados parâmetros que não refletem o processo que gerou a distribuição de dados, mas que refletem ruídos nos dados coletados, haverá sobreajuste e o modelo perderá sua eficiência de predição, distanciando-se de seu objetivo.
É importante que os modelos propostos sejam razoáveis: tenham comportamento coerente com teorias e processos observados na natureza. A literatura nos indica que, no início do processo de colonização de uma área desmatada, a competição entre as árvores é mínima, permitindo altas taxas de recrutamento e de crescimento. Essa competição é maximizada quando ocorre o fechamento do dossel (Alberti et al., 2008). Dessa forma, logo no início, o acúmulo de carbono por uma floresta é baixo, pela baixa razão fotossíntese/respiração. Contudo, ele rapidamente cresce, até atingir um pico. Depois, diminui lentamente, até chegar um momento em que a floresta praticamente estabiliza seu teor de carbono (Gough et al., 2008). Assim, esperamos que um modelo de quantificação da biomassa de uma floresta em restauração, ao longo dos anos, tenha o comportamento inicial de incremento da biomassa ascendente e posterior queda na taxa de incremento, até praticamente estabilizar a biomassa total do sistema. Um modelo que, por exemplo, prevê um incremento de biomassa constante, infinitamente, seria incoerente com a realidade, pois não consideraria que a competição entre as árvores limitaria o crescimento da floresta, em algum momento. Esse modelo irreal, logo, não deveria ser considerado. Alberti e colaboradores (2008) usam uma curva logística para descrever o conteúdo de biomassa ao longo do tempo para florestas em processo de sucessão ecológica, o que é coerente com a teoria apresentada.
Contudo, apesar de se considerar que florestas maduras atingem estabilidade na quantidade de biomassa, Lewis e colaboradores (2009) expõem que, na realidade, essa biomassa não se mantém exatamente constante ao longo do tempo, mas flutua entre períodos de crescimento constante e períodos de grande baixa por eventos estocásticos de morte de árvores. Esse é um exemplo de informação que, se incorporado a um modelo de predição de biomassa em florestas ao longo do tempo, poderá gerar sobreajuste. Como a morte de árvores é um evento estocástico, não nos interessa tentar incorporá-la como um fator em nosso modelo, pois não nos interessa tentar predizer quando no futuro acontecerá outro evento de morte de árvores. Para nosso objetivo, é mais interessante tentar predizer a quantidade aproximada de carbono que uma floresta terá incorporado, no futuro. Assim, nesse modelo, pode ser interessante não ajustar os pontos que mostram perda de biomassa por morte de árvores, aumentar seu viés, mas aumentar a precisão de predição da biomassa de uma floresta.
Apenas para fins ilustrativos, a Figura 1 representa medidas fictícias (pontos) do teor de carbono em uma floresta em restauração ao longo dos anos. Pode-se ver que o Modelo 2 tenta ajustar uma queda no teor de carbono da floresta (por volta dos 90 anos de idade). Na Figura 2, extrapolando o tempo de coleta de dados (100 anos), podemos ver que o Modelo 2 prevê uma queda abrupta do teor de carbono na floresta, não justificada pela teoria. O Modelo 2 possivelmente apresenta sobreajuste, tendo ajustado uma flutuação estocástica na biomassa.
Figura 1: Pontos representam medidas do teor de carbono em floresta em processo de restauração ao longo do tempo (dados fictícios) e linhas representam dois modelos para ajustar esses dados.
Figura 2: Curvas representadas pelos modelos 1 e 2 por um período de tempo além da coleta de dados.
Assim, podemos contrapor teorias ecológicas com teorias da modelagem para melhor nos orientar em como proceder nos estudos a serem realizados. Como se pode observar, este ensaio não tem a pretensão de esgotar o assunto trade-off entre viés e variância e muito menos de apresentar uma resposta sobre como resolver o dilema proposto. Contudo, ele mostra o quanto é importante explorar e lidar cuidadosamente com essa questão quando se realizam estudos preditivos.
Referências bibliográficas
ALBERTI, G. PERESSOTTI, A. PIUSSI, P., ZERBI, G. 2008. Forest ecosystem carbon accumulation during a secondary succession in the Eastern Prealps of Italy. Forestry, 81: 1-11. doi:10.1093/forestry/cpm026
ANDERSON, D.R. BURNHAM, K.P. 1999. General strategies for the analysis of ringing data. Bird Study, 46: S261–S270. doi:10.1080/00063659909477253
ANGELSEN, A. 2009. Introduction. In: ANGELSEN, A. (Ed.). Realising REDD+: National strategy and policy options. Bogor: Center for International Forestry Research (CIFOR). p. 1-12.
BOLKER, B.M. 2008. Ecological Models and Data in R. Princeton and Oxford: Princeton University Press. 508 p.
BURNHAM, K.P. ANDERSON, D.R. HUYVAERT, K.P. 2011. AIC model selection and multimodel inference in behavioral ecology: some background, observations, and comparisons. Behavioral Ecology and Sociobiology, 65: 23–35. doi:10.1007/s00265-010-1029-6
FORSTER, M. 2000. Key concepts in model selection: Performance and generalizability. Journal of Mathematical Psychology, 44: 205–231. doi:10.1006/jmps.1999.1284
GOUGH, C.M. VOGEL, C.S. SCHMID, H.P. CURTIS, P.S., 2008. Controls on annual forest carbon storage: lessons from the past and predictions for the future. Bioscience, 58: 609–622. doi:10.1641/B580708
HASTIE, T. TIBSHIRANI, R. FRIEDMAN, J. 2009. The elements of statistical learning. Second edition. New York: Springer Series in Statistics Springer New York Inc. 739 p.
LEWIS, S.L. LOPEZ-GONZALEZ, G. SONKÉ, B. AFFUM-BAFFOE, K. BAKER, T.R. OJO, L.O. PHILLIPS, O.L. REITSMA, J.M. WHITE, L. COMISKEY, J. A. DJUIKOUO K, M.-N. EWANGO, C.E.N. FELDPAUSCH, T.R. HAMILTON, A.C. GLOOR, M. HART, T. HLADIK, A. LLOYD, J. LOVETT, J.C. MAKANA, J.-R. MALHI, Y. MBAGO F.M. NDANGALASI, H.J. PEACOCK, J. PEH, K.S.-H. SHEIL, D. SUNDERLAND, T. SWAINE, M.D. TAPLIN, J. TAYLOR, D. THOMAS, S.C. VOTERE, R. WÖLL, H. 2009. Increasing carbon storage in intact African tropical forests. Nature, 457: 1003–6. doi:10.1038/nature07771
STERN, N. 2007. The Economics of Climate Change: The Stern Review. Cambridge and New York: Cabridge University Press. 575p.
VAN DER WERF, G.R., MORTON, D.C., DEFRIES, R.S., OLIVIER, J.G.J., KASIBHATLA, P.S., JACKSON, R.B., COLLATZ, G.J., RANDERSON, J.T. 2009. CO2 emissions from forest loss. Nature Geoscience, 2: 737–738. doi:10.1038/ngeo671
Citação
Este ensaio é um produto de disciplina da pós-graduação da Universidade de São Paulo. Para citá-lo:
Duarte, M.M. 2014. Trade-off entre variância e viés e suas implicações na predição do estoque de carbono por florestas em processo de restauração. In: Prado , P.I. & Batista, J.L.F. Modelagem Estatística para Ecologia e Recursos Naturais. Universidade de São Paulo. url: http://cmq.esalq.usp.br/BIE5781.