08-inferencia:08-inferencia
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
| Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
| 08-inferencia:08-inferencia [2016/10/01 16:52] – [Leituras] paulo | 08-inferencia:08-inferencia [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
|---|---|---|---|
| Linha 1: | Linha 1: | ||
| + | ====== 8. Fundamentos Teóricos da Inferência por Verossimilhança ====== | ||
| + | |||
| + | |||
| + | \\ | ||
| + | |||
| + | ====== Conceitos ====== | ||
| + | * Lei da Verossimilhança | ||
| + | * Princípio da Verossimilhança | ||
| + | * Suporte para Inferência Estatística | ||
| + | |||
| + | |||
| + | ====== Tutorial ====== | ||
| + | |||
| + | |||
| + | |||
| + | ===== Lei da Verossimilhança ===== | ||
| + | |||
| + | Como já foi visto no [[03-funcao-veros: | ||
| + | Lei da Verossimilhança pode ser enunciada da seguinte forma: | ||
| + | |||
| + | Dada uma variável aleatória $X$, cujo comportamento pode ser explicado por duas hipóteses: $H_A$ e $H_B$. | ||
| + | |||
| + | * A hipótese $H_A$ afirma que a observação $X=x$ seria observada com probabilidade $p_A(x)$. | ||
| + | * A hipótese $H_B$ afirma que a observação $X=x$ seria observada com probabilidade $p_B(x)$. | ||
| + | |||
| + | A observação $X=x$ é uma evidência em favor de $H_A$ **vis-a-vis** (face-a-face) $H_B$ | ||
| + | se, e somente se, | ||
| + | |||
| + | $$p_A(x) > p_B(x)$$. | ||
| + | |||
| + | A **força de evidência** em favor de $H_A$ vis-a-vis $H_B$ é dada pela **razão de verossimilhança**: | ||
| + | |||
| + | $$ \frac{p_A(x)}{p_B(x)}$$. | ||
| + | |||
| + | |||
| + | ==== A Observação Empírica comanda a Lei da Verossimilhança ==== | ||
| + | |||
| + | |||
| + | === Hipóteses sobre Valores do Parâmetro de um Modelo === | ||
| + | |||
| + | Tomemos o exemplo de um laboratório que realizou o seguinte experimento: | ||
| + | * $H_A$ a probabilidade do produto causar a morte é $p = 0.5$ | ||
| + | * $H_B$ a probabilidade do produto causar a morte é $p = 0.3$ | ||
| + | |||
| + | Um ponto importante é que a observação do número de cobaias mortas é que irá definir qual hipótese é favorecida e | ||
| + | qual hipótese é desfavorecida. | ||
| + | |||
| + | Vejamos as probabilidades que a hipótese $H_A$ estabelece para cada uma das observações possíveis (1, 2, ..., 20): | ||
| + | <code rsplus> | ||
| + | pa = dbinom(0: | ||
| + | barplot(pa, width=1, space=0.1, col=" | ||
| + | axis(1, 1, label=0:20, at=0: | ||
| + | </ | ||
| + | |||
| + | No caso da hipótese $H_B$ temos: | ||
| + | <code rsplus> | ||
| + | pb = dbinom(0: | ||
| + | barplot(pb, width=1, space=0.1, col=" | ||
| + | axis(1, 1, label=0:20, at=0: | ||
| + | </ | ||
| + | |||
| + | A Razão de Verossimilhança para as observações possíveis pode ser facilmente obtida: | ||
| + | <code rsplus> | ||
| + | raz <- pa/pb | ||
| + | barplot(raz, | ||
| + | axis(1, 1, label=0:20, at=0: | ||
| + | </ | ||
| + | |||
| + | A escala da Razão de Verossimilhança pode facilmente nos confundir. | ||
| + | <code rsplus> | ||
| + | barplot(-log(raz), | ||
| + | axis(1, 1, label=0:20, at=0: | ||
| + | abline( h = c(log(8), -log(8)), col=" | ||
| + | </ | ||
| + | |||
| + | Como a transformação inclui a mudança de sinal, a interpretação é que os valores positivos favorecem a hipótese $H_B$, enquanto que os valores negativos favorecem a hipótese $H_A$. | ||
| + | |||
| + | **Resultado: | ||
| + | * O número de cobaias mortas no experimento definirá qual das duas hipóteses é mais plausível. | ||
| + | * Algumas observações favorecerão $H_A$ (11 ou mais mortes), outras $H_B$ (6 ou menos). | ||
| + | |||
| + | **CONCLUSÕES: | ||
| + | |||
| + | - Definido o modelo de trabalho, **os dados** são a única evidência para definir qual a hipótese é mais plausível. | ||
| + | - A evidência nem sempre é **conclusiva**. | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | === Hipóteses sobre Modelos Diferentes === | ||
| + | |||
| + | Os dados também indicam, através da verossimilhança, | ||
| + | |||
| + | Comparemos a distribuição Weibull e a distribuição Gama, como modelos para a distribuição do DAP em cada uma das parcelas. | ||
| + | |||
| + | Primeiramente ler os dados e carregar o pacote "'' | ||
| + | <code rsplus> | ||
| + | cax3p = read.csv(" | ||
| + | library(MASS) | ||
| + | </ | ||
| + | |||
| + | O segundo passo é ajustar os modelos (Weibull e Gama) para cada parcela. | ||
| + | <code rsplus> | ||
| + | # Ajuste da Dist. Weibull para as três parcelas | ||
| + | weib1 = fitdistr( cax3p$dap[ cax3p$parcela==1 ] - 47, " | ||
| + | weib2 = fitdistr( cax3p$dap[ cax3p$parcela==2 ] - 47, " | ||
| + | weib3 = fitdistr( cax3p$dap[ cax3p$parcela==3 ] - 47, " | ||
| + | |||
| + | # Ajuste da Dist. Gamma para as três parcelas | ||
| + | gamm1 = fitdistr( cax3p$dap[ cax3p$parcela==1 ] - 47, " | ||
| + | gamm2 = fitdistr( cax3p$dap[ cax3p$parcela==2 ] - 47, " | ||
| + | gamm3 = fitdistr( cax3p$dap[ cax3p$parcela==3 ] - 47, " | ||
| + | </ | ||
| + | |||
| + | |||
| + | Comparação dos modelos nas parcelas uma a uma: | ||
| + | <code rsplus> | ||
| + | # Comparação Parcela 1 | ||
| + | hist( cax3p$dap[ cax3p$parcela==1 ], prob = TRUE ) | ||
| + | curve( dweibull(x, shape=weib1$estimate[" | ||
| + | curve( dgamma(x, shape=gamm1$estimate[" | ||
| + | AIC(weib1) - AIC(gamm1) | ||
| + | |||
| + | # Comparação Parcela 2 | ||
| + | hist( cax3p$dap[ cax3p$parcela==2 ], prob = TRUE ) | ||
| + | curve( dweibull(x, shape=weib2$estimate[" | ||
| + | curve( dgamma(x, shape=gamm2$estimate[" | ||
| + | AIC(weib2) - AIC(gamm2) | ||
| + | |||
| + | # Comparação Parcela 3 | ||
| + | hist( cax3p$dap[ cax3p$parcela==3 ], prob = TRUE ) | ||
| + | curve( dweibull(x, shape=weib3$estimate[" | ||
| + | curve( dgamma(x, shape=gamm3$estimate[" | ||
| + | AIC(weib3) - AIC(gamm3) | ||
| + | |||
| + | </ | ||
| + | |||
| + | |||
| + | **Questões: | ||
| + | * Qual o modelo mais plausível em cada parcela? | ||
| + | * O modelo mais plausível é sempre o mesmo em todas as parcelas? | ||
| + | * É possível discriminar o modelo mais plausível em todas as parcelas? | ||
| + | * A diferença de plausibilidade entre os modelos segundo o AIC é compatível com as diferenças observadas nos gráficos? | ||
| + | |||
| + | |||
| + | ===== Princípio da Verossimilhança ===== | ||
| + | |||
| + | O [[http:// | ||
| + | |||
| + | |||
| + | ==== Dois Métodos com a Mesma Evidência ==== | ||
| + | |||
| + | Voltemos ao exemplo da aplicação de um produto em cobaias para verificar a taxa de mortalidade. | ||
| + | * __Laboratório 1:__ Aplicou o produto em 20 cobaias das quais 6 morreram. | ||
| + | * __Laboratório 2:__ Foi aplicando o produto em várias cobaias, com a determinação que quando a sexta morte ocorresse o experimento terminaria. | ||
| + | |||
| + | A questão principal agora é saber qual o valor mais plausível para o parâmetro $p$, que indica a probabilidade de morte das cobaias. | ||
| + | |||
| + | Vejamos as curvas de verossimilhança para nos dois laboratórios: | ||
| + | |||
| + | <code rsplus> | ||
| + | p = seq(0.01, 0.99, by=0.01) | ||
| + | lik.binom = dbinom(6, 20, p) # Lab 1: dist. Binomial | ||
| + | lik.nbinom = dnbinom(14, 6, p) # Lab 2: dist. Binomial Negativa | ||
| + | plot(p, lik.binom, type=" | ||
| + | lines(p, lik.nbinom, col=" | ||
| + | </ | ||
| + | |||
| + | Aparentemente as curvas não são as mesmas. | ||
| + | <code rsplus> | ||
| + | lik.binom = lik.binom / max(lik.binom) | ||
| + | lik.nbinom = lik.nbinom / max(lik.nbinom) | ||
| + | plot(p, lik.binom, type=" | ||
| + | lines(p, lik.nbinom, col=" | ||
| + | </ | ||
| + | |||
| + | |||
| + | **CONCLUSÕES: | ||
| + | - As curvas de verossimilhança (relativa/ | ||
| + | - Portanto, **o espaço amostral é irrelevante**, | ||
| + | - Curvas de **Verossimilhança Relativa** (ou // | ||
| + | - Consequentemente, | ||
| + | |||
| + | |||
| + | ==== Força de Evidência e Tamanho de Amostra ==== | ||
| + | |||
| + | Consideremos o mesmo exemplo das cobaias, mas comparemos o primeiro laboratório com outros dois laboratórios que possuem mais recursos para o experimento: | ||
| + | * __Laboratório 1:__ Aplicou o produto em 20 cobaias das quais 6 morreram. | ||
| + | * __Laboratório 2:__ Aplicou o produto em 200 cobaias das quais 60 morreram. | ||
| + | * __Laboratório 3:__ Aplicou o produto em 2000 cobaias das quais 600 morreram. | ||
| + | |||
| + | Vejamos as curvas de verossimilhança desses 3 laboratórios: | ||
| + | <code rsplus> | ||
| + | p = seq(0.01, 0.99, by=0.01) | ||
| + | lik.binom1 = dbinom(6, 20, p) # Lab 1: dist. Binomial | ||
| + | lik.binom2 = dbinom(60, 200, p) # Lab 2: dist. Binomial | ||
| + | lik.binom3 = dbinom(600, 2000, p) # Lab 3: dist. Binomial | ||
| + | plot(p, lik.binom1, type=" | ||
| + | lines(p, lik.binom2, col=" | ||
| + | lines(p, lik.binom3, col=" | ||
| + | </ | ||
| + | |||
| + | Vejamos as curvas de verossimilhança **RELATIVA** desses 3 laboratórios: | ||
| + | <code rsplus> | ||
| + | lik.binom1 = lik.binom1/ max(lik.binom1) | ||
| + | lik.binom2 = lik.binom2/ max(lik.binom2) | ||
| + | lik.binom3 = lik.binom3/ max(lik.binom3) | ||
| + | plot(p, lik.binom1, type=" | ||
| + | lines(p, lik.binom2, col=" | ||
| + | lines(p, lik.binom3, col=" | ||
| + | </ | ||
| + | |||
| + | Façamos um //" | ||
| + | <code rsplus> | ||
| + | nlik.binom1 = -log(lik.binom1) | ||
| + | nlik.binom2 = -log(lik.binom2) | ||
| + | nlik.binom3 = -log(lik.binom3) | ||
| + | plot(p, nlik.binom1, | ||
| + | lines(p, nlik.binom2, | ||
| + | lines(p, nlik.binom3, | ||
| + | </ | ||
| + | |||
| + | **Questões: | ||
| + | * A **curva de verossimilhança** é sensível ao tamanho da amostra? Como? | ||
| + | * A **curva de verossimilhança RELATIVA** é sensível ao tamanho da amostra? Como? | ||
| + | * A **força de evidência** em favor do MLE aumenta com o tamanho da amostra? Por que? | ||
| + | * Qual o impacto do tamanho da amostra sobre o **intervalo de verossimilhança**? | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | ===== Suporte para Inferência Estatística ===== | ||
| + | |||
| + | A consequência **imediata** da combinação da Lei e do Princípio da Verossimilhança é que a função de verossimilhança, | ||
| + | * Por **suporte** entende-se a base **teórica** e **empírica** para se construir e implementar a inferência estatística. | ||
| + | * Como suporte **necessário** entende-se que qualquer inferência não baseada nesse suporte não é apropriada. | ||
| + | * como suporte **suficiente** entende-se que nada mais é necessário à inferência estatística além desse suporte. | ||
| + | |||
| + | |||
| + | ==== Suporte para Inferência sobre Parâmetros ==== | ||
| + | |||
| + | Partindo de um modelo assumido como apropriado, qualquer inferência sobre os parâmetros do modelo, ou //funções desses parâmetros// | ||
| + | |||
| + | Voltemos ao exemplo da distribuição de DAP no caxetal (parcela 2): | ||
| + | <code rsplus> | ||
| + | hist( cax3p$dap[ cax3p$parcela==2 ], prob = TRUE ) | ||
| + | curve(dweibull(x, | ||
| + | </ | ||
| + | |||
| + | |||
| + | == Inferência sobre os Parâmetros == | ||
| + | |||
| + | |||
| + | Vejamos a superfície de log-verossimilhança negativa relativa para inferência sobre os parâmetros: | ||
| + | |||
| + | * Criando a função vetorizada: | ||
| + | <code rsplus> | ||
| + | lweibull = function(forma, | ||
| + | vlweibull = Vectorize( lweibull, c(" | ||
| + | </ | ||
| + | |||
| + | * Definido a amplitude de variação dos parâmetros: | ||
| + | <code rsplus> | ||
| + | forma = seq(0.5, 2.5, by=0.05) | ||
| + | escala = seq( 50, 100, by=0.5 ) | ||
| + | </ | ||
| + | |||
| + | * Calculando a superfície de log-veros. neg. relativa: | ||
| + | <code rsplus> | ||
| + | sup.weibull = outer( forma, escala, vlweibull ) | ||
| + | sup.weibull = sup.weibull - min(sup.weibull) | ||
| + | </ | ||
| + | |||
| + | * Construindo o gráfico de contorno da superfície: | ||
| + | <code rsplus> | ||
| + | contour(forma, | ||
| + | </ | ||
| + | |||
| + | * Marcando a posição das MLE com linhas tracejadas: | ||
| + | <code rsplus> | ||
| + | abline(v=weib2$estimate[1], | ||
| + | abline(h=weib2$estimate[2], | ||
| + | </ | ||
| + | |||
| + | * Marcando a região referente à razão de verossimilhança de 8: | ||
| + | <code rsplus> | ||
| + | contour(forma, | ||
| + | </ | ||
| + | |||
| + | |||
| + | == Inferência sobre a Média == | ||
| + | |||
| + | Na distribuição Weibull a média (valor esperado) é definido em função dos parâmetros da seguinte forma: | ||
| + | $$ \mu = \beta \ \Gamma\left( | ||
| + | onde: | ||
| + | * $\beta$ é o parâmetro de escala; | ||
| + | * $\gamma$ é o parâmetro da forma; e | ||
| + | * $\Gamma(\cdot)$ é a função gama. | ||
| + | |||
| + | Assim podemos construir uma superfície para inferência sobre a Média: | ||
| + | |||
| + | * Cálculo da superfície dos valores da média: | ||
| + | <code rsplus> | ||
| + | mean.weibull = function(c, b) (b*gamma( (c+1)/c )+47)/10 | ||
| + | sup.mean = outer(forma, | ||
| + | </ | ||
| + | |||
| + | * Gráfico da superfície da média, com a posição das MLE dos parâmetros: | ||
| + | <code rsplus> | ||
| + | contour(forma, | ||
| + | abline(v=weib2$estimate[1], | ||
| + | abline(h=weib2$estimate[2], | ||
| + | </ | ||
| + | |||
| + | * Região de razão de verossimilhança (8) e linha da média amostral: | ||
| + | <code rsplus> | ||
| + | contour(forma, | ||
| + | media.estimada = (weib2$estimate[2] * gamma(1 + (1/ | ||
| + | contour(forma, | ||
| + | contour(forma, | ||
| + | </ | ||
| + | |||
| + | |||
| + | == Inferência sobre Quantis da Distribuição == | ||
| + | |||
| + | Na distribuição Weibull os quantis podem ser determinados a partir da função inversa da função de distribuição: | ||
| + | $$d_p = \beta\ \left( \log \frac{ 1}{1-p} | ||
| + | onde: | ||
| + | * $p$ é a probabilidade que se deseja o quantil, por exemplo 0.95 (95%); | ||
| + | * $\beta$ e $\gamma$ parâmetros de escala e forma, respectivamente. | ||
| + | |||
| + | Para construir a superfície para inferência sobre o quantil 95% basta seguir os mesmos passos da construção da superfície sobre a média: | ||
| + | <code rsplus> | ||
| + | dap95.weibull = function(c, b) (b*( log(1/ | ||
| + | sup.dap95 = outer(forma, | ||
| + | contour(forma, | ||
| + | abline(v=weib2$estimate[1], | ||
| + | abline(h=weib2$estimate[2], | ||
| + | contour(forma, | ||
| + | dap95.est = dap95.weibull( weib2$estimate[1], | ||
| + | contour(forma, | ||
| + | dap95.amostral = quantile(cax3p$dap[ cax3p$parcela==2 ]/10, 0.95, type=6) | ||
| + | contour(forma, | ||
| + | </ | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | == Questões == | ||
| + | |||
| + | * O que representa a superfície de log-verossimilhança negativa relativa dos parâmetros? | ||
| + | * O que se pode inferir (estatisticamente) a partir dela? | ||
| + | * O que representa a superfície de valores da média a partir dos parâmetros? | ||
| + | * O que se pode inferir (estatisticamente) dessa superfície? | ||
| + | * O que representa a superfície de valores do quantil 95% a partir dos parâmetros? | ||
| + | * O que se pode inferir (estatisticamente) dessa superfície? | ||
| + | |||
| + | ==== Suporte | ||
| + | |||
| + | A inferência sobre modelos consiste na comparação dos modelos dois-a-dois através da razão de verossimilhança. | ||
| + | |||
| + | É comum se utilizar o "// | ||
| + | |||
| + | Elementos que tornam essa abordagem mais simples para inferência sobre modelos quando comparada à abordagem "// | ||
| + | * Não há restrições a respeito do número de modelos ou como eles são formulados (com ou sem inspeção dos dados). | ||
| + | * A log-verossimilhança é // | ||
| + | * Para comparação entre modelos é irrelevante quais (ou quantas) variáveis foram utilizadas como variáveis preditoras/ | ||
| + | |||
| + | |||
| + | === Comparando Modelos nos Dados Sub-divididos ou Agregados === | ||
| + | |||
| + | Voltemos ao exemplo das 3 parcelas em caxetais. | ||
| + | <code rsplus> | ||
| + | library(bbmle) | ||
| + | AICtab(weib1, | ||
| + | AICtab(weib2, | ||
| + | AICtab(weib3, | ||
| + | </ | ||
| + | |||
| + | Podemos pensar no conjunto dos três ajustes como um só modelo para as três parcelas, com seis parâmetros. Como a log-verossimilhança é aditiva, o AIC para este modelo combinado é a soma do AICs dos modelos componentes: | ||
| + | <code rsplus> | ||
| + | AIC(weib1) + AIC(weib2) + AIC(weib3) | ||
| + | AIC(gamm1) + AIC(gamm2) + AIC(gamm3) | ||
| + | </ | ||
| + | |||
| + | Um modelo mais parcimonioso para as três parcelas seria ajustar um só modelo para os **dados agregados**. | ||
| + | <code rsplus> | ||
| + | weib.agr = fitdistr( cax3p$dap - 47, " | ||
| + | gamm.agr = fitdistr( cax3p$dap - 47, " | ||
| + | AICtab(weib.agr, | ||
| + | AIC(weib1) + AIC(weib2) + AIC(weib3) | ||
| + | AIC(gamm1) + AIC(gamm2) + AIC(gamm3) | ||
| + | </ | ||
| + | |||
| + | |||
| + | **Questões: | ||
| + | * Quais as diferenças na comparação dos modelos nos níveis: | ||
| + | - parcela-a-parcela, | ||
| + | - combinado, | ||
| + | - agregado? | ||
| + | * A fundamentação teórica muda ao se realizar comparações nos diferentes níveis? | ||
| + | * Com os resultados obtidos é possível testar se a melhor abordagem de modelagem é ter um modelo para cada parcela ou ter um modelo para os dados agregados? | ||
| + | |||
| + | ===== Inferência por Verossimilhança e Inferência Frequentista ===== | ||
| + | |||
| + | |||
| + | ==== Inferência de Intervalo ==== | ||
| + | |||
| + | Na abordagem // | ||
| + | |||
| + | O intervalo de confiança apela para o conceito de probabilidade **a longo prazo** que implica na repetição | ||
| + | ilimitada do procedimento utilizado para gerar os dados, como se os dados fossem uma amostra de uma população **infinita** de observações possíveis. | ||
| + | - definir o **parâmetro de interesse**, | ||
| + | - encontrar uma **estatística** que pode ser um estimador do parâmetro ou uma transformação do estimador; | ||
| + | - definir a **distribuição amostral** dessa estatística, | ||
| + | - construir um intervalo para a estatística com base nessa distribuição amostral; | ||
| + | - converter esse intervalo de volta à escala do parâmetro de interesse. | ||
| + | |||
| + | === Exemplo de Árvores Doentes em Floresta Plantada === | ||
| + | |||
| + | Considere que numa plantação de // | ||
| + | |||
| + | Pela distribuição binomial a MLE da taxa de ocorrência é: | ||
| + | |||
| + | $$ \hat{p} = \frac{37}{100} = 0.37$$. | ||
| + | |||
| + | e o erro padrão dessa estimativa é: | ||
| + | |||
| + | $$ \hat{\sigma} = [ \frac{p (1 - p)}{n} ]^{1/2} = [ \frac{ 0.37 (1 - 0.37) }{100} ]^{1/2} = 0.04828043$$. | ||
| + | |||
| + | |||
| + | Utilizando a // | ||
| + | |||
| + | $$ \hat{z} = \frac{ \hat{p} | ||
| + | |||
| + | tem distribuição amostral igual à distribuição Normal padronizada (média zero e desvio padrão um). | ||
| + | |||
| + | Assim, um intervalo com probabilidade 95% para essa estatística é: | ||
| + | |||
| + | $$ P( z_{0.025} \leq \hat{z} \leq z_{0.975} ) = 0.95 $$ | ||
| + | |||
| + | $$ P( -1.96 \leq \hat{z} \leq 1.96 ) = 0.95$$ | ||
| + | |||
| + | $$ P( -1.96 \leq \frac{ \hat{p} - p }{\hat{\sigma}} \leq 1.96 ) = 0.95 $$ | ||
| + | |||
| + | $$ P( \hat{p} -1.96 \hat{\sigma} \leq p \leq \hat{p} + 1.96 \hat{\sigma} ) = 0.95 $$ | ||
| + | |||
| + | Assim o intervalo de confiança de 95% para estimativa da taxa de ocorrência de doença $\hat{p}$ é: | ||
| + | |||
| + | $$ \hat{p} \pm 1.96 \sigma | ||
| + | |||
| + | |||
| + | ** Intervalo de Verossimilhança ** | ||
| + | |||
| + | O intervalo de verossimilhança (para razão 8, por exemplo) é obtido inspecionando a vizinhança da MLE $\hat{p}$ na curva de verossimilhança: | ||
| + | <code rsplus> | ||
| + | p = seq(0.20, 0.50, length=100) | ||
| + | lik = dbinom(37, 100, p) | ||
| + | lik = lik / max(lik) | ||
| + | plot(p, lik, type=" | ||
| + | abline(h=1/ | ||
| + | abline(v=37/ | ||
| + | </ | ||
| + | |||
| + | |||
| + | === Segundo Exemplo de Árvores Doentes === | ||
| + | |||
| + | Suponha agora que a amostra aleatória de árvores de 100 árvores foi obtida, mas nenhuma das árvores se mostrou doente. | ||
| + | |||
| + | Estimativa da taxa: $\hat{p} = 0 / 100 = 0$ | ||
| + | |||
| + | Erro padrão da estimativa: $\hat{\sigma} = [ (0 (1 - 0))/ 100 ]^{1/2} = 0$ | ||
| + | |||
| + | Como utilizar a aproximação normal nesse caso? Não é possível obter um intervalo de confiança de 95% por essa abordagem. | ||
| + | |||
| + | |||
| + | O que muda no intervalo de verossimilhança? | ||
| + | <code rsplus> | ||
| + | p = seq(0.0, 0.05, length=100) | ||
| + | lik = dbinom(0, 100, p) | ||
| + | lik = lik / max(lik) | ||
| + | plot(p, lik, type=" | ||
| + | abline(h=1/ | ||
| + | abline(v=0, lty=9, col=" | ||
| + | </ | ||
| + | |||
| + | |||
| + | ==== Teste de Hipótese ==== | ||
| + | |||
| + | A forma de teste de hipótese de uso mais geral na estatística frequentista é o o **teste de significância**. | ||
| + | |||
| + | Essa abordagem consiste em enunciar duas hipóteses: | ||
| + | * Hipótese nula: que estabelece um valor específico para o parâmetro sendo testado. | ||
| + | * Hipótese alternativa: | ||
| + | |||
| + | O teste de significância segue os seguintes passos: | ||
| + | * Define-se uma estatística e se deduz a distribuição amostral dessa estatística **sob a hipótese nula**, isto é, assumindo a hipótese nula como verdadeira. | ||
| + | * Com esta distribuição calcula-se, então, o **valor-p** que é a probabilidade de se observar o valor observado da estatística **ou um valor mais extremo** sob a hipótese nula. | ||
| + | * Compara-se o valor-p com o **nível de significância** previamente definido. | ||
| + | * Se o valor-p for menor que o nível de significância, | ||
| + | |||
| + | |||
| + | |||
| + | === Exemplo dos Dois Laboratórios === | ||
| + | |||
| + | Voltemos ao exemplo da aplicação de um produto em cobaias para verificar a taxa de mortalidade com os dois laboratórios: | ||
| + | * __Laboratório 1:__ Aplicou o produto em 20 cobaias das quais 6 morreram. | ||
| + | * __Latoratório 2:__ Foi aplicando o produto em várias cobaias, com a determinação que quando a sexta morte ocorresse o experimento terminaria. | ||
| + | |||
| + | A questão agora é testar as seguintes hipóteses: | ||
| + | * Hipótese Nula: $p = 0.5$. | ||
| + | * Hipótese Alternativa: | ||
| + | |||
| + | Laboratório A: o modelo deste experimento é uma distribuição binomial. A probabilidade de obter seis **ou menos** mortes em 20 tentativas sob a hipótese de que $p=0.5$ é dada pela probabilidade acumulada da binomial: | ||
| + | <code rsplus> | ||
| + | pbinom(q=6, size=20, prob=0.5) | ||
| + | </ | ||
| + | |||
| + | Laboratório B: o modelo do experimento é uma distribuição binomial negativa. A probabilidade de obter seis mortes em 20 **ou mais** tentativas é: | ||
| + | <code rsplus> | ||
| + | 1 - pnbinom(q=14, | ||
| + | </ | ||
| + | |||
| + | **Conclusão: | ||
| + | |||
| + | Mesmo nível de significância e mesmos dados, mas conclusões diferentes. | ||
| + | |||
| + | Na inferência por verossimilhança, | ||
| + | <code rsplus> | ||
| + | p = seq(0.01, 0.99, by=0.01) | ||
| + | lik.binom = dbinom(6, 20, p) # Lab 1: dist. Binomial | ||
| + | lik.binom = lik.binom / max(lik.binom) | ||
| + | lik.nbinom = dnbinom(14, 6, p) # Lab 2: dist. Binomial Negativa | ||
| + | lik.nbinom = lik.nbinom / max(lik.nbinom) | ||
| + | plot(p, lik.binom, type=" | ||
| + | lines(p, lik.nbinom, col=" | ||
| + | </ | ||
| + | |||
| + | Entretanto, não seria apropriado estabelecer as hipóteses na forma | ||
| + | * hipotese A: $p = 0.5$ contra | ||
| + | * hipótese B: $p \leq 0.5$. | ||
| + | |||
| + | Pois a hipótese A indica um ponto na curva enquanto que a hipótese B indica uma região. | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | \\ | ||
| + | ------------------ | ||
| + | \\ | ||
| + | |||
| + | ====== Questões motivadoras para a dicussão ====== | ||
| + | |||
| + | - Na inferência por verossimilhança o espaço amostral é irrelevante, | ||
| + | - Na análise de dados usando a Lei da Verossimilhança não se compara uma determinada hipótese a uma hipótese nula, e sim comparam-se hipóteses entre si (podendo haver mais de duas). Podemos dizer esse tipo de análise depende mais fortemente da habilidade do pesquisador para formular hipóteses e criar modelos que explicarão melhor seus dados (já que as hipóteses não estão prontas, elas devem ser formuladas)? | ||
| + | - O Princípio da Verossimilhança afirma que a função de verossimilhança contém toda informação que um conjunto de dados tem sobre um dado modelo. | ||
| + | |||
| + | |||
| + | ====== Recursos para Estudo ====== | ||
| + | |||
| + | ===== Leituras ===== | ||
| + | === Principais === | ||
| + | * Royall, R. M. (2007) The likelihood paradigm for statistical evidence. **In: | ||
| + | * Lewin-Koh N., Taper, M. L. & Lele, S. R. (2004). A brief tour of statistical concepts. **In: | ||
| + | === Complementares === | ||
| + | * Sober, E. 2008. Evidence and Evolution: the logic behind the science. Cambridge, Cambridge University Press. Cap.1. | ||
| + | * [[http:// | ||
| + | * Berger, J.O. & Wolpert, R.L. 1984. [[http:// | ||
| + | |||
| + | |||
| + | == Sobre p-valor e testes de significância== | ||
| + | * Cohen, J. 1994. The Earth Is Round (p<. 05). Amer. Psychologist, | ||
| + | * Ioannidis, John P.A. Why most published research findings are false. [[http:// | ||
| + | * Forum sobre testes de significância x seleção de modelos: [[http:// | ||
| + | * [[http:// | ||
| + | * Gelman & Loken 2013. [[http:// | ||
| + | * Nuzzo, R. (2014). Statistical errors. [[http:// | ||
| + | * Wasserstein, | ||
| + | |||
| + | ===== Na Internet ===== | ||
| + | |||
| + | * [[http:// | ||
| + | * Berger, J.O. & Wolpert, R.L. 1984. [[http:// | ||
| + | * Página do filósofo [[http:// | ||
| + | * Página do filósofo [[http:// | ||
| + | * [[https:// | ||
| + | * [[https:// | ||
| + | |||
| + | |||
| + | |||
| + | |||
| + | |||