08-inferencia:08-inferencia
Diferenças
Aqui você vê as diferenças entre duas revisões dessa página.
Ambos lados da revisão anteriorRevisão anteriorPróxima revisão | Revisão anterior | ||
08-inferencia:08-inferencia [2021/05/12 13:55] – [Leituras] paulo | 08-inferencia:08-inferencia [2022/11/24 14:12] (atual) – edição externa 127.0.0.1 | ||
---|---|---|---|
Linha 1: | Linha 1: | ||
+ | ====== 8. Fundamentos Teóricos da Inferência por Verossimilhança ====== | ||
+ | |||
+ | |||
+ | \\ | ||
+ | |||
+ | ====== Conceitos ====== | ||
+ | * Lei da Verossimilhança | ||
+ | * Princípio da Verossimilhança | ||
+ | * Suporte para Inferência Estatística | ||
+ | |||
+ | |||
+ | ====== Tutorial ====== | ||
+ | |||
+ | |||
+ | |||
+ | ===== Lei da Verossimilhança ===== | ||
+ | |||
+ | Como já foi visto no [[03-funcao-veros: | ||
+ | Lei da Verossimilhança pode ser enunciada da seguinte forma: | ||
+ | |||
+ | Dada uma variável aleatória X, cujo comportamento pode ser explicado por duas hipóteses: HA e HB. | ||
+ | |||
+ | * A hipótese HA afirma que a observação X=x seria observada com probabilidade pA(x). | ||
+ | * A hipótese HB afirma que a observação X=x seria observada com probabilidade pB(x). | ||
+ | |||
+ | A observação X=x é uma evidência em favor de HA **vis-a-vis** (face-a-face) HB | ||
+ | se, e somente se, | ||
+ | |||
+ | pA(x)>pB(x). | ||
+ | |||
+ | A **força de evidência** em favor de HA vis-a-vis HB é dada pela **razão de verossimilhança**: | ||
+ | |||
+ | pA(x)pB(x). | ||
+ | |||
+ | |||
+ | ==== A Observação Empírica comanda a Lei da Verossimilhança ==== | ||
+ | |||
+ | |||
+ | === Hipóteses sobre Valores do Parâmetro de um Modelo === | ||
+ | |||
+ | Tomemos o exemplo de um laboratório que realizou o seguinte experimento: | ||
+ | * HA a probabilidade do produto causar a morte é p=0.5 | ||
+ | * HB a probabilidade do produto causar a morte é p=0.3 | ||
+ | |||
+ | Um ponto importante é que a observação do número de cobaias mortas é que irá definir qual hipótese é favorecida e | ||
+ | qual hipótese é desfavorecida. | ||
+ | |||
+ | Vejamos as probabilidades que a hipótese HA estabelece para cada uma das observações possíveis (1, 2, ..., 20): | ||
+ | <code rsplus> | ||
+ | pa = dbinom(0: | ||
+ | barplot(pa, width=1, space=0.1, col=" | ||
+ | axis(1, 1, label=0:20, at=0: | ||
+ | </ | ||
+ | |||
+ | No caso da hipótese HB temos: | ||
+ | <code rsplus> | ||
+ | pb = dbinom(0: | ||
+ | barplot(pb, width=1, space=0.1, col=" | ||
+ | axis(1, 1, label=0:20, at=0: | ||
+ | </ | ||
+ | |||
+ | A Razão de Verossimilhança para as observações possíveis pode ser facilmente obtida: | ||
+ | <code rsplus> | ||
+ | raz <- pa/pb | ||
+ | barplot(raz, | ||
+ | axis(1, 1, label=0:20, at=0: | ||
+ | </ | ||
+ | |||
+ | A escala da Razão de Verossimilhança pode facilmente nos confundir. | ||
+ | <code rsplus> | ||
+ | barplot(-log(raz), | ||
+ | axis(1, 1, label=0:20, at=0: | ||
+ | abline( h = c(log(8), -log(8)), col=" | ||
+ | </ | ||
+ | |||
+ | Como a transformação inclui a mudança de sinal, a interpretação é que os valores positivos favorecem a hipótese HB, enquanto que os valores negativos favorecem a hipótese HA. | ||
+ | |||
+ | **Resultado: | ||
+ | * O número de cobaias mortas no experimento definirá qual das duas hipóteses é mais plausível. | ||
+ | * Algumas observações favorecerão HA (11 ou mais mortes), outras HB (6 ou menos). | ||
+ | |||
+ | **CONCLUSÕES: | ||
+ | |||
+ | - Definido o modelo de trabalho, **os dados** são a única evidência para definir qual a hipótese é mais plausível. | ||
+ | - A evidência nem sempre é **conclusiva**. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | === Hipóteses sobre Modelos Diferentes === | ||
+ | |||
+ | Os dados também indicam, através da verossimilhança, | ||
+ | |||
+ | Comparemos a distribuição Weibull e a distribuição Gama, como modelos para a distribuição do DAP em cada uma das parcelas. | ||
+ | |||
+ | Primeiramente ler os dados e carregar o pacote "'' | ||
+ | <code rsplus> | ||
+ | cax3p = read.csv(" | ||
+ | library(MASS) | ||
+ | </ | ||
+ | |||
+ | O segundo passo é ajustar os modelos (Weibull e Gama) para cada parcela. | ||
+ | <code rsplus> | ||
+ | # Ajuste da Dist. Weibull para as três parcelas | ||
+ | weib1 = fitdistr( cax3pdap[cax3pparcela==1 ] - 47, " | ||
+ | weib2 = fitdistr( cax3pdap[cax3pparcela==2 ] - 47, " | ||
+ | weib3 = fitdistr( cax3pdap[cax3pparcela==3 ] - 47, " | ||
+ | |||
+ | # Ajuste da Dist. Gamma para as três parcelas | ||
+ | gamm1 = fitdistr( cax3pdap[cax3pparcela==1 ] - 47, " | ||
+ | gamm2 = fitdistr( cax3pdap[cax3pparcela==2 ] - 47, " | ||
+ | gamm3 = fitdistr( cax3pdap[cax3pparcela==3 ] - 47, " | ||
+ | </ | ||
+ | |||
+ | |||
+ | Comparação dos modelos nas parcelas uma a uma: | ||
+ | <code rsplus> | ||
+ | # Comparação Parcela 1 | ||
+ | hist( cax3pdap[cax3pparcela==1 ], prob = TRUE ) | ||
+ | curve( dweibull(x, shape=weib1estimate["shape"],scale=weib1estimate[" | ||
+ | curve( dgamma(x, shape=gamm1estimate["shape"],scale=gamm1estimate[" | ||
+ | AIC(weib1) - AIC(gamm1) | ||
+ | |||
+ | # Comparação Parcela 2 | ||
+ | hist( cax3pdap[cax3pparcela==2 ], prob = TRUE ) | ||
+ | curve( dweibull(x, shape=weib2estimate["shape"],scale=weib2estimate[" | ||
+ | curve( dgamma(x, shape=gamm2estimate["shape"],scale=gamm2estimate[" | ||
+ | AIC(weib2) - AIC(gamm2) | ||
+ | |||
+ | # Comparação Parcela 3 | ||
+ | hist( cax3pdap[cax3pparcela==3 ], prob = TRUE ) | ||
+ | curve( dweibull(x, shape=weib3estimate["shape"],scale=weib3estimate[" | ||
+ | curve( dgamma(x, shape=gamm3estimate["shape"],scale=gamm3estimate[" | ||
+ | AIC(weib3) - AIC(gamm3) | ||
+ | |||
+ | </ | ||
+ | |||
+ | |||
+ | **Questões: | ||
+ | * Qual o modelo mais plausível em cada parcela? | ||
+ | * O modelo mais plausível é sempre o mesmo em todas as parcelas? | ||
+ | * É possível discriminar o modelo mais plausível em todas as parcelas? | ||
+ | * A diferença de plausibilidade entre os modelos segundo o AIC é compatível com as diferenças observadas nos gráficos? | ||
+ | |||
+ | |||
+ | ===== Princípio da Verossimilhança ===== | ||
+ | |||
+ | O [[http:// | ||
+ | |||
+ | |||
+ | ==== Dois Métodos com a Mesma Evidência ==== | ||
+ | |||
+ | Voltemos ao exemplo da aplicação de um produto em cobaias para verificar a taxa de mortalidade. | ||
+ | * __Laboratório 1:__ Aplicou o produto em 20 cobaias das quais 6 morreram. | ||
+ | * __Laboratório 2:__ Foi aplicando o produto em várias cobaias, com a determinação que quando a sexta morte ocorresse o experimento terminaria. | ||
+ | |||
+ | A questão principal agora é saber qual o valor mais plausível para o parâmetro p, que indica a probabilidade de morte das cobaias. | ||
+ | |||
+ | Vejamos as curvas de verossimilhança para nos dois laboratórios: | ||
+ | |||
+ | <code rsplus> | ||
+ | p = seq(0.01, 0.99, by=0.01) | ||
+ | lik.binom = dbinom(6, 20, p) # Lab 1: dist. Binomial | ||
+ | lik.nbinom = dnbinom(14, 6, p) # Lab 2: dist. Binomial Negativa | ||
+ | plot(p, lik.binom, type=" | ||
+ | lines(p, lik.nbinom, col=" | ||
+ | </ | ||
+ | |||
+ | Aparentemente as curvas não são as mesmas. | ||
+ | <code rsplus> | ||
+ | lik.binom = lik.binom / max(lik.binom) | ||
+ | lik.nbinom = lik.nbinom / max(lik.nbinom) | ||
+ | plot(p, lik.binom, type=" | ||
+ | lines(p, lik.nbinom, col=" | ||
+ | </ | ||
+ | |||
+ | |||
+ | **CONCLUSÕES: | ||
+ | - As curvas de verossimilhança (relativa/ | ||
+ | - Portanto, **o espaço amostral é irrelevante**, | ||
+ | - Curvas de **Verossimilhança Relativa** (ou // | ||
+ | - Consequentemente, | ||
+ | |||
+ | |||
+ | ==== Força de Evidência e Tamanho de Amostra ==== | ||
+ | |||
+ | Consideremos o mesmo exemplo das cobaias, mas comparemos o primeiro laboratório com outros dois laboratórios que possuem mais recursos para o experimento: | ||
+ | * __Laboratório 1:__ Aplicou o produto em 20 cobaias das quais 6 morreram. | ||
+ | * __Laboratório 2:__ Aplicou o produto em 200 cobaias das quais 60 morreram. | ||
+ | * __Laboratório 3:__ Aplicou o produto em 2000 cobaias das quais 600 morreram. | ||
+ | |||
+ | Vejamos as curvas de verossimilhança desses 3 laboratórios: | ||
+ | <code rsplus> | ||
+ | p = seq(0.01, 0.99, by=0.01) | ||
+ | lik.binom1 = dbinom(6, 20, p) # Lab 1: dist. Binomial | ||
+ | lik.binom2 = dbinom(60, 200, p) # Lab 2: dist. Binomial | ||
+ | lik.binom3 = dbinom(600, 2000, p) # Lab 3: dist. Binomial | ||
+ | plot(p, lik.binom1, type=" | ||
+ | lines(p, lik.binom2, col=" | ||
+ | lines(p, lik.binom3, col=" | ||
+ | </ | ||
+ | |||
+ | Vejamos as curvas de verossimilhança **RELATIVA** desses 3 laboratórios: | ||
+ | <code rsplus> | ||
+ | lik.binom1 = lik.binom1/ max(lik.binom1) | ||
+ | lik.binom2 = lik.binom2/ max(lik.binom2) | ||
+ | lik.binom3 = lik.binom3/ max(lik.binom3) | ||
+ | plot(p, lik.binom1, type=" | ||
+ | lines(p, lik.binom2, col=" | ||
+ | lines(p, lik.binom3, col=" | ||
+ | </ | ||
+ | |||
+ | Façamos um //" | ||
+ | <code rsplus> | ||
+ | nlik.binom1 = -log(lik.binom1) | ||
+ | nlik.binom2 = -log(lik.binom2) | ||
+ | nlik.binom3 = -log(lik.binom3) | ||
+ | plot(p, nlik.binom1, | ||
+ | lines(p, nlik.binom2, | ||
+ | lines(p, nlik.binom3, | ||
+ | </ | ||
+ | |||
+ | **Questões: | ||
+ | * A **curva de verossimilhança** é sensível ao tamanho da amostra? Como? | ||
+ | * A **curva de verossimilhança RELATIVA** é sensível ao tamanho da amostra? Como? | ||
+ | * A **força de evidência** em favor do MLE aumenta com o tamanho da amostra? Por que? | ||
+ | * Qual o impacto do tamanho da amostra sobre o **intervalo de verossimilhança**? | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Suporte para Inferência Estatística ===== | ||
+ | |||
+ | A consequência **imediata** da combinação da Lei e do Princípio da Verossimilhança é que a função de verossimilhança, | ||
+ | * Por **suporte** entende-se a base **teórica** e **empírica** para se construir e implementar a inferência estatística. | ||
+ | * Como suporte **necessário** entende-se que qualquer inferência não baseada nesse suporte não é apropriada. | ||
+ | * como suporte **suficiente** entende-se que nada mais é necessário à inferência estatística além desse suporte. | ||
+ | |||
+ | |||
+ | ==== Suporte para Inferência sobre Parâmetros ==== | ||
+ | |||
+ | Partindo de um modelo assumido como apropriado, qualquer inferência sobre os parâmetros do modelo, ou //funções desses parâmetros// | ||
+ | |||
+ | Voltemos ao exemplo da distribuição de DAP no caxetal (parcela 2): | ||
+ | <code rsplus> | ||
+ | hist( cax3pdap[cax3pparcela==2 ], prob = TRUE ) | ||
+ | curve(dweibull(x, | ||
+ | </ | ||
+ | |||
+ | |||
+ | == Inferência sobre os Parâmetros == | ||
+ | |||
+ | |||
+ | Vejamos a superfície de log-verossimilhança negativa relativa para inferência sobre os parâmetros: | ||
+ | |||
+ | * Criando a função vetorizada: | ||
+ | <code rsplus> | ||
+ | lweibull = function(forma, | ||
+ | vlweibull = Vectorize( lweibull, c(" | ||
+ | </ | ||
+ | |||
+ | * Definido a amplitude de variação dos parâmetros: | ||
+ | <code rsplus> | ||
+ | forma = seq(0.5, 2.5, by=0.05) | ||
+ | escala = seq( 50, 100, by=0.5 ) | ||
+ | </ | ||
+ | |||
+ | * Calculando a superfície de log-veros. neg. relativa: | ||
+ | <code rsplus> | ||
+ | sup.weibull = outer( forma, escala, vlweibull ) | ||
+ | sup.weibull = sup.weibull - min(sup.weibull) | ||
+ | </ | ||
+ | |||
+ | * Construindo o gráfico de contorno da superfície: | ||
+ | <code rsplus> | ||
+ | contour(forma, | ||
+ | </ | ||
+ | |||
+ | * Marcando a posição das MLE com linhas tracejadas: | ||
+ | <code rsplus> | ||
+ | abline(v=weib2$estimate[1], | ||
+ | abline(h=weib2$estimate[2], | ||
+ | </ | ||
+ | |||
+ | * Marcando a região referente à razão de verossimilhança de 8: | ||
+ | <code rsplus> | ||
+ | contour(forma, | ||
+ | </ | ||
+ | |||
+ | |||
+ | == Inferência sobre a Média == | ||
+ | |||
+ | Na distribuição Weibull a média (valor esperado) é definido em função dos parâmetros da seguinte forma: | ||
+ | μ=β Γ(γ+1γ). | ||
+ | onde: | ||
+ | * β é o parâmetro de escala; | ||
+ | * γ é o parâmetro da forma; e | ||
+ | * Γ(⋅) é a função gama. | ||
+ | |||
+ | Assim podemos construir uma superfície para inferência sobre a Média: | ||
+ | |||
+ | * Cálculo da superfície dos valores da média: | ||
+ | <code rsplus> | ||
+ | mean.weibull = function(c, b) (b*gamma( (c+1)/c )+47)/10 | ||
+ | sup.mean = outer(forma, | ||
+ | </ | ||
+ | |||
+ | * Gráfico da superfície da média, com a posição das MLE dos parâmetros: | ||
+ | <code rsplus> | ||
+ | contour(forma, | ||
+ | abline(v=weib2$estimate[1], | ||
+ | abline(h=weib2$estimate[2], | ||
+ | </ | ||
+ | |||
+ | * Região de razão de verossimilhança (8) e linha da média amostral: | ||
+ | <code rsplus> | ||
+ | contour(forma, | ||
+ | media.estimada = (weib2estimate[2]∗gamma(1+(1/weib2estimate[1])) + 47)/10 | ||
+ | contour(forma, | ||
+ | contour(forma, | ||
+ | </ | ||
+ | |||
+ | |||
+ | == Inferência sobre Quantis da Distribuição == | ||
+ | |||
+ | Na distribuição Weibull os quantis podem ser determinados a partir da função inversa da função de distribuição: | ||
+ | dp=β (log11−p)1/γ, | ||
+ | onde: | ||
+ | * p é a probabilidade que se deseja o quantil, por exemplo 0.95 (95%); | ||
+ | * β e γ parâmetros de escala e forma, respectivamente. | ||
+ | |||
+ | Para construir a superfície para inferência sobre o quantil 95% basta seguir os mesmos passos da construção da superfície sobre a média: | ||
+ | <code rsplus> | ||
+ | dap95.weibull = function(c, b) (b*( log(1/ | ||
+ | sup.dap95 = outer(forma, | ||
+ | contour(forma, | ||
+ | abline(v=weib2$estimate[1], | ||
+ | abline(h=weib2$estimate[2], | ||
+ | contour(forma, | ||
+ | dap95.est = dap95.weibull( weib2estimate[1],weib2estimate[2]) | ||
+ | contour(forma, | ||
+ | dap95.amostral = quantile(cax3pdap[cax3pparcela==2 ]/10, 0.95, type=6) | ||
+ | contour(forma, | ||
+ | </ | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | == Questões == | ||
+ | |||
+ | * O que representa a superfície de log-verossimilhança negativa relativa dos parâmetros? | ||
+ | * O que se pode inferir (estatisticamente) a partir dela? | ||
+ | * O que representa a superfície de valores da média a partir dos parâmetros? | ||
+ | * O que se pode inferir (estatisticamente) dessa superfície? | ||
+ | * O que representa a superfície de valores do quantil 95% a partir dos parâmetros? | ||
+ | * O que se pode inferir (estatisticamente) dessa superfície? | ||
+ | |||
+ | ==== Suporte | ||
+ | |||
+ | A inferência sobre modelos consiste na comparação dos modelos dois-a-dois através da razão de verossimilhança. | ||
+ | |||
+ | É comum se utilizar o "// | ||
+ | |||
+ | Elementos que tornam essa abordagem mais simples para inferência sobre modelos quando comparada à abordagem "// | ||
+ | * Não há restrições a respeito do número de modelos ou como eles são formulados (com ou sem inspeção dos dados). | ||
+ | * A log-verossimilhança é // | ||
+ | * Para comparação entre modelos é irrelevante quais (ou quantas) variáveis foram utilizadas como variáveis preditoras/ | ||
+ | |||
+ | |||
+ | === Comparando Modelos nos Dados Sub-divididos ou Agregados === | ||
+ | |||
+ | Voltemos ao exemplo das 3 parcelas em caxetais. | ||
+ | <code rsplus> | ||
+ | library(bbmle) | ||
+ | AICtab(weib1, | ||
+ | AICtab(weib2, | ||
+ | AICtab(weib3, | ||
+ | </ | ||
+ | |||
+ | Podemos pensar no conjunto dos três ajustes como um só modelo para as três parcelas, com seis parâmetros. Como a log-verossimilhança é aditiva, o AIC para este modelo combinado é a soma do AICs dos modelos componentes: | ||
+ | <code rsplus> | ||
+ | AIC(weib1) + AIC(weib2) + AIC(weib3) | ||
+ | AIC(gamm1) + AIC(gamm2) + AIC(gamm3) | ||
+ | </ | ||
+ | |||
+ | Um modelo mais parcimonioso para as três parcelas seria ajustar um só modelo para os **dados agregados**. | ||
+ | <code rsplus> | ||
+ | weib.agr = fitdistr( cax3p$dap - 47, " | ||
+ | gamm.agr = fitdistr( cax3p$dap - 47, " | ||
+ | AICtab(weib.agr, | ||
+ | AIC(weib1) + AIC(weib2) + AIC(weib3) | ||
+ | AIC(gamm1) + AIC(gamm2) + AIC(gamm3) | ||
+ | </ | ||
+ | |||
+ | |||
+ | **Questões: | ||
+ | * Quais as diferenças na comparação dos modelos nos níveis: | ||
+ | - parcela-a-parcela, | ||
+ | - combinado, | ||
+ | - agregado? | ||
+ | * A fundamentação teórica muda ao se realizar comparações nos diferentes níveis? | ||
+ | * Com os resultados obtidos é possível testar se a melhor abordagem de modelagem é ter um modelo para cada parcela ou ter um modelo para os dados agregados? | ||
+ | |||
+ | ===== Inferência por Verossimilhança e Inferência Frequentista ===== | ||
+ | |||
+ | |||
+ | ==== Inferência de Intervalo ==== | ||
+ | |||
+ | Na abordagem // | ||
+ | |||
+ | O intervalo de confiança apela para o conceito de probabilidade **a longo prazo** que implica na repetição | ||
+ | ilimitada do procedimento utilizado para gerar os dados, como se os dados fossem uma amostra de uma população **infinita** de observações possíveis. | ||
+ | - definir o **parâmetro de interesse**, | ||
+ | - encontrar uma **estatística** que pode ser um estimador do parâmetro ou uma transformação do estimador; | ||
+ | - definir a **distribuição amostral** dessa estatística, | ||
+ | - construir um intervalo para a estatística com base nessa distribuição amostral; | ||
+ | - converter esse intervalo de volta à escala do parâmetro de interesse. | ||
+ | |||
+ | === Exemplo de Árvores Doentes em Floresta Plantada === | ||
+ | |||
+ | Considere que numa plantação de // | ||
+ | |||
+ | Pela distribuição binomial a MLE da taxa de ocorrência é: | ||
+ | |||
+ | ˆp=37100=0.37. | ||
+ | |||
+ | e o erro padrão dessa estimativa é: | ||
+ | |||
+ | ˆσ=[p(1−p)n]1/2=[0.37(1−0.37)100]1/2=0.04828043. | ||
+ | |||
+ | |||
+ | Utilizando a // | ||
+ | |||
+ | ˆz=ˆp−pˆσp | ||
+ | |||
+ | tem distribuição amostral igual à distribuição Normal padronizada (média zero e desvio padrão um). | ||
+ | |||
+ | Assim, um intervalo com probabilidade 95% para essa estatística é: | ||
+ | |||
+ | P(z0.025≤ˆz≤z0.975)=0.95 | ||
+ | |||
+ | P(−1.96≤ˆz≤1.96)=0.95 | ||
+ | |||
+ | P(−1.96≤ˆp−pˆσ≤1.96)=0.95 | ||
+ | |||
+ | P(ˆp−1.96ˆσ≤p≤ˆp+1.96ˆσ)=0.95 | ||
+ | |||
+ | Assim o intervalo de confiança de 95% para estimativa da taxa de ocorrência de doença ˆp é: | ||
+ | |||
+ | ˆp±1.96σ=0.37±(1.96)(0.04828043)=0.37±0.09462964. | ||
+ | |||
+ | |||
+ | ** Intervalo de Verossimilhança ** | ||
+ | |||
+ | O intervalo de verossimilhança (para razão 8, por exemplo) é obtido inspecionando a vizinhança da MLE ˆp na curva de verossimilhança: | ||
+ | <code rsplus> | ||
+ | p = seq(0.20, 0.50, length=100) | ||
+ | lik = dbinom(37, 100, p) | ||
+ | lik = lik / max(lik) | ||
+ | plot(p, lik, type=" | ||
+ | abline(h=1/ | ||
+ | abline(v=37/ | ||
+ | </ | ||
+ | |||
+ | |||
+ | === Segundo Exemplo de Árvores Doentes === | ||
+ | |||
+ | Suponha agora que a amostra aleatória de árvores de 100 árvores foi obtida, mas nenhuma das árvores se mostrou doente. | ||
+ | |||
+ | Estimativa da taxa: ˆp=0/100=0 | ||
+ | |||
+ | Erro padrão da estimativa: ˆσ=[(0(1−0))/100]1/2=0 | ||
+ | |||
+ | Como utilizar a aproximação normal nesse caso? Não é possível obter um intervalo de confiança de 95% por essa abordagem. | ||
+ | |||
+ | |||
+ | O que muda no intervalo de verossimilhança? | ||
+ | <code rsplus> | ||
+ | p = seq(0.0, 0.05, length=100) | ||
+ | lik = dbinom(0, 100, p) | ||
+ | lik = lik / max(lik) | ||
+ | plot(p, lik, type=" | ||
+ | abline(h=1/ | ||
+ | abline(v=0, lty=9, col=" | ||
+ | </ | ||
+ | |||
+ | |||
+ | ==== Teste de Hipótese ==== | ||
+ | |||
+ | A forma de teste de hipótese de uso mais geral na estatística frequentista é o o **teste de significância**. | ||
+ | |||
+ | Essa abordagem consiste em enunciar duas hipóteses: | ||
+ | * Hipótese nula: que estabelece um valor específico para o parâmetro sendo testado. | ||
+ | * Hipótese alternativa: | ||
+ | |||
+ | O teste de significância segue os seguintes passos: | ||
+ | * Define-se uma estatística e se deduz a distribuição amostral dessa estatística **sob a hipótese nula**, isto é, assumindo a hipótese nula como verdadeira. | ||
+ | * Com esta distribuição calcula-se, então, o **valor-p** que é a probabilidade de se observar o valor observado da estatística **ou um valor mais extremo** sob a hipótese nula. | ||
+ | * Compara-se o valor-p com o **nível de significância** previamente definido. | ||
+ | * Se o valor-p for menor que o nível de significância, | ||
+ | |||
+ | |||
+ | |||
+ | === Exemplo dos Dois Laboratórios === | ||
+ | |||
+ | Voltemos ao exemplo da aplicação de um produto em cobaias para verificar a taxa de mortalidade com os dois laboratórios: | ||
+ | * __Laboratório 1:__ Aplicou o produto em 20 cobaias das quais 6 morreram. | ||
+ | * __Latoratório 2:__ Foi aplicando o produto em várias cobaias, com a determinação que quando a sexta morte ocorresse o experimento terminaria. | ||
+ | |||
+ | A questão agora é testar as seguintes hipóteses: | ||
+ | * Hipótese Nula: p=0.5. | ||
+ | * Hipótese Alternativa: | ||
+ | |||
+ | Laboratório A: o modelo deste experimento é uma distribuição binomial. A probabilidade de obter seis **ou menos** mortes em 20 tentativas sob a hipótese de que p=0.5 é dada pela probabilidade acumulada da binomial: | ||
+ | <code rsplus> | ||
+ | pbinom(q=6, size=20, prob=0.5) | ||
+ | </ | ||
+ | |||
+ | Laboratório B: o modelo do experimento é uma distribuição binomial negativa. A probabilidade de obter seis mortes em 20 **ou mais** tentativas é: | ||
+ | <code rsplus> | ||
+ | 1 - pnbinom(q=14, | ||
+ | </ | ||
+ | |||
+ | **Conclusão: | ||
+ | |||
+ | Mesmo nível de significância e mesmos dados, mas conclusões diferentes. | ||
+ | |||
+ | Na inferência por verossimilhança, | ||
+ | <code rsplus> | ||
+ | p = seq(0.01, 0.99, by=0.01) | ||
+ | lik.binom = dbinom(6, 20, p) # Lab 1: dist. Binomial | ||
+ | lik.binom = lik.binom / max(lik.binom) | ||
+ | lik.nbinom = dnbinom(14, 6, p) # Lab 2: dist. Binomial Negativa | ||
+ | lik.nbinom = lik.nbinom / max(lik.nbinom) | ||
+ | plot(p, lik.binom, type=" | ||
+ | lines(p, lik.nbinom, col=" | ||
+ | </ | ||
+ | |||
+ | Entretanto, não seria apropriado estabelecer as hipóteses na forma | ||
+ | * hipotese A: p=0.5 contra | ||
+ | * hipótese B: p≤0.5. | ||
+ | |||
+ | Pois a hipótese A indica um ponto na curva enquanto que a hipótese B indica uma região. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | \\ | ||
+ | ------------------ | ||
+ | \\ | ||
+ | |||
+ | ====== Questões motivadoras para a dicussão ====== | ||
+ | |||
+ | - Na inferência por verossimilhança o espaço amostral é irrelevante, | ||
+ | - Na análise de dados usando a Lei da Verossimilhança não se compara uma determinada hipótese a uma hipótese nula, e sim comparam-se hipóteses entre si (podendo haver mais de duas). Podemos dizer esse tipo de análise depende mais fortemente da habilidade do pesquisador para formular hipóteses e criar modelos que explicarão melhor seus dados (já que as hipóteses não estão prontas, elas devem ser formuladas)? | ||
+ | - O Princípio da Verossimilhança afirma que a função de verossimilhança contém toda informação que um conjunto de dados tem sobre um dado modelo. | ||
+ | |||
+ | |||
+ | ====== Recursos para Estudo ====== | ||
+ | |||
+ | ===== Leituras ===== | ||
+ | === Principais === | ||
+ | * Royall, R. M. (2007) The likelihood paradigm for statistical evidence. **In: | ||
+ | * Lewin-Koh N., Taper, M. L. & Lele, S. R. (2004). A brief tour of statistical concepts. **In: | ||
+ | === Complementares === | ||
+ | * Sober, E. 2008. Evidence and Evolution: the logic behind the science. Cambridge, Cambridge University Press. Cap.1. | ||
+ | * [[http:// | ||
+ | * Berger, J.O. & Wolpert, R.L. 1984. [[http:// | ||
+ | |||
+ | |||
+ | == Sobre p-valor e testes de significância== | ||
+ | * Cohen, J. 1994. The Earth Is Round (p<. 05). Amer. Psychologist, | ||
+ | * Ioannidis, John P.A. Why most published research findings are false. [[http:// | ||
+ | * Forum sobre testes de significância x seleção de modelos: [[http:// | ||
+ | * [[http:// | ||
+ | * Gelman & Loken 2013. [[http:// | ||
+ | * Nuzzo, R. (2014). Statistical errors. [[http:// | ||
+ | * Wasserstein, | ||
+ | |||
+ | ===== Na Internet ===== | ||
+ | |||
+ | * [[http:// | ||
+ | * Berger, J.O. & Wolpert, R.L. 1984. [[http:// | ||
+ | * Página do filósofo [[http:// | ||
+ | * Página do filósofo [[http:// | ||
+ | * [[https:// | ||
+ | * [[https:// | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||