Edit page

Teste de Hipóteses

Hipóteses

Damos o nome de hipótese estatística a qualquer conjetura sobre um dado estatístico, como por exemplo a distribuição de uma VA de interesse, um parâmetro desconhecido, ou outro. A uma conjetura sobre um parâmetro damos o nome de hipótese paramétrica.
Este capítulo centra-se no estudo da confiança que podemos dar a uma hipótese paramétrica.
Normalmente, isto é feito através da confrontação de duas hipóteses paramétricas:

  • hipótese nula: H0Θ0H_0 \in \Theta_0 Θ\subset \Theta que consiste na hipótese principal;
  • hipótese alternativa: H1Θ1H_1 \in \Theta_1 Θ\Θ0\subset \Theta \backslash \Theta_0 que consiste na hipótese que é confrontada com a hipótese nula. Normalmente consideramos 3 tipos de hipóteses alternativas:
    • unilateral inferior se Θ1{xΘ:x<H0}\Theta_1 \subset \{ x \in \Theta: x < H_0 \}, isto é, se todos os valores da hipótese alternativa forem inferiores aos da hipótese nula;
    • unilateral superior se Θ1{xΘ:x>H0}\Theta_1 \subset \{ x \in \Theta: x > H_0 \}, isto é, se todos os valores da hipótese alternativa forem superiores aos da hipótese nula;
    • bilateral caso enquadre valores para ambos os lados de H0H_0. Um exemplo comum de uma hipótese alternativa bilateral é
      H0:μ=μ0 e H1:μμ0H_0: \mu = \mu_0 \text{ e } H_1: \mu \neq \mu_0

Uma hipótese paramétrica diz-se ainda simples se especificar um único valor para o parâmetro em caso, dizendo-se composta caso contrário.

Exemplo

Considere-se que queremos analisar a altura da população portuguesa. Assumimos que a distribuição da altura dos portugueses é normal. Sendo assim, é do nosso interesse saber qual é, por exemplo, o valor esperado da altura de um português. Seja este parâmetro μ\mu.

Um exemplo de uma hipótese paramétrica é:

A média das alturas dos portugueses é 1,75m1,75m.

Esta hipótese paramétrica é simples pois especifica um só valor para o parâmetro desconhecido. Uma hipótese paramétrica composta seria, por exemplo:

A média das alturas dos portugueses está algures entre 1,70m1,70m e 1,80m1,80m.

Se considerarmos a primeira hipótese apresentada como a hipótese nula - H0:μ=1,70H_0: \mu = 1,70 - temos que a hipótese alternativa é bilateral - H1:μ1,70H_1: \mu \neq 1,70.

Temos que a hipótese nula H0:μ1,70H_0: \mu \geq 1,70:

A média das alturas dos portugueses é no mínimo 1,70m1,70m.

Tem uma hipótese alternativa unilateral inferior: H1:μ<1,70H_1: \mu < 1,70.

Deve agora ser fácil imaginar uma hipótese nula cuja hipótese alternativa seja unilateral superior.

Testar um Hipótese

Testar uma hipótese consiste num processo estatístico que leva à aceitação/rejeição da hipótese nula em prol da alternativa. Esta decisão pode ou não estar correta: o teste permite-nos atribuir um valor de probabilidade a uma certa hipótese, mas nunca nos permite calcular sem margem de dúvida o valor de um parâmetro.

Dizemos que ocorreu um:

  • erro de primeira espécie se H0H_0 for verdadeira mas for rejeitada pelo teste. Designamos por α\alpha como a probabilidade de ocorrer um erro destes;
  • erro de segunda espécie se H0H_0 for falsa mas for aceite pelo teste. Designamos por β\beta como a probabilidade de ocorrer um erro destes;

Quando fazemos um teste, queremos que a probabilidade de ocorrer um erro seja o menor possível. É, então, normal colocar um limite superior para a probabilidade de ocorrência de erro de primeira espécie. A este limite dá-se o nome de nível de significância (n.s.) e representa-se por α0\alpha_0 ]0,1[\in ]0,1[.
Para calcular a probabilidade de erro, definimos uma estatística de teste como uma estatística a utilizar no confronto entre um par de hipóteses sobre o parâmetro θ\theta. Esta estatística:

  • reflete a discrepância entre o estimador de θ\theta e o valor conjeturado para o mesmo em H0H_0 (θ0\theta_0);
  • tem distribuição (exata ou aproximada) conhecida, sob a validade de H0H_0;
  • obtém-se, normalmente, à custa de uma certa VA fulcral, substituindo θ\theta por θ0\theta_0 na sua expressão.

A partir desta estatística TT, fica então a faltar definir o conjunto de valores que deverão levar à rejeição de H0H_0. A estes valores damos o nome de valores críticos e a este conjunto região de rejeição ou rejeição crítica de H0H_0. Esta região é designada por ω\omega e é tal que P(Tω)=αα0P(T \in \omega) = \alpha \leq \alpha_0, dependendo também da hipótese alternativa.

A decisão em relação a H0H_0 é então a seguinte, para uma estatística teste TT:

  • TωT \in \omega \Rightarrow rejeição;
  • T∉ωT \not\in \omega \Rightarrow aceitação.

Mais uma vez, relembra-se que aceitação não significa que H0H_0 seja verdadeira: pode ocorrer um erro de primeira ou segunda espécie. Podemos, no entanto, concluir, em caso de aceitação da hipótese nula, que a probabilidade de um erro destes acontecer é inferior ao nível de significância α0\alpha_0. Desta forma, quanto menor α0\alpha_0, maior o conjunto de valores rejeitados.

Observamos ainda que, se H0H_0 for uma hipótese nula H0:θ=θ0H_0: \theta = \theta_0 com alternativa bilateral H1:θθ0H_1: \theta \neq \theta_0, averiguar H0H_0 com n.s. α0\alpha_0 equivale a averiguar se o valor θ0\theta_0 proposto por H0H_0 pertence ao intervalo de confiança 1α01-\alpha_0. Temos então que θ0IC1α0(θ)\theta_0 \in IC_{1-\alpha_0}(\theta) leva à aceitação de θ0\theta_0 com n.s. α0\alpha_0 e θ0∉IC1α0(θ)\theta_0 \not\in IC_{1-\alpha_0}(\theta) leva à rejeição com esse mesmo n.s.

Procedimentos para Testar uma Hipótese

Para testar uma hipótese seguimos, então, o seguinte procedimento:

  1. Escolhemos a VA de interesse XX;
  2. Identificamos a situação: qual a distribuição de XX, o parâmetro em questão, outros parâmetros em causa, etc;
  3. Especificamos as hipóteses: nula (H0H_0) e alternativa (H1H_1);
  4. Escolhemos o nível de significância α0\alpha_0;
  5. Escolhemos a estatística de teste TT e identificamos a sua distribuição sob a validade de H0H_0;
  6. Obtemos a região de rejeição ω\omega
  7. Calculamos o valor observado tt da estatística TT e decidimos pela rejeição ou não de H0H_0 com n.s. α0\alpha_0.

Função Potência

Por vezes, além da probabilidade de rejeição para uma hipótese verdadeira, podemos querer essa probabilidade para uma hipótese falsa. Definimos a função potência de um teste como a probabilidade de rejeição da hipótese nula. Temos que

α=P(Tωθ),θΘ0β=P(T∉ωθ),θΘ1\alpha = P(T \in \omega | \theta), \theta \in \Theta_0 \\ \beta = P(T \not\in \omega | \theta), \theta \in \Theta_1

pelo que

p(θ)=P(Rejeitar H0θ)={α,θΘ01β,θΘ1p(\theta) = P(\text{Rejeitar } H_0 | \theta) = \begin{cases} \alpha, &\theta \in \Theta_0 \\ 1-\beta, &\theta \in \Theta_1 \end{cases}

pp-value

Até agora, temos estudado a decisão sobre uma hipótese para um n.s. fixo. No entanto, podemos seguir o sentido contrário: dado o valor observado tt de uma estatística, determinar para que níveis de significância é que rejeitamos/aceitamos a hipótese nula. Definimos, então, o p-value como o maior nível de significância que leva à aceitação de H0H_0. Nomeadamente, se tivermos um teste:

  • unilateral inferior, ω=],c[\omega = ]-\infty, c[, então c=P(T<tH0)=FTH0(t)c = P(T<t | H_0) = F_{T|H_0}(t);
  • unilateral superior, ω=]c,[\omega = ]c, \infty[, então c=P(T>tH0)=1FTH0(t)c = P(T>t | H_0) = 1 - F_{T|H_0}(t);
  • bilateral, ω=],c[]c,[\omega = ]-\infty, c[ \cup ]c, \infty[ em que TH0T | H_0 tem distribuição simétrica em relação à origem, então c=P(T<tT>tH0)=2(1FTH0(t))c = P(T<-|t| \vee T>|t| | H_0) = 2\left(1 - F_{T|H_0}(|t|) \right)

Testes de Hipóteses Paramétricas

Determinação de μ\mu para σ2\sigma^2 conhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao valor esperado de uma VA arbitrária XX cuja variância já conhecemos.

Consideramos, então, a hipótese nula H0:μ=μ0H_0: \mu = \mu_0.

Se Xnormal(μ,σ2)X \sim \op{normal}(\mu, \sigma^2), temos então que

Z=Xμ0σnH0normal(0,1)Z = \frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sim_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é exatamente

  • ω= ],Φ1(1α2)[  ]Φ1(1α2),[\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Φ1(1α),[\omega = \space]\Phi^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Φ1(1α)[\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se XX não seguir uma distribuição normal, invocamos o TLC para obter que

Xμ0σnaH0normal(0,1)\frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de μ1μ2\mu_1 - \mu_2 para σ12,σ22\sigma_1^2, \sigma_2^2 conhecidos

Esta determinação não é lecionada no programa de 2021/22.

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à diferença entre os valores esperados de duas VA arbitrárias X1X_1 e X2X_2 cuja variância já conhecemos.

Consideramos, então, a hipótese nula H0:μ1μ2=μ0H_0: \mu_1 - \mu_2 = \mu_0.

Se Xinormal(μi,σi2)X_i \sim \op{normal}(\mu_i, \sigma_i^2) (i{1,2}i \in \{1,2\}), temos que

Z=(X1X2)(μ1μ2)σ12n1+σ22n2H0normal(0,1)Z = \frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é exatamente

  • ω= ],Φ1(1α2)[  ]Φ1(1α2),[\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Φ1(1α),[\omega = \space]\Phi^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Φ1(1α)[\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se XX não seguir uma distribuição normal, invocamos o TLC para obter que

(X1X2)(μ1μ2)σ12n1+σ22n2aH0normal(0,1)\frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de μ\mu para σ2\sigma^2 desconhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao valor esperado de uma VA arbitrária XX cuja variância não conhecemos.

Consideramos, então, a hipótese nula H0:μ=μ0H_0: \mu = \mu_0.

Se Xnormal(μ,σ2)X \sim \op{normal}(\mu, \sigma^2), temos que

Z=XμsnH0t(n1)Z = \frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sim_{H_0} t_{(n-1)}

em que ss é um estimador para a variância - a variância corrigida.

Sendo assim, a região de rejeição é exatamente

  • ω= ],Ft(n1)1(1α2)[  ]Ft(n1)1(1α2),[\omega = \space]-\infty, -F_{t_{(n-1)}}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]F_{t_{(n-1)}}^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Ft(n1)1(1α),[\omega = \space]F_{t_{(n-1)}}^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Ft(n1)1(1α)[\omega = \space]-\infty, -F_{t_{(n-1)}}^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se XX não seguir uma distribuição normal, invocamos o TLC para obter que

XμsnaH0normal(0,1)\frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de μ1μ2\mu_1 - \mu_2 para σ12,σ22\sigma_1^2, \sigma_2^2 desconhecidos

Esta determinação não é lecionada no programa de 2021/22.

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à diferença entre os valores esperados de duas VA arbitrárias X1X_1 e X2X_2 cuja variância não conhecemos.

Consideramos, então, a hipótese nula H0:μ1μ2=μ0H_0: \mu_1 - \mu_2 = \mu_0.

Se Xinormal(μi,σi2)X_i \sim \op{normal}(\mu_i, \sigma_i^2) (i{1,2}i \in \{1,2\}), temos que

Z=(X1X2)(μ1μ2)(n11)s12+(n21)s22n1+n22(1n1+1n2)H0t(n1+n21)Z = \frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}\left(\frac{1}{n_1} + \frac{1}{n_2} \right)}} \sim_{H_0} t_{(n_1+n_2-1)}

em que ss é um estimador para a variância - a variância corrigida.

Sendo assim, a região de rejeição é exatamente

  • ω= ],Ft(n1+n21)1(1α2)[  ]Ft(n1+n21)1(1α2),[\omega = \space]-\infty, -F_{t_{(n_1+n_2-1)}}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]F_{t_{(n_1+n_2-1)}}^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Ft(n1+n21)1(1α),[\omega = \space]F_{t_{(n_1+n_2-1)}}^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Ft(n1+n21)1(1α)[\omega = \space]-\infty, -F_{t_{(n_1+n_2-1)}}^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se X1X_1 e X2X_2 não seguirem uma distribuição normal, invocamos o TLC para obter que

(X1X2)(μ1μ2)s12n1+s22n2aH0normal(0,1)\frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de σ2\sigma^2 para μ\mu desconhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à variância de uma VA XX com distribuição normal cujo valor esperado não conhecemos.

Consideramos, então, a hipótese nula H0:σ2=σ02H_0: \sigma^2 = \sigma_0^2.

Como Xnormal(μ,σ2)X \sim \op{normal}(\mu, \sigma^2), temos que

Z=(n1)s2σ2H0χ(n1)2Z = \frac{(n-1)s^2}{\sigma^2} \sim_{H_0} \chi_{(n-1)}^2

Sendo assim, a região de rejeição é exatamente

  • ω= ],χ(n1)21(α2)[  ]χ(n1)21(1α2),[\omega = \space]-\infty, {\chi_{(n-1)}^2}^{-1}(\frac{\alpha}{2})[\space \cup \space]{\chi_{(n-1)}^2}^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:σ2σ02H_1: \sigma^2 \neq \sigma_0^2;
  • ω= ]χ(n1)21(1α),[\omega = \space]{\chi_{(n-1)}^2}^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:σ2>σ02H_1: \sigma^2 > \sigma_0^2;
  • ω= ],χ(n1)21(α)[\omega = \space]-\infty, {\chi_{(n-1)}^2}^{-1}(\alpha)[
    para uma hipótese alternativa unilateral inferior H1:σ2<σ02H_1: \sigma^2 < \sigma_0^2;

Determinação de pp numa Prova de Bernoulli

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao parâmetro de uma Prova de Bernoulli.

Consideramos, então, a hipótese nula H0:p=p0H_0: p = p_0.

Como XBernoulli(p)X \sim Bernoulli(p), temos, segundo o TLC, que para n>>n>>

Z=Xpp(1p)naH0normal(0,1)Z = \frac{\overline{X} - p}{\sqrt{\frac{p(1-p)}{n}}} \sima_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é aproximadamente

  • ω= ],Φ1(1α2)[  ]Φ1(1α2),[\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:pp0H_1: p \neq p_0;
  • ω= ]Φ1(1α),[\omega = \space]\Phi^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:p>p0H_1: p > p_0;
  • ω= ],Φ1(1α)[\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:p<p0H_1: p < p_0;

Exemplos

Exemplo

(Exemplo retirado do Teste 2B de 2017/2018 de PE)

O diâmetro (XX , em cm) dos tapetes de rato produzidos por determinada fábrica possui distribuição normal com parâmetros desconhecidos μ\mu e σ2\sigma^2 . A concretização de uma amostra aleatória de dimensão 10 conduziu aos seguintes resultados: i=110xi=846\sum_{i=1}^{10} x_i = 846 e i=110xi2=71607\sum_{i=1}^{10} x_i^2 = 71607.

Caso queiramos testar as seguintes hipóteses (decidindo com base no valor-p)

H0:σ2=σ02=4H1:σ2>4\begin{aligned} H_0&: \sigma^2 = \sigma_0^2 = 4\\ H_1&: \sigma^2 > 4 \end{aligned}

Devemos, em primeiro lugar, escolher a nossa estatística de teste: sendo que estamos a testar σ2\sigma^2 de uma população normal, com μ\mu desconhecido, faz sentido escolher:

T=(n1)S2σ02H0χ(n1)2T = \frac{(n - 1)S^2}{\sigma_0^2} \sim_{H_0} \chi_{(n - 1)}^2

Devemos, ainda, definir inicialmente a região de rejeição de H0H_0: tratando-se de um teste unilateral superior (com H1:σ2>4H_1: \sigma^2 > 4), dizemos que a região de rejeição de H0H_0 é dada por W=(c,+)W = (c, +\infty).

Note-se que, para a amostra considerada, tem-se:

s2=1n1i=1n(xix)2=1n1i=1nxi2nx2=19(71607846210)=3.9(3)\begin{aligned} s^2 &= \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \overline{x})^2 \\ &= \frac{1}{n - 1} \sum_{i=1}^{n} x_i^2 - n \overline{x}^2 \\ &= \frac{1}{9}\biggl(71607 - \frac{846^2}{10}\biggr)\\ &= 3.9(3)^{\smartcolor{orange}{*}} \end{aligned}

O valor observado, tendo em conta a estatística de teste, é dado por:

t=(n1)s2σ02=(101)3.9(3)4=8.85\begin{aligned} t &= \frac{(n - 1)s^2}{\sigma_0^2} \\ &= \frac{(10 - 1) \cdot 3.9(3)^{\smartcolor{orange}{*}}}{4} \\ &= 8.85 \end{aligned}

Sendo a região de rejeição um intervalo à direita, vamos ter:

valor-p=P(T>tH0)=1Fχ(n1)2(t)=1Fχ(9)2(8.85)\begin{aligned} \text{valor-p} &= P(T > t | H_0)\\ &= 1 - F_{\chi^2_{(n-1)}}(t) \\ &= 1 - F_{\chi^2_{(9)}}(8.85) \end{aligned}

Ora, não existe tabela que nos possibilite encontrar o valor específico de Fχ(9)2(8.85)F_{\chi^2_{(9)}}(8.85). Conseguimos, contudo, enquadrar o valor-p, tal que:

Fχ(9)21(0.50)=8.343<t=8.85<9.414=Fχ(9)21(0.60)0.50<Fχ(9)2(8.85)<0.600.40<valor-p<0.50\begin{aligned} F_{\chi^2_{(9)}}^{-1}(0.50) &= 8.343 < t = 8.85 < 9.414 = F_{\chi^2_{(9)}}^{-1}(0.60) \\ 0.50 &< F_{\chi^2_{(9)}}(8.85) < 0.60\\ 0.40 &< \text{valor-p} < 0.50 \end{aligned}

Podemos, assim, recorrendo ao valor-p, afirmar que devemos rejeitar H0H_0 a qualquer nível de significância superior a 50%50\%, e não devemos rejeitar H0H_0 a qualquer nível de significância igual ou inferior a 40%40\%.