Estimação Pontual
Como deverá ser sabido, o nome da cadeira em estudo é Probabilidade e Estatística.
Nos capítulos anteriores vimos como atribuir probabilidades a determinados eventos.
Isto é, na primeira parte tratámos do estudo de probabilidades.
A segunda parte vai, então, tratar da parte da estatística.
Estatística
Ramo da Matemática Aplicada que estuda como recolher, apresentar e interpretar dados relativos a fenómenos aleatórios, visando a caracterização desses fenómenos.
Vamos introduzir alguns conceitos base da estatística:
- VA ou característica de interesse - característica crucial para o conhecimento do fenómeno aleatório em estudo;
- população - conjunto de todos os indivíduos que têm em comum certa característica de interesse;
- unidade estatística - nome dado a cada elemento de certa população;
- amostra - subconjunto de uma população que se julga representativo da mesma;
- dado estatístico - resultado observado em relação a uma característica de interesse e respeitante a cada unidade estatística duma amostra;
- amostragem - conjunto de procedimentos estatísticos com objetivo de obter amostras;
- estatística descritiva - conjunto de métodos que permitem tornar a informação retirada diretamente de uma amostra (caótica) num conjunto de informações sumárias e mais relevantes;
- inferência estatística - compreende um conjunto de métodos com o objetivo de usar a informação (dados/amostra) de modo a responder a questões sobre a população. Consiste então num método para tirar conclusões sobre uma população (geral) a partir de uma amostra (particular).
Na estatística, estamos interessados em fazer afirmações sobre uma característica de interesse de uma dada população. Contudo, é frequente ser impossível analisar essa característica em todos os elementos da população (em estatística, dá-se o nome de unidade estatística a cada elemento da população). É então relevante que sejamos capazes de selecionar uma porção da população, tal que, para essa porção, já seja possível fazer a análise da tal característica. A esta porção damos o nome de amostra e ao processo de seleção dá-se o nome de amostragem. Em relação à amostra, já é possível fazer observações (e a partir destas obter dados estatísticos). A partir das observações, é agora importante ser capaz de obter informação sobre a população em geral. Isto é feito através de uma inferência estatística.
Exemplo
Admita-se que queremos fazer um estudo sobre a altura da população portuguesa.
Nesse caso, a característica que está em estudo - a característica de interesse é a altura, sendo a população em estudo o conjunto dos portugueses.
Um exemplo de uma unidade estatística é o Cristiano Ronaldo, uma vez que este pertence ao conjunto dos portugueses.
Como seria muito dispendioso ir verificar a altura dos portugueses um a um, é importante obter um subconjunto desta população que se considere representativo da mesma - uma amostra.
Um exemplo de uma amostra seria (Cristiano Ronaldo, João Pavão Martins, Quim Barreiros, Luís Humberto, Marco Almeida).
O processo para seleção desta amostra denomina-se de amostragem (claro que a amostragem que levou à amostra apresentada não teve nada de aleatório).
Em relação à amostra selecionada, podemos fazer a seguinte observação - a que damos o nome de dados estatísticos - corresponde às alturas dos elementos da amostra selecionada.
Esta amostra é pequena, pelo que analisá-la não é demasiado difícil.
No entanto, para amostras maiores, processar toda a informação pode chegar a ser impossível.
É então importante tirar conclusões a partir do dado estatístico.
Isto é feito através de um conjunto de métodos enquadrados na estatística descritiva.
Um exemplo de algo que seria feito neste passo seria calcular a média dos valores observados.
No nosso exemplo verificamos que a média das alturas na nossa amostra é 1.82m.
A partir dos dados obtidos podemos realizar uma inferência estatística para obter informação sobre a altura dos portugueses no geral.
Podemos, por exemplo, sentir-nos tentados a concluir que, em média, os portugueses medem 1.82m.
Amostragem Aleatória
Por forma a que as inferências tenham a maior precisão possível, exigimos que haja aleatoriedade (parcial ou total) no processo de amostragem.
-
Amostra Aleatória (AA) - Para uma VA de interesse e VA's i.i.d a , dizemos que o vetor aleatório diz-se uma amostra aleatória (AA) de dimensão , da VA/população ;
-
Amostra - A uma observação particular de uma AA , dá-se o nome de amostra e representa-se por .
Temos quepara discreta e
para contínua.
-
Estatística - medida descritiva de uma AA com o objetivo de sumariar alguma informação sobre a mesma. Eis alguns exemplos:
- Mínimo:
- Máximo:
- Amplitude:
- Média:
- Variância Corrigida:
- Variância não Corrigida:
A média das alturas dos portugueses é 1.82m???
Depois da introdução do conceito de amostragem aleatória, deve ser claro porque é que a conclusão a que chegamos no exemplo acima parece estranha: a nossa amostragem não foi aleatória!
A aleatoriedade da amostragem é importante para prevenir o enviesamento da amostra para subconjuntos da população com certas características.
Nomeadamente, na nossa amostragem, a média pode estar algo puxada para cima visto que a amostra é composta apenas por homens (que são tendencialmente mais altos que mulheres) e por conter o Humberto (que é gigante).
Atente-se na distinção entre amostra e amostra aleatória. Pode-se pensar na amostra como num subconjunto da população, sendo a amostra aleatória um conjunto de "placeholders" para uma amostra. Pensando no sentido contrário, podemos pensar na amostra aleatória como um conjunto de seleções aleatórias sobre a população, sendo uma amostra uma concretização dessa seleção.
Estimadores
O objetivo principal da estatística é efetuar inferências sobre características de uma VA com base numa amostra. Considera-se, no geral, que a distribuição de é:
- parcialmente desconhecida, se é conhecido o tipo de distribuição mas um ou mais parâmetros são desconhecidos. Inferências sobre este tipo de VA's dizem-se do tipo paramétrico.
- totalmente desconhecida, se nem a distribuição se conhece. Neste caso, as inferências dizem-se não paramétricas.
Um parâmetro desconhecido representa-se normalmente por no caso unidimensional e por no caso multidimensional. Ao espaço de valores que pode tomar dá-se o nome de espaço paramétrico e representa-se por . Para uma VA que segue uma distribuição , damos o nome de modelo paramétrico de à família de distribuições .
Os estimadores consistem em estatísticas que tentam "adivinhar" o valor de um parâmetro.
Mais precisamente, uma estatística diz-se um estimador do parâmetro desconhecido se o seu contradomínio estiver contido em .
Ao valor observado de um estimador dá-se o nome de estimativa.
Exemplo
À partida, podemos dizer que a distribuição da altura dos portugueses é totalmente desconhecida, uma vez que não sabemos qual a distribuição que segue.
Se assumirmos, no entanto, que a altura dos portugueses segue uma distribuição normal, passamos a ter uma VA parcialmente desconhecida, já que conhecemos a distribuição, mas não sabemos os seus parâmetros ( e ).
Se estivermos interessados em determinar o valor esperado da altura de um português, passa a ser o nosso parâmetro desconhecido.
O espaço paramétrico é o conjunto de valores que o parâmetro pode tomar.
Neste caso, , uma vez que uma pessoa pode tomar qualquer altura positiva (bem, mais ou menos).
O modelo paramétrico vai então ser o conjunto de todas as distribuições (com parâmetro especificado) que a altura dos portugueses pode seguir.
Um estimador para o valor esperado é, por exemplo, o que usamos no exemplo inicial: a média .
Nesse exemplo, obtivemos como estimativa o valor de .
Enviesamento
A definição de enviesamento não é lecionada no programa de 2021/22.
Damos o nome de enviesamento de um estimador de ao valor
Um estimador diz-se centrado se tiver enviesamento nulo e enviesado caso contrário.
Um estimador será tanto melhor quanto menor o seu enviesamento.
Nota
A variância corrigida é centrada, ao contrário da não corrigida. É por esta razão que frequentemente usamos a variância corrigida em vez da não corrigida.
Erro Quadrático Médio
A definição de erro quadrático médio não é lecionada no programa de 2021/22.
O erro quadrático médio procura calcular quanto um estimador se dispersa em torno do verdadeiro valor do parâmetro desconhecido . Este é dado por
Um estimador será tanto melhor quanto menor o seu erro quadrático médio.
Dizemos que um estimador é mais eficiente que outro , se .
Definimos a eficiência relativa de um estimador em relação a um estimador de parâmetro desconhecido como:
Sendo assim, temos que o estimador é mais eficiente que , se .
Método da Máxima Verosimilhança
O método da máxima verosimilhança (MV) consiste num método para obter o valor mais plausível/verosímil para um parâmetro desconhecido , de entre todos os valores possíveis para o mesmo, tendo em conta uma amostra .
Definimos a função verosimilhança como a função tal que:
- no caso discreto;
- no caso contínuo;
Ou seja, a função verosimilhança define a probabilidade de obtermos a amostra recolhida assumindo a validade de um certo valor para o parâmetro desconhecido .
Damos o nome de estimativa de máxima verosimilhança ao valor que maximiza para a amostra .
Frequentemente, é mais fácil encontrar máximos da função , já que esta trabalha com somas (ao invés de produtos). A esta função dá-se o nome de log-verosimilhança.
O máximo da função verosimilhança/log-verosimilhança é obtido:
- por análise pontual, quando é finito;
- recorrendo às ferramentas do cálculo, quando é um conjunto que o permita (por exemplo, um intervalo nos reais).
Exemplo
Consideremos uma variável aleatória de Poisson com valor esperado e uma amostra tal que .
Queremos então determinar a estimativa de máxima verosimilhança para .
-
Função de probabilidade
-
Função de máxima verosimilhança de :
- Log Verosimilhança
- Derivadas de Log Verosimilhança (procurar máximos)
Logo, temos que uma estimativa de máxima verosimilhança de para a amostra é
Temos também que um estimador de máxima verosimilhança para é
Nota 1: Caso seja pedido, por exemplo, a estimativa da probabilidade de , basta utilizar a estimativa de máxima verosimilhança obtida para como se fosse o valor real de na função e calcular normalmente. (Propriedade da invariância)
Nota 2:
Neste exemplo foi dado o valor de mas poderiam ter sido dadas as observações,
i.e ou também ser dito
"observaram-se 10 eventos em 20 intervalos de tempo unitários."
Para este tipo de exercícios variam os valores amostrais e as funções de
probabilidade/densidade de probabilidade, logo, convém estar familiarizado com
propriedades de produtórios e logaritmos e saber interpretar as dadas
(caso sejam de Poisson, Binomiais, etc).
Este método dá-nos, em função de uma amostra , uma expressão para uma estimativa de máxima verosimilhança. Substituindo uma amostra particular por uma amostra aleatória permite-nos obter um estimador de máxima verosimilhança para (que não depende de nenhuma amostra em particular).
Os estimadores de MV satisfazem as seguintes propriedades:
- Invariância - Se é o estimador de MV de e uma função bijetiva, então ;
- Suficiência - As estimativas de MV condensam toda a informação relevante, contida na amostra, sobre o parâmetro;
- Consistência - À medida que o tamanho da AA aumenta, o dispersa-se cada vez menos do verdadeiro valor de .
Exemplo
(Exemplo retirado do Teste 2C de 2016/2017 de PE)
Admita que a proporção de zinco no corpo de um jogador da NBA é representada pela variável aleatória com função de densidade de probabilidade
onde é um parâmetro positivo desconhecido.
Caso queiramos chegar ao estimador de máxima verosimilhança de , tendo em conta uma amostra qualquer amostra aleatória proveniente da população , devemos:
- Chegar ao valor da função de verosimilhança.
- Chegar ao valor da função de log-verosimilhança.
(Note-se que é muito mais simpático derivar esta função)
- Maximização.
A estimativa de MV de , , será tal que:
Temos, por fim, que:
Distribuições Amostrais
Distribuição Amostral
Distribuição seguida por uma estatística ou estimador.
Exemplos:
A média está de modo geral relacionada com o estimador de MV do valor esperado, pelo que é particularmente interessante estudar a sua distribuição amostral. Como já vimos no capítulo anterior: