Skip to main content

3.2 - Análise Estatística para o teste de homogeneidade

Temos agora r situações multinomiais independentes (se for a margem correspondente ao critério linha fixada), uma para cada linha da tabela, e queremos saber se aquelas r situações são idênticas, ou seja, queremos saber se as r situações multinomiais são idênticas em termos probabilísticos. A identidade das distribuiçõoes multinomiais significa que a homogeneidade em termos probabilísticos da classificação pelas C categorias do critério para todas as r populações. Esta homogeneidade é expressa probabilisticamente pelo conjunto das seguintes igualdades:

$$p_{j|_1}=p_{j|_2}=\dots=p_{j|_r}\quad\quad j=1,\dots,c$$

em que, pj|i é a Probabilidade de uma amostra da população i ser classificada na classe j da variável C,  j=1,..., c.

$$p_{j|_i}=\cfrac{p_{ij}}{p_{i.}}~j=1,\dots,c\quad (3.2.1)$$

$$p_{i.}=\sum^c_{j=1}p_{ij}~~i=1,\dots,r$$

Em resumo, nosso objetivo é testarmos a hipótese de homogeneidade das r amostras das populações relativamente à classificação nas categorias da variável C (coluna). Assim, as hipóteses são:

Objetivo Hipótese
Homogeneidade das populações
$ \left\{\begin{array}{l}H_0: \mbox{As R populações são homogêneas}\\H_1:\mbox{Existe pelo menos  um índice i,k com}~ i\neq k~\mbox{para os quais as R populações}\\\quad\quad\mbox{não  são homogêneas.}\end{array}\right. $

 

Teste Qui-Quadrado para homogeneidade

 

O teste Qui-Quadrado de independência (que foi discutido na seção 2.2) é um teste sobre uma amostra a partir de uma única população. Cada indivíduo da população é classificada em duas formas (atividade e doença psiquiátrica). Agora, discutimos um segundo tipo de teste Qui-Quadrado, que pode ser usado para comparar as proporções em diferentes populações.

Definição: Em um teste Qui-Quadrado de homogeneidade, podemos testar a afirmação de que diferentes populações têm a mesma proporção de indivíduos com alguma característica.

Voltando a equação (3.2.1), temos que o estimador de máxima verosimilhança de pj|i é dada por

$$\hat{p}_{j|_i}=\cfrac{O_{ij}}{n_{i.}}~~~~~~j=1,\dots,c$$

Mas, se a hipótese H0 (hipótese de homogeneidade) é válida, sabemos que

$$p_{j|_1} = p_{j|_2} = \dots =p_{j|_r} = p_j~~~~~~j=1,\dots,c$$

Logo, os estimadores de máxima verosimilhança de pj|i=pj são:

$$\hat{p}_{j|_i}=\hat{p}_j=\cfrac{\displaystyle\sum^r_{i=1}O_{ij}}{n}=\cfrac{O_{.j}}{n}~~~~~~j=1,\dots,c$$

Os estimadores de máxima verosimilhança das frequências esperadas Fj|i ,sob a hipótese nula H0 válida, é dada por:

$$E_{j|_i}=n_{i.}~\hat{p}_{j|_i}=\cfrac{n_{i.}~O_{.j}}{n}~~~~~~j=1,\dots,c$$

Portanto, sendo (Oi1,Oi2,...,Oic) o vetor de frequências da amostra i, e admitindo que é válida a hipótese de homogeneidade no critério de classificação. Temos que a estatística

$$Q^2_{c|i}=\sum^c_{j=1}\cfrac{(O_{ij}-E_{j|i})^2}{E_{j|i}}$$

tem distribuição assintótica com (c-1) graus de liberdade.

Se repetirmos o mesmo raciocínio para as r amostras, vamos somar r variáveis com distribuição Qui-Quadrado, ou seja, a estatística de teste

$$Q^2_{obs}=\sum^r_{i=1}Q^2_{c|i}=\sum^r_{i=1}\sum^c_{j=1}\cfrac{(O_{ij}-E_{j|i})^2}{E_{j|i}}$$

tem distribuição assintótica Qui-Quadrado com (r-1)(c-1) graus de liberdade.

Pela expressão da estatística Q2obs podemos entender qual a região crítica do teste de homogeneidade. Quando não ocorre homegeneidade é natural que as frequências observadas Oij sejam substancialmente diferentes das frequências que esperamos observar quando a homogeneidade ocorre (Ej|i). Então devemos rejeitar a hipótese H0 de homogeneidade da distribuição de probabilidade das categorias de classificação da variável C (coluna), para todas as amostras, quando a estatística Q2obs é maior que um ponto crítico $ \chi^2_{\alpha} $ usando a Tabela da distribuição Qui-Quadrado - Apêndice ou usando o software Action (ver manual Action módulo Distribuições).

Assim, dado um nível de significância $ \alpha $, o p-valor é determinado por

$$\mbox{p-valor}=P[Q^2_{obs}\textgreater \chi^2_{\alpha;(r-1)(c-1)}|H_0]$$

 

Contagem dos Graus de Liberdade

 

O número total de frequências numa tabela de contingência r x c é rc. Como é conhecida a quantidade de cada amostra (correspondente ao total de cada linha), a distribuição em cada amostra das frequências de classificação pelas c categorias da variável C (coluna), é feita com uma restrição. Assim em cada uma das r linhas temos livres apenas (c-1) frequências. Conhecendo os c totais das colunas, por exemplo, na última as frequências ficam imediatamente determinadas. Assim nesta última linha os valores não são livres. Consequentemente, temos como independentes as frequências de (r-1) amostras, cada uma como (c-1) frequências independentes. Então o total de graus de liberdade será de (r-1)(c-1).