Aulas 06 e 07 – Conceitos fundamentais de estatística descritiva – Medidas de dispersão – Jurimetria e Análise Estatística do Direito na Prática

Leitura e links para a aula:

Planilha do Google Spreadsheets com dados de idade dos alunos

Introdução

Um conjunto de dados pode ser caracterizado, além do uso das medidas de tendência central ou de elemento típico, pela dispersão ou variabilidade dos dados. Didaticamente, podemos pensar que dois conjuntos de dados que possui a mesma média podem ser completamente diferentes: um mais “espalhado” outro mais “concentrado”.

Visão intuitiva de variabilidade. Dois conjuntos de dados possuem a mesma média, mas as alturas são muito mais uniformes na mesma sala e divergentes no pátio do colégio.
Demonstração da Curva Normal
Exemplos de conjuntos de dados que possuem a mesma média mas variabilidades completamente diferentes.

Amplitude Total

A amplitude total é a medida mais simples de “espalhamento” dos dados. Ela é a distância entre o maior e o menor elementos do conjunto. Entretanto, trata-se de uma medida muito singela e grosseira.

AT = Max – Min

Amplitude ou Distância Interquartil

Distância interquartil para uma distribuição normal ou gaussiana.

Variância

A amplitude total e a distância interquartil padecem do mesmo problema: são medidas muito simples. Deveríamos usar uma medida que considerasse todos os elementos do conjunto de dados.

Tomemos novamente as idades dos alunos da sala, e usemos a distância de cada um desses elementos até o elemento típico (média). Lembremos que a média para o conjunto é 31,04 anos.

Variância

No exemplo acima, a variância, que é representada pela letra grega sigma ou pela latina s:

s = 2058,9565 / 22 = 93,5889

Desvio Padrão

Desvio Padrão

Entretanto, a medida da variância está em valores quadrados. O que significam 93,5889 anos ao quadrado (ou quilos ao quadrado, ou dias ao quadrado?). O desvio padrão “retorna” a medida para a unidade original. No exemplo, o desvio padrão é de 9,674 anos.

Coeficiente de Variação

O desvio padrão em anos na medida acima 9,6741. Isso significa que o “espalhamento” típico da idade dos alunos em relação ao aluno médio é de 9,674 anos.

Dito de outra maneira, podemos dizer que se o aluno típico possui 31,0434 anos, a “maior parte” dos alunos terá entre 21,3693 anos e 40,717.

Se considermos dois desvios padrão, a maior parte dos alunos terá entre 11,6952 anos e 50,3916 anos. Na presente população, o intervalo de dois desvios padrão engloba a totalidade dos alunos.

Entretanto, como podemos comparar a variação entre escalas de medida diferentes? Vamos supor que queremos comparar os preços de duas listas de compras diferentes, que tenham patamares de preços diferentes – um supermercado popular e ou supermercado de luxo.

Para este caso é útil usar o CV, que é simplesmente uma proporção entre o desvio padrão e a média. Como a média é dada na mesma unidade de medida do desvio padrão, a divisão de s por x resulta numa proporção sem unidade de medida, numa razão.

CV = S / X

Para o presente caso:

9,67 anos / 31,04 anos = 0,31

Ou seja, a distância, “espalhamento” comum de um item em relação à média é de aproximadamente 1/3 da média, ou 31% da média.