A forma mais adequada de representar variável contínua é com a utilização de Medidas Descritivas. As medidas descritivas são agrupadas de acordo com sua função:
Medidas de Posição ou de Tendência Central: indica o ponto central de uma distribuição de dados (conjunto de dados que compõem a amostra);
Medidas de Dispersão: indica o grau de variabilidade dos dados, ou seja, o quanto os dados da amostra estão distantes do ponto central;
Medidas de Simetria: mede o quanto uma distribuição se afasta da condição de simetria dos dados;
Medidas de Curtose: caracteriza a distribuição de acordo com o achatamento.
Medidas de Posição
Medidas de Posição ou de Tendência Central são medidas que objetivam representar o ponto central de equilíbrio de uma distribuição de dados, são elas: a média, a mediana, a moda e as separatrizes.
Média
A média () é a medida mais utilizada e difundida. Representa o ponto de equilíbrio de um conjunto de dados. Seja (Xi,......., Xn) um conjunto de dados.
Média simples (dados não agrupados):
(dados amostrais)
(dados populacionais)
Exemplo: Em uma determinada amostra de trabalhadores da área Comercial, ao coletar o salário, obtivemos os seguintes valores: X = [ R$ 2.110,00 , R$ 1.843,00 , R$ 2.400,00 , R$ 1.981,00 , R$ 2.523,00 , R$ 2.400,00 ] X~ = { 2.110,00 + 1.843,00 + 2.400,00 + 1.981,00 + 2.523,00 + 2.400,00 ) / 6 = 2.209,50 Resultado: O salário médio da amostra de trabalhadores da área Comercial é de R$ 2.209,50 |
Média Ponderada: útil quando é preciso calcular a média em situações em que os dados possuem peso
Xi = valores da amostra Pi = pesos atrelados aos valores
Exemplo: Em uma amostra temos atividades avaliativas, o peso correspondente a cada atividade e suas notas equivalentes: X~ = ( 25x7,2 + 30x7,8 + 30x8,9 + 15x9,3 ) / ( 25+30+30+15 ) = 8205 / 100 = 8,21 Resultado: A nota média da amostra é de 8,21 |
Dados agrupados: útil em casos em que os dados estão agrupados, em forma de Distribuição de Frequência
Tem função similar a média ponderada, mas com ponderação pela frequência e não pelo peso
Moda
A moda (Mo) indica o valor que ocorre com maior frequência na amostra.
Dados não agrupados:
Selecionar o valor que tem maior frequência.
Dados agrupados (Distribuição de Frequência):
em que i representa a classe de maior frequência Fi-1 = frequência absoluta anterior à classe que contém a moda Fi+1 = frequência absoluta posterior à classe que contém a moda
Classificação da moda:
amodal (nenhum ou mais de dois valores que mais se repetem)
modal (um valor que mais se repete)
bimodal (dois valores que mais se repetem)
Exemplo: Em uma determinada amostra de trabalhadores da área Comercial, ao coletar o salário, obtivemos os seguintes valores: X = [ R$ 2.110,00 , R$ 1.843,00 , R$ 2.400,00 , R$ 1.981,00 , R$ 2.523,00 , R$ 2.400,00 ] Resultado: O salário com maior frequência entre os trabalhadores da área Comercial que compõem a amostra é de R$ 2.400,00 |
Mediana
A mediana (Md) de um conjunto de valores ordenados, segundo uma ordem de grandeza, é a medida que divide o conjunto em duas partes iguais, 50% dos valores estão abaixo da Md e 50% dos valores acima da Md.
Dados não agrupados: Selecionar o elemento do meio (sem caso de tamanho ímpar, calcular a média dos dois elementos do meio)
Dados agrupados (Distribuição de Frequência):
em que:
p=n/2 é a posição central da série ou posição do elemento mediano;
i é a classe mediana, isto é, é a classe que contém a mediana;
li é limite inferior da classe que contém a mediana;
Fi é frequência absoluta da classe que contém a mediana;
h é amplitude da classe que contém a mediana;
Fac.ant é frequência acumulada anterior à classe que contém a mediana.
Exemplo: Em uma determinada amostra de trabalhadores da área Comercial, ao coletar o salário, obtivemos os seguintes valores (ordem crescente): X = [ R$ 1.843,00 , R$ 1.981,00 , R$ 2.110,00 , R$ 2.400,00 , R$ 2.400,00 , R$ 2.523,00 ] X~ = 2110,00 + 2400,00 / 2 = 2.255,00 Resultado: 50% da amostra de trabalhadores da área Comercial ganham acima ou abaixo de R$ 2.255,00 |
Medidas Separatrizes
Quartis (Qi): denominamos quartis os valores de uma série que a divide em quatro partes iguais. Indicamos por: Q1, Q2 e Q3.
Decis (Di):denominamos decis os nove valores de uma série que a divide em dez partes iguais. Indicamos por: D1,..,D9.
Percentis (Pi): denominamos percentis os 99 valores de uma série que a divide em 100 partes iguais. Indicamos por: P1,...P99.
As medidas separatrizes são calculadas pela fórmula:
em que
i é a classe que contém a separatriz (Qi, Di, Pi);
S é a separatriz desejada (Md, Qi, Di, Pi);
K é a ordem da separatriz:
K = 1 para a mediana;
K = 1, 2, 3 para os quartis;
K = 1, ....,9 para os decis;
K = 1, ..., 99 para os percentis;
p é a posição da separatriz desejada e é calculada pela expressão: p=(n…ou…N)/(2...ou...4...ou...10...ou...100) * K
Segue esquema para ilustrar a representação das separatrizes em comparação à mediana:
Medidas de Dispersão
São medidas estatísticas que visam fornecer o grau de variabilidade dos dados pesquisados, utilizando como referência uma medida de tendência central. As medidas de dispersão são importantes em termos de análise, pois dois ou mais conjuntos de dados podem estar centrados em um mesmo valor (medidas de tendência central), mas seus valores poderão estar muito mais dispersos num conjunto do que no outro. As medidas de dispersão que nos interessam são a amplitude, a variância, o desvio-padrão e o coeficiente de variação.
Amplitude Total
A amplitude total (AT) é a diferença entre o maior e o menor valor observado.
Dados não agrupados: AT = Xmáximo – Xmínimo
Dados agrupados (Distribuição de Frequência): Neste caso, a AT é dada pela diferença entre o limite superior da última classe e o limite inferior da primeira classe.
AT = Lmáximo – Lmínimo
A amplitude total não é muito utilizada como medida de dispersão, dado que ela contém relativamente pouca informação quanto à dispersão, pois seu cálculo depende de apenas dois valores do conjunto de dados. Aplicações da amplitude total como medida de dispersão podem ser encontradas em controle de qualidade.
Variância
A variância dá uma ideia geral do comportamnto dos dados em torno de sua média, medindo o grau de homogeneidade dos seus elementos. Quanto menor for a variância, mais homogênea será a população em relação às outras.
Por definição, a variância de um conjunto de dados é a média dos quadrados das diferenças dos valores em relação à sua média, ou seja, é a medida que fornece o grau de variabilidade dos dados em torno da média. Para se ter uma melhor ideia, deve-se usar o desvio-padrão, que é a raiz quadrada da variância, tendo este a mesma unidade de grandeza dos elementos amostrados.
Dados não agrupados:
(dados amostrais)
(dados populacionais)
Dados agrupados (Distribuição de Frequência):
(dados amostrais)
(dados populacionais)
Exemplo: Em uma determinada amostra de trabalhadores da área Comercial, ao coletar o salário, obtivemos os seguintes valores: X = [ R$ 2.110,00 , R$ 1.843,00 , R$ 2.400,00 , R$ 1.981,00 , R$ 2.523,00 , R$ 2.400,00 ] Resultado: R$ 73.459,00 |
Desvio-padrão
Sendo a variância calculada a partir dos quadrados dos desvios, ela é um número em unidade quadrada em relação à variável em questão, o que, sob o ponto de vista prático é inconveniente. Por isso mesmo, imaginou-se uma nova mediada que tem utilidade e interpretação prática, denominada desvio-padrão, definida como a raiz quadrada da variância e representada por:
(dados amostrais)
(dados populacionais)
O desvio-padrão se expressa na mesma unidade da variável, portanto, nas aplicações práticas é mais utilizada que a variância.
Exemplo: Em uma determinada amostra de trabalhadores da área Comercial, ao coletar o salário, obtivemos os seguintes valores: Variância: R$ 73.459,00 Resultado: R$ 271,03 |
Coeficiente de variação
É obtido pela relação entre o desvio padrão e a média e expressa esta dispersão em forma de coeficiente, ou seja, percentual. O uso de percentual facilita a interpretação da representatividade da média.
(dados amostrais)
(dados populacionais)
Interpretação do Coeficiente de Variação
quando o coeficiente de variação é menor que 10%, a média tem ótima representatividade, porque existe uma pequena dispersão (desvio-padrão) dos dados em torno da média;
quando o coeficiente de variação está contido no intervalo de 10 |— 20%, a média tem boa representatividade porque existe uma média dispersão dos dados em torno da média;
quando o coeficiente de variação está contido num intervalo de 20 |— 35%, a média tem razoável representatividade porque existe razoável dispersão dos dados em torno da média;
quando o coeficiente de variação está contido num intervalo de 35 |— 50%, a média tem fraca representatividade porque existe grande dispersão dos dados em torno da média;
quando o coeficiente de variação está acima de 50%, não existe representatividade da média porque tem grandíssima dispersão dos dados em torno da média.
Exemplo: Em uma determinada amostra de trabalhadores da área Comercial, ao coletar o salário, obtivemos os seguintes valores: Média: R$ 2.209,50 e Desvio padrão: R$ 271,03 Resultado: Com CV de 12,27%, o salário médio tem boa capacidade de representar a amostra dos trabalhadores da área comercial. |
Medidas de Curtose (ou Achatamento)
Essas medidas procuram caracterizar a forma da distribuição quanto ao seu achatamento. O termo médio de comparação é dado pela distribuição normal. Assim, a caracterização do achatamento de uma distribuição só tem sentido, em termos práticos, se a distribuição for pelo menos aproximadamente simétrica. Elas se classificam em:
Leptocúrtica: distribuição com uma curva de frequência mais fechada que a normal. Platicúrtica: distribuição com uma curva de frequência mais aberta que a normal. Mesocúrtica: distribuição com uma curva de frequência normal.
As medidas de curtose podem ser calculadas por meio da expressão (Coeficiente de curtose):
Classificação de K:
a) Leptocúrtica: K > 0,263 b) Mesocúrtica: K = 0,263 c) Platicúrtica: K < 0,263
Medidas de Simetria
Tem por objetivo básico medir o quanto uma distribuição se afasta da condição de simetria.
Assimétrica Positiva: a média é maior que a mediana que é maior que a moda.
Simétrica: a média, moda e mediana são iguais.
Assimétrica Negativa: a média é menor que a mediana que é menor que a moda.
Uma medida possível para quantificar a assimetria de uma distribuição é a dada pelo primeiro coeficiente de assimetria de Pearson (Coeficiente de Assimetria):
(dados amostrais)
(dados populacionais)
Classificação de AS: a) AS = > 0 (assimétrica positiva) b) AS = 0 (simétrica) c) AS = < 0 (assimétrica negativa)
Referências: prof. Wesley Almeida, Escola de Negócios, PUCPR NUNES, Elvira Maria Alves; ALMEIDA, Wesley Marcos. Estatística Aplicada Usando Excel. Maringá: EDUEM, 2016.
Comments