top of page
Foto do escritorWesley Almeida

Correlação entre Variáveis

O estudo de Correlação é um método de análise de relação entre duas variáveis, e tem o objetivo de avaliar e mensurar:

  • Se a relação é direta ou inversa;

  • Se a relação é perfeita, forte, moderada ou fraca.

A existência de correlação não implica, necessariamente, em relação de causa-e-efeito entre as variáveis envolvidas. 


Escolha do Teste de Correlação

Correlação de Pearson

  • Dados devem ser representados por variáveis quantitativas ou dados intervalares

  • Dados normalmente distribuídos (Teste de Kolmogorov-Smirnov ou Teste de Shapiro-Wilk)

  • Por estas características, se enquadra como um teste paramétrico

Correlação de Spearman

  • Relação entre duas variáveis, com pelo menos uma qualitativa

  • Tamanho da amostra superior a 30 elementos

Correlação de Kendall

  • Relação entre duas variáveis, com pelo menos uma qualitativa

  • Tamanho da amostra igual ou inferior a 30 elementos

Correlação Bisserial

  • Relação entre duas variáveis, quando uma delas é dicotômica

  • A varivel subjacente é contínua

Correlação Bisserial por Ponto

  • Relação entre duas variáveis, quando uma delas é dicotômica

  • A variável subjacente é discreta


Correlação Linear de Pearson

Se o propósito é de avaliar a relação entre duas variáveis quantitativas, a Correlação de Pearson pode ser utilizada.

Nestes problemas, as variáveis são estudadas simultaneamente a fim de se verificar como estão inter-relacionadas, ou como frequentemente encontram-se na prática, descrever ou predizer fenômenos observados, estabelecendo uma provável forma de relação entre as variáveis quantitativas para estimar o valor de uma variável correspondente a um dado valor de outra variável.

Os problemas de correlação surgem quando se quer verificar a existência ou não de uma relação entre um par de variáveis de interesse. Assim, por exemplo, poderiam estar interessados em saber se há alguma relação entre fumo e doença do coração, entre peso e altura, entre sensibilidade e vocação para música, entre beleza e inteligência. Utilizando da correlação, pode-se medir o grau de relação existente entre as variáveis: - Direção: Direta (Positiva) ou Inversa (Negativa) - Força: Perfeita, Forte, Moderada ou Fraca

Exemplos de aplicação:

- preço de um artigo e a quantidade procurada

- temperatura ambiente e o rendimento de um motor

- renda per capita de países e o analfabetismo

- peso e altura

- sensibilidade e vocação para a música

- beleza e inteligência


Interpretação Gráfica

A investigação da relação existente entre duas variáveis começa com uma tentativa para descobrir a forma aproximada dessa relação, por meio de um gráfico, denominado diagrama de dispersão. Assim, uma maneira possível de visualizar a correlação entre as observações de duas variáveis é utilizando do Diagrama de Dispersão, que é um gráfico em que valores destas variáveis são representados por pontos, num, sistema Cartesiano. Esta representação é feita sob a forma de pares ordenados (Xi, Yi), em que Xi é o valor observado de uma variável independente e Yi é o correspondente valor da outra variável dependente (ou variável resposta).

Segue esquema para exemplificar a interpretação gráfica:


No caso de correlação nula ou inexistente, a representação gráfica pareceria com um dos exemplos:


Exemplo de relação:

A tabela apresenta a produção mensal de suco pronto e o respectivo custo.


Diagrama de dispersão entre Produção e Custo total:



Coeficiente de Correlação

O coeficiente de correlação linear (ou coeficiente de correlação de Pearson) mede o grau de dependência linear entre Xi e Yi, isto é, mede o grau de tendência de que os pontos do diagrama de dispersão se agrupam segundo uma reta.

O coeficiente de correlação denotado por r é calculado por uma amostra de n pares de observações Xi e Yi. O r é uma estimativa de parâmetro que mede a aderência ou qualidade do ajuste à verdadeira reta.

O coeficiente de correlação é dado por







O coeficiente de correlação linear $r$ é uma medida cujo valor se situa no intervalo compreendido pelos valores –1 e +1 ou -1 < r < +1.

A correlação será tanto mais forte quando mais próximo estiver o resultado de + ou - 1. A correlação será tanto mais fraca quanto mais próximo estiver o resultado de 0.

Segue esquema para interpretação do coeficiente de correlação:


Estatística do teste

A hipótese do teste de correlação é a seguinte: H0 : as variáveis são independentes H1 : as variáveis são correlacionadas A estatística parte do t de Student, com (n – 2) graus de liberdade, dada por:



Correlação por Postos de Spearman

De todas as estatística baseadas em postos, o coeficiente de correlação por postos de Spearman foi a que surgiu primeiro e é talvez a mais conhecida hoje. Esta estatística, por vezes designada p (Rô), é uma medida de associação que exige que ambas as variáveis se apresentem em escala de mensuração pelo menos ordinal, de modo que os objetos ou indivíduos em estudo possam dispor-se em postos em duas séries ordenadas.


Considere-se o problema de determinar o grau de associação entre variáveis ordinárias às quais é possível atribuir postos ou “graduação” a partir da presença de uma característica particular.


O posto de um valor, em conjunto de n valores é um número que indica sua posição no conjunto ordenado (crescente ou decrescente), do primeiro ou n-ésimo elemento do conjunto.


Exemplo de organização dos postos

No conjunto formado pela altura e peso de dez alunos, pode-se ordenar seus elementos segundo o posto:















Os postos para Xi e Yi foram designados na ordem crescente:

Xi : 1º lugar para a maior altura

Yi : 1º lugar par a maior idade

Coeficiente de Correlação

A fórmula para o cálculo do coeficiente de correlação de Spearman é dada por:




Em que Di = Xi - Yi a diferença entre os postos de Xi e Yi.


Estatística do teste

A hipótese do teste de correlação é a seguinte: H0 : não há correlação de postos entre as variáveis H1 : há correlação de postos entre as variáveis A estatística parte do t de Student, com (n – 2) graus de liberdade, dada por:






Correlação por Postos de Kendall

A Correlação por Postos de Kendall tem estratégia semelhante a de Spearman e é expressa pelo símbolo t (tau). Deve ser usada quando:

  • Pressupostos de normalidade não são atendidos

  • Os dados são variáveis ordinais

  • O conjunto de dados é pequeno

  • A classificação realizada para o cálculo do $\rho$ de Spearman apresentou muitos ”empates”

Exemplo de organização dos postos

No conjunto formado pela classificação e horas assistidas de 7 elementos, pode-se ordenar os pares e classificar de acordo com a concordância da posição:

O número de concordâncias (C) e discordâncias (D) é utilizado no cálculo do coeficiente de correlação.

Coeficiente de Correlação

A fórmula para o cálculo do coeficiente de correlação de Kendall é dada por:




Em que nC é a quantidade de ocorrências de C e nD é a quantidade de ocorrências de D.



Correlação Bisserial

Método adequado para analisar a relação entre duas variáveis, quando uma delas é dicotômica. A variável pode ser naturalmente dicotômica, como se o lançamento de uma moeda resulta em cara ou coroa, ou uma variável dicotomizada artificialmente (por meio de transformação, por exemplo).

O método é matematicamente equivalente à correlação de Pearson e é subdividido em dois tipos de teste:

  • Bisserial: Quando a variável subjacente é contínua

  • Bisserial por Ponto: Quando a variável subjacente é discreta

Coeficiente de Correlação

O cálculo do coeficiente de correlação bisserial segue os moldes de Pearson.

No caso de correlação bisserial, o cálculo do coeficiente pode ser feito da seguinte forma:






Em que u é a ordenada da distribuição normal.

No caso de correlação bisserial por ponto, o cálculo do coeficiente pode ser feito da seguinte forma:





Correlações Parciais

Deve ser usada quando queremos avaliar a relação entre duas variáveis, tendo uma terceira variável controlada, sabendo que esta terceira variável também se correlaciona com as demais.

Na correlação parcia busca-se identificar a parcela de variância exclusiva entre um par de variáveis quando se trata de correlação múltipla.



Referências: prof. Wesley Almeida, Escola de Negócios, PUCPR NUNES, Elvira Maria Alves; ALMEIDA, Wesley Marcos. Estatística Aplicada Usando Excel. Maringá: EDUEM, 2016.
274 visualizações0 comentário

Posts recentes

Ver tudo

Comments


bottom of page