O estudo de Correlação é um método de análise de relação entre duas variáveis, e tem o objetivo de avaliar e mensurar:
Se a relação é direta ou inversa;
Se a relação é perfeita, forte, moderada ou fraca.
A existência de correlação não implica, necessariamente, em relação de causa-e-efeito entre as variáveis envolvidas.
Escolha do Teste de Correlação
Correlação de Pearson
Dados devem ser representados por variáveis quantitativas ou dados intervalares
Dados normalmente distribuídos (Teste de Kolmogorov-Smirnov ou Teste de Shapiro-Wilk)
Por estas características, se enquadra como um teste paramétrico
Correlação de Spearman
Relação entre duas variáveis, com pelo menos uma qualitativa
Tamanho da amostra superior a 30 elementos
Correlação de Kendall
Relação entre duas variáveis, com pelo menos uma qualitativa
Tamanho da amostra igual ou inferior a 30 elementos
Correlação Bisserial
Relação entre duas variáveis, quando uma delas é dicotômica
A varivel subjacente é contínua
Correlação Bisserial por Ponto
Relação entre duas variáveis, quando uma delas é dicotômica
A variável subjacente é discreta
Correlação Linear de Pearson
Se o propósito é de avaliar a relação entre duas variáveis quantitativas, a Correlação de Pearson pode ser utilizada.
Nestes problemas, as variáveis são estudadas simultaneamente a fim de se verificar como estão inter-relacionadas, ou como frequentemente encontram-se na prática, descrever ou predizer fenômenos observados, estabelecendo uma provável forma de relação entre as variáveis quantitativas para estimar o valor de uma variável correspondente a um dado valor de outra variável.
Os problemas de correlação surgem quando se quer verificar a existência ou não de uma relação entre um par de variáveis de interesse. Assim, por exemplo, poderiam estar interessados em saber se há alguma relação entre fumo e doença do coração, entre peso e altura, entre sensibilidade e vocação para música, entre beleza e inteligência. Utilizando da correlação, pode-se medir o grau de relação existente entre as variáveis: - Direção: Direta (Positiva) ou Inversa (Negativa) - Força: Perfeita, Forte, Moderada ou Fraca
Exemplos de aplicação: - preço de um artigo e a quantidade procurada - temperatura ambiente e o rendimento de um motor - renda per capita de países e o analfabetismo - peso e altura - sensibilidade e vocação para a música - beleza e inteligência |
Interpretação Gráfica
A investigação da relação existente entre duas variáveis começa com uma tentativa para descobrir a forma aproximada dessa relação, por meio de um gráfico, denominado diagrama de dispersão. Assim, uma maneira possível de visualizar a correlação entre as observações de duas variáveis é utilizando do Diagrama de Dispersão, que é um gráfico em que valores destas variáveis são representados por pontos, num, sistema Cartesiano. Esta representação é feita sob a forma de pares ordenados (Xi, Yi), em que Xi é o valor observado de uma variável independente e Yi é o correspondente valor da outra variável dependente (ou variável resposta).
Segue esquema para exemplificar a interpretação gráfica:
No caso de correlação nula ou inexistente, a representação gráfica pareceria com um dos exemplos:
Exemplo de relação: A tabela apresenta a produção mensal de suco pronto e o respectivo custo. Diagrama de dispersão entre Produção e Custo total: |
Coeficiente de Correlação
O coeficiente de correlação linear (ou coeficiente de correlação de Pearson) mede o grau de dependência linear entre Xi e Yi, isto é, mede o grau de tendência de que os pontos do diagrama de dispersão se agrupam segundo uma reta.
O coeficiente de correlação denotado por r é calculado por uma amostra de n pares de observações Xi e Yi. O r é uma estimativa de parâmetro que mede a aderência ou qualidade do ajuste à verdadeira reta.
O coeficiente de correlação é dado por
O coeficiente de correlação linear $r$ é uma medida cujo valor se situa no intervalo compreendido pelos valores –1 e +1 ou -1 < r < +1.
A correlação será tanto mais forte quando mais próximo estiver o resultado de + ou - 1. A correlação será tanto mais fraca quanto mais próximo estiver o resultado de 0.
Segue esquema para interpretação do coeficiente de correlação:
Estatística do teste
A hipótese do teste de correlação é a seguinte: H0 : as variáveis são independentes H1 : as variáveis são correlacionadas A estatística parte do t de Student, com (n – 2) graus de liberdade, dada por:
Correlação por Postos de Spearman
De todas as estatística baseadas em postos, o coeficiente de correlação por postos de Spearman foi a que surgiu primeiro e é talvez a mais conhecida hoje. Esta estatística, por vezes designada p (Rô), é uma medida de associação que exige que ambas as variáveis se apresentem em escala de mensuração pelo menos ordinal, de modo que os objetos ou indivíduos em estudo possam dispor-se em postos em duas séries ordenadas.
Considere-se o problema de determinar o grau de associação entre variáveis ordinárias às quais é possível atribuir postos ou “graduação” a partir da presença de uma característica particular.
O posto de um valor, em conjunto de n valores é um número que indica sua posição no conjunto ordenado (crescente ou decrescente), do primeiro ou n-ésimo elemento do conjunto.
Exemplo de organização dos postos No conjunto formado pela altura e peso de dez alunos, pode-se ordenar seus elementos segundo o posto: Os postos para Xi e Yi foram designados na ordem crescente: Xi : 1º lugar para a maior altura Yi : 1º lugar par a maior idade |
Coeficiente de Correlação
A fórmula para o cálculo do coeficiente de correlação de Spearman é dada por:
Em que Di = Xi - Yi a diferença entre os postos de Xi e Yi.
Estatística do teste
A hipótese do teste de correlação é a seguinte: H0 : não há correlação de postos entre as variáveis H1 : há correlação de postos entre as variáveis A estatística parte do t de Student, com (n – 2) graus de liberdade, dada por:
Correlação por Postos de Kendall
A Correlação por Postos de Kendall tem estratégia semelhante a de Spearman e é expressa pelo símbolo t (tau). Deve ser usada quando:
Pressupostos de normalidade não são atendidos
Os dados são variáveis ordinais
O conjunto de dados é pequeno
A classificação realizada para o cálculo do $\rho$ de Spearman apresentou muitos ”empates”
Exemplo de organização dos postos No conjunto formado pela classificação e horas assistidas de 7 elementos, pode-se ordenar os pares e classificar de acordo com a concordância da posição: O número de concordâncias (C) e discordâncias (D) é utilizado no cálculo do coeficiente de correlação. |
Coeficiente de Correlação
A fórmula para o cálculo do coeficiente de correlação de Kendall é dada por:
Em que nC é a quantidade de ocorrências de C e nD é a quantidade de ocorrências de D.
Correlação Bisserial
Método adequado para analisar a relação entre duas variáveis, quando uma delas é dicotômica. A variável pode ser naturalmente dicotômica, como se o lançamento de uma moeda resulta em cara ou coroa, ou uma variável dicotomizada artificialmente (por meio de transformação, por exemplo).
O método é matematicamente equivalente à correlação de Pearson e é subdividido em dois tipos de teste:
Bisserial: Quando a variável subjacente é contínua
Bisserial por Ponto: Quando a variável subjacente é discreta
Coeficiente de Correlação
O cálculo do coeficiente de correlação bisserial segue os moldes de Pearson.
No caso de correlação bisserial, o cálculo do coeficiente pode ser feito da seguinte forma:
Em que u é a ordenada da distribuição normal.
No caso de correlação bisserial por ponto, o cálculo do coeficiente pode ser feito da seguinte forma:
Correlações Parciais
Deve ser usada quando queremos avaliar a relação entre duas variáveis, tendo uma terceira variável controlada, sabendo que esta terceira variável também se correlaciona com as demais.
Na correlação parcia busca-se identificar a parcela de variância exclusiva entre um par de variáveis quando se trata de correlação múltipla.
Referências: prof. Wesley Almeida, Escola de Negócios, PUCPR NUNES, Elvira Maria Alves; ALMEIDA, Wesley Marcos. Estatística Aplicada Usando Excel. Maringá: EDUEM, 2016.
Comments