Regressão
Geralmente, estuda-se a relação entre duas variáveis na esperança de que qualquer relação encontrada possa ser usada no sentido de fazer estimativas ou predições de uma das variáveis particulares.
O coeficiente de correlação só mede a força do vínculo entre duas variáveis que se relacionam linearmente e é incapaz de resolver problemas de predição. Os métodos destinados à manipulação de problemas de predição são conhecidos como métodos de regressão.
O objetivo principal da análise de regressão é predizer o valor de uma variável (a variável dependente Yi) dado que seja conhecido o valor de uma variável (variável independente Xi). A equação de regressão é a fórmula algébrica pela qual se determina o valor previsto da variável dependente.
A expressão análise de regressão simples indica que a predição ou estimação da variável dependente é feita com uma variável independente.
Exemplo: Amostra: Nota de teste de Estatística e Matemática de 10 alunos
Utilizando de um diagrama de dispersão, pode-se verificar que Xi e Yi estão relacionados de modo aproximadamente linear. Uma linha reta será então ajustada com o propósito de tentar prever o valor de Yi com base no valor de Xi. |
Estrutura do modelo
Parâmetros ou Coeficientes
São magnitudes que permanecem constantes no âmbito de um fenômeno concreto;
Termo Aleatório ou Ruído
É a expressão de um grande número de pequenas causas que produzem um desvio em relação ao que a variável dependente deveria ser, caso a relação fosse determinística. Esse termo indica:
Variáveis omitidas;
Imprevisibilidade do comportamento humano;
Variação do comportamento entre indivíduos;
Erros de medida na variável dependente;
Especificações imperfeitas das relações.
Variáveis
Podem ser classificados como dependentes ou explicadas e independentes ou explicativas. O Conjunto de variáveis explicativas mais o termo constante são também chamados de regressores;
Relações ou Equações
Descrevem ou expressam o mecanismo de determinado fenômeno, podendo ser classificado como:
Relações de comportamento: Equação da oferta, equação da demanda;
Relações Institucionais ou Legais: Refletem efeitos provocados na atividade econômica por leis e normas. Por exemplo, ICMS = f(Faturamento);
Relações Técnicas: Expressam as condições do processo de fabricação ou produção. Por exemplo: Função de Produção;
Relações Contábeis ou Definições: Expressam identidades entre magnitudes econômicas. Por exemplo: Lucro = Receita - Custo; PL = Ativo - Passivo.
Regressão Linear Simples
Suponha-se ser a linha teórica de regressão uma reta e que se queira estabelecer a regressão de Yi (variável dependente) em função de Xi (variável independente). Logo, a função que se deseja obter é da seguinte forma:
Em que a componente e aleatória representa a influência de outros fatores, bem como os erros de medição da variável Yi. Ao estabelecer o modelo de regressão linear simples, precisa-se que:
a média do erro seja nula, isto é, E(ei) = 0
= variância residual
Os erros têm distribuição normal
O erro de uma observação seja independente do erro de outra observação, isto é, E(ei, ej) = 0 para todo i diferente de j
Pelos pontos experimentais (da amostra), estima-se o parâmetro e da reta teórica, obtendo uma reta estimativa na forma:
Reta da Regressão
Como se trata de Regressão Linear, busca-se uma reta que melhor se aproxime dos pontos grafados num diagrama de dispersão.
Há diversos métodos para a obtenção da reta desejada, o método mais conhecido para problemas de regressão é o método de mínimos quadrados. A reta que melhor se ajusta é aquela cujo somatório de quadrados das diferenças entre os valores observados de Y e o valor de Y obtido pela reta, seja o menor possível.
Em uma reta tem equação do tipo Y = a + bX (simplificação da equação estimada), deve-se obter os valores dos coeficientes a e b de modo que se tenha a reta que melhor se ajuste aos pontos.
Deve-se procurar a reta para qual se consiga minimizar a soma das diferenças. A ideia central desse procedimento é simplesmente a de minimizar a variação residual em torno da reta estimativa.
Teste de Hipótese
A hipótese estatística no teste de regressão é delineada da seguinte forma: H0 : Não há regressão linear entre as variáveis Xi e Yi H1 : Há regressão linear entre as variáveis Xi e Yi
Como
assumimos que tem distribuição normal, e a variável do teste será obtida a partir do t de Student com n – 2 graus de liberdade.
Como não se conhece o verdadeiro valor de , deve ser estimado por meio do cálculo da variância residual. Desta forma, o cálculo da variável do teste pode ser realizada da seguinte forma:
Em que: Sr2 é a variância residual (quadrado médio do resíduo):
Sxx é a soma dos quadrados totais de Xi:
Coeficiente de Regressão (R2)
Frequentemente denominado coeficiente de determinação (ou explicação), o poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste. Seu valor fornece a proporção da variação total da variável Yi explicada pela variável Xi por meio da função ajustada. Denota-se o coeficiente de determinação por R2, dado por:
Em que 0 ≤ R2 ≤ 1 e mede a proporção da variação de Yi que é explicada pela reta da regressão.
Se R2 = 0, a variação explicada de Yi é zero e a reta ajustada é paralela ao eixo Xi
Se R2 = 1, a reta ajustada explicará todo o modelo
Ou seja:
Quanto mais próximo de zero pior será a “qualidade” do ajuste
Quanto mais próximo da unidade estiver o valor de R2, melhor “a qualidade” do ajuste da função aos pontos do diagrama de dispersão
Previsão a partir do modelo
A partir da equação da reta de regressão, pode-se fazer previsões para o valor da variável dependente Y, atribuindo-se valores para a variável independente X.
Exemplo: Estimar o custo total, para uma produção de 24 mil litros de suco. Equação da regressão: Y = 5572,5 + 0,6565.X Cálculo do custo: Y = 5572,5 + 0,6565.24000 = 21328,50 Conclusão: Com base no modelo obtido, pode-se prever um custo total de R$ 21.328,50. |
Análise dos Resíduos
O cálculo dos resíduos gerados pelo modelo (e) é realizado a partir da diferença simples entre o observado (valores reais) e o esperado (valores previstos).
A análise dos resíduos ajuda na avaliação da qualidade do modelo como ferramenta preditiva. Deve respeitar, pelo menos, dois princípios: os resíduos precisam ser normais e independentes.
Teste de Normalidade: É importante avaliar se os resíduos se enquadram na Distribuição Normal (ver Teste de Normalidade). Se os resíduos não se enquadrarem como normal, pode indicar a necessidade de transformação das variáveis ou adoção de modelo não linear.
Teste de Durbin-Watson: é utilizado para detectar a presença de autocorrelação (dependência) nos resíduos de uma análise de regressão. De forma simplificada, se o valor do teste estiver entre 1,64 e 2,36, podemos assumir que os resíduos são independentes.
Regressão Linear Múltipla
A regressão é dita múltipla quando há duas ou mais variáveis independentes (X1, X2, ..., Xn) com as quais se pretende explicar a variação de uma variável independente (Y). A equação terá o seguinte formato:
Reta da Regressão
Quando há mais de duas variáveis independentes não é possível construir representações gráficas como a reta da regressão linear simples.
Cálculo do Teste
A formulação do teste de hipótese, assim como a interpretação do coeficiente de regressão é similar ao utilizado na regressão linear simples.
Limitações do Modelo Linear
Na maioria dos casos, a regressão é linear em apenas uma parte do intervalo de dados.
As previsões para Y não são confiáveis para valores de X muito distantes dos observados.
Em casos de limitação do uso de modelagem linear, as principais alternativas são:
Transformação da série em linear (anamorfose das variáveis)
Adoção de modelagem não linear (quando a função que melhor explica a relação de causa e efeito entre as variáveis é uma curva)
Transformação de Modelo em Linear
Há numerosos casos de equações de regressão que não são lineares, mas que podem ser consideradas lineares por anamorfose, isto é, por substituição dos valores de uma variável por uma função. Evidentemente, pode-se fazer o mesmo com duas ou mais variáveis se necessário.
Logaritmo: útil quando o intervalo de variação de Y é muito grande
Raiz quadrada: útil quando a variável resposta é uma contagem ou segue distribuição de Poisson
Inversa (1/Y): útil em série com muitos valores próximos de zero e alguns valores muito grandes. A transformação diminui a distância entre os valores
Angular (arcsin): útil se a variável resposta se trata de taxa ou proporção, ou ainda, se segue distribuição Binomial
log-log: aplica transformação logaritma na variável resposta e nas variáveis explicativas. Útil para tornar linear, além de diminuir a variância
Regressão Binária
*(em construção)*
Regressão Logística
*(em construção)*
Regressão Ordinal
*(em construção)*
Comments