top of page
Foto do escritorWesley Almeida

Modelos de Regressão

Atualizado: 2 de mai. de 2022

Regressão


Geralmente, estuda-se a relação entre duas variáveis na esperança de que qualquer relação encontrada possa ser usada no sentido de fazer estimativas ou predições de uma das variáveis particulares.

O coeficiente de correlação só mede a força do vínculo entre duas variáveis que se relacionam linearmente e é incapaz de resolver problemas de predição. Os métodos destinados à manipulação de problemas de predição são conhecidos como métodos de regressão.


O objetivo principal da análise de regressão é predizer o valor de uma variável (a variável dependente Yi) dado que seja conhecido o valor de uma variável (variável independente Xi). A equação de regressão é a fórmula algébrica pela qual se determina o valor previsto da variável dependente.

A expressão análise de regressão simples indica que a predição ou estimação da variável dependente é feita com uma variável independente.

Exemplo: Amostra: Nota de teste de Estatística e Matemática de 10 alunos

  • Matemática (Xi) = { 6 5 9 10 3 4 8 7 6 2 }

  • Estatística (Yi) = { 7 6 10 9 2 3 9 5 6 3 }

Utilizando de um diagrama de dispersão, pode-se verificar que Xi e Yi estão relacionados de modo aproximadamente linear. Uma linha reta será então ajustada com o propósito de tentar prever o valor de Yi com base no valor de Xi.



Estrutura do modelo


Parâmetros ou Coeficientes

São magnitudes que permanecem constantes no âmbito de um fenômeno concreto;


Termo Aleatório ou Ruído

É a expressão de um grande número de pequenas causas que produzem um desvio em relação ao que a variável dependente deveria ser, caso a relação fosse determinística. Esse termo indica:

  • Variáveis omitidas;

  • Imprevisibilidade do comportamento humano;

  • Variação do comportamento entre indivíduos;

  • Erros de medida na variável dependente;

  • Especificações imperfeitas das relações.

Variáveis

Podem ser classificados como dependentes ou explicadas e independentes ou explicativas. O Conjunto de variáveis explicativas mais o termo constante são também chamados de regressores;


Relações ou Equações

Descrevem ou expressam o mecanismo de determinado fenômeno, podendo ser classificado como:

  • Relações de comportamento: Equação da oferta, equação da demanda;

  • Relações Institucionais ou Legais: Refletem efeitos provocados na atividade econômica por leis e normas. Por exemplo, ICMS = f(Faturamento);

  • Relações Técnicas: Expressam as condições do processo de fabricação ou produção. Por exemplo: Função de Produção;

  • Relações Contábeis ou Definições: Expressam identidades entre magnitudes econômicas. Por exemplo: Lucro = Receita - Custo; PL = Ativo - Passivo.


Regressão Linear Simples


Suponha-se ser a linha teórica de regressão uma reta e que se queira estabelecer a regressão de Yi (variável dependente) em função de Xi (variável independente). Logo, a função que se deseja obter é da seguinte forma:





Em que a componente e aleatória representa a influência de outros fatores, bem como os erros de medição da variável Yi. Ao estabelecer o modelo de regressão linear simples, precisa-se que:

  • a média do erro seja nula, isto é, E(ei) = 0


= variância residual

  • Os erros têm distribuição normal




  • O erro de uma observação seja independente do erro de outra observação, isto é, E(ei, ej) = 0 para todo i diferente de j

Pelos pontos experimentais (da amostra), estima-se o parâmetro e da reta teórica, obtendo uma reta estimativa na forma:





Reta da Regressão


Como se trata de Regressão Linear, busca-se uma reta que melhor se aproxime dos pontos grafados num diagrama de dispersão.

Há diversos métodos para a obtenção da reta desejada, o método mais conhecido para problemas de regressão é o método de mínimos quadrados. A reta que melhor se ajusta é aquela cujo somatório de quadrados das diferenças entre os valores observados de Y e o valor de Y obtido pela reta, seja o menor possível.


Em uma reta tem equação do tipo Y = a + bX (simplificação da equação estimada), deve-se obter os valores dos coeficientes a e b de modo que se tenha a reta que melhor se ajuste aos pontos.

Deve-se procurar a reta para qual se consiga minimizar a soma das diferenças. A ideia central desse procedimento é simplesmente a de minimizar a variação residual em torno da reta estimativa.


Teste de Hipótese


A hipótese estatística no teste de regressão é delineada da seguinte forma: H0 : Não há regressão linear entre as variáveis Xi e Yi H1 : Há regressão linear entre as variáveis Xi e Yi


Como

assumimos que tem distribuição normal, e a variável do teste será obtida a partir do t de Student com n – 2 graus de liberdade.

Como não se conhece o verdadeiro valor de , deve ser estimado por meio do cálculo da variância residual. Desta forma, o cálculo da variável do teste pode ser realizada da seguinte forma:






Em que: Sr2 é a variância residual (quadrado médio do resíduo):




Sxx é a soma dos quadrados totais de Xi:






Coeficiente de Regressão (R2)


Frequentemente denominado coeficiente de determinação (ou explicação), o poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste. Seu valor fornece a proporção da variação total da variável Yi explicada pela variável Xi por meio da função ajustada. Denota-se o coeficiente de determinação por R2, dado por:







Em que 0 ≤ R2 ≤ 1 e mede a proporção da variação de Yi que é explicada pela reta da regressão.

  • Se R2 = 0, a variação explicada de Yi é zero e a reta ajustada é paralela ao eixo Xi

  • Se R2 = 1, a reta ajustada explicará todo o modelo

Ou seja:

  • Quanto mais próximo de zero pior será a “qualidade” do ajuste

  • Quanto mais próximo da unidade estiver o valor de R2, melhor “a qualidade” do ajuste da função aos pontos do diagrama de dispersão


Previsão a partir do modelo


A partir da equação da reta de regressão, pode-se fazer previsões para o valor da variável dependente Y, atribuindo-se valores para a variável independente X.

Exemplo: Estimar o custo total, para uma produção de 24 mil litros de suco.

Equação da regressão: Y = 5572,5 + 0,6565.X

Cálculo do custo: Y = 5572,5 + 0,6565.24000 = 21328,50

Conclusão: Com base no modelo obtido, pode-se prever um custo total de R$ 21.328,50.

Análise dos Resíduos


O cálculo dos resíduos gerados pelo modelo (e) é realizado a partir da diferença simples entre o observado (valores reais) e o esperado (valores previstos).

A análise dos resíduos ajuda na avaliação da qualidade do modelo como ferramenta preditiva. Deve respeitar, pelo menos, dois princípios: os resíduos precisam ser normais e independentes.

  • Teste de Normalidade: É importante avaliar se os resíduos se enquadram na Distribuição Normal (ver Teste de Normalidade). Se os resíduos não se enquadrarem como normal, pode indicar a necessidade de transformação das variáveis ou adoção de modelo não linear.

  • Teste de Durbin-Watson: é utilizado para detectar a presença de autocorrelação (dependência) nos resíduos de uma análise de regressão. De forma simplificada, se o valor do teste estiver entre 1,64 e 2,36, podemos assumir que os resíduos são independentes.


Regressão Linear Múltipla


A regressão é dita múltipla quando há duas ou mais variáveis independentes (X1, X2, ..., Xn) com as quais se pretende explicar a variação de uma variável independente (Y). A equação terá o seguinte formato:





Reta da Regressão


Quando há mais de duas variáveis independentes não é possível construir representações gráficas como a reta da regressão linear simples.


Cálculo do Teste


A formulação do teste de hipótese, assim como a interpretação do coeficiente de regressão é similar ao utilizado na regressão linear simples.


Limitações do Modelo Linear


Na maioria dos casos, a regressão é linear em apenas uma parte do intervalo de dados.

As previsões para Y não são confiáveis para valores de X muito distantes dos observados.

Em casos de limitação do uso de modelagem linear, as principais alternativas são:

  • Transformação da série em linear (anamorfose das variáveis)

  • Adoção de modelagem não linear (quando a função que melhor explica a relação de causa e efeito entre as variáveis é uma curva)


Transformação de Modelo em Linear


Há numerosos casos de equações de regressão que não são lineares, mas que podem ser consideradas lineares por anamorfose, isto é, por substituição dos valores de uma variável por uma função. Evidentemente, pode-se fazer o mesmo com duas ou mais variáveis se necessário.

  • Logaritmo: útil quando o intervalo de variação de Y é muito grande

  • Raiz quadrada: útil quando a variável resposta é uma contagem ou segue distribuição de Poisson

  • Inversa (1/Y): útil em série com muitos valores próximos de zero e alguns valores muito grandes. A transformação diminui a distância entre os valores

  • Angular (arcsin): útil se a variável resposta se trata de taxa ou proporção, ou ainda, se segue distribuição Binomial

  • log-log: aplica transformação logaritma na variável resposta e nas variáveis explicativas. Útil para tornar linear, além de diminuir a variância


Regressão Binária

*(em construção)*


Regressão Logística

*(em construção)*


Regressão Ordinal

*(em construção)*

40 visualizações0 comentário

Posts recentes

Ver tudo

Commentaires


bottom of page