티스토리 뷰

728x90
반응형

회귀분석

독립 변수와 종속 변수 사이의 관계를 선형으로 가정하고 함수의 형태를 학습하는 알고리즘입니다. 입력되는 독립 변수에는 양적 입력, 질적 입력이 있으며 그 선형성 확립을 위한 그것들의 변환까지 포함됩니다. 양적 입력의 경우 연속적인 값으로 값끼리 연산이 가능하며 질적 입력인 경우 서로 연산이 불가능하기 때문에 one hot coding(하나의 항목만 1()으로 표시하는 방식)을 통해 값을 표현합니다.


단순회귀분석

단순회귀분석은 회귀분석 중 1개의 독립변수와 종속변수 사이의 관계를 학습하는 기법입니다. 수식으로 y=bx+a+e로 표현할 수 있으며, ay절편, b는 회귀계수, e는 오차를 의미합니다.

오차 e는 독립변수 xi 값 각각에 대해 독립적으로 존재하는 확률변수이며 N(0, σ^2)의 정규분포를 형성한다. 오차는 독립변수로 설명하지 못하는 모든 값들을 설명합니다. 이는 예측하지 못한다는 의미와 동일합니다. 그리고 오차의 평균은 y절편의 값을 조절하여 항상 0이 되도록 바꿀 수 있습니다.

단순회귀분석에서 구해야 하는 값은 y절편과 회귀계수입니다. 그 방법에는 여러 가지가 있는 데 그 중 한 가지가 최소제곱 계수 추정 기법입니다.


최소제곱 계수 추정

최소제곱 계수 추정 기법은 오차(실제 데이터의 종속변수 값과 회구분석을 통해 추정된 종속변수 값의 차이)의 제곱의 합을 최소화하도록 y절편과 회귀계수를 추정하는 기법입니다.

보통 오차의 제곱의 합 D값을 ab에 대해 편미분하여 값이 0이 되도록하는 a, b 값을 추정합니다. a, b 값은 종속변수의 평균 값과 독립 변수의 평균 값에 대해 y=a+bx의 관계가 성립되게 합니다.

이 직선은 관측 값과 예측된 값 사이의 거리를 최소화하는 직선으로써 종속변수와 독립변수 사이의 관계를 잘 나타낸다고 생각할 수 있습니다.

(오차의 절대 값에 대해서도 똑같은 방식으로 값을 계산할 수 있습니다. 하지만 계산 과정에서 제곱의 합이 더욱 유리하며, 나중에 확인할 확률분석의 측면에서도 더욱 타당성을 보이기 때문에 오차의 제곱의 합을 사용합니다.)

최소 제곱 기법을 활용하여 y절편과 회귀계수를 계산한 후 몇 가지 확인을 해야 합니다. 계산된 직선이 단순회귀분석을 하기 전에 세웠던 가정을 만족하는지 파악해야 합니다.

1. 종속변수와 독립변수 사이 직선관계가 성립되어야 하며

2. 오차들은 평균이 0이고 분산이 σ^2인 정규 분포를 형성하는 지 확인해야합니다.

3. 각각의 독립변수에서 오차들은 σ^2의 동일한 분산을 보여야 하며,(등분산성)

4. 오차 간의 연관성이 없어야 합니다.(또 다른 독립 변수를 도입해야 하는지)

가정을 만족하는 지 확인할 때는 오차의 제곱합 D 대신 결정 계수 R^2 값을 사용합니다. 오차의 제곱합 D 또한 필요한 정보를 제공하기는 하지만 절대값만을 제공하므로 상대적인 차이를 고려해주지 못합니다. 따라서 이러한 상대성을 고려하는 결정 계수 R^2를 사용합니다.


결정 계수(coefficient of determination)는 종속변수의 평균에 대한 관측값의 차이 중 회귀분석으로 설명될 수 있는 부분이 얼마나 되는지 나타내는 값입니다. 총변동(SST)에 대한 회귀변동(SSR)의 비율에 해당한다. 결정계수 값이 높을수록 회귀분석은 주어진 데이터를 잘 설명하고 있다고 할 수 있다.


결정 계수을 확인한 후 의존성과 선형성을 만족하는 지 여부 확인으로 모든 종속변수에서 오차가 동일한 분산을 보이고 있는지 확인해야 한다. 이를 잔차분석이라고 한다. 종속변수를 x, 오차를 y축으로 놓은 산점도에서 점이 무작위로 분포해야 잘 적합되었다고 할 수 있다.

최소제곱법은 주어진 데이터에 대해 오차를 작게하는 회귀식을 추정할 수 있지만 데이터 값이 주어질 때마다 회귀식이 변동하는 정도가 큰 편이다. 또한 적은 독립변수를 사용할 경우 설명력이 떨어지는 경우가 생긴다.


다중회귀분석

회귀분석 중 다중회귀분석은 종속 변수에 2개 이상의 독립 변수가 영향을 미치는 경우에 사용한다. 이렇게 학습된 모델을 다중회귀모형(multiple linear regression model)이라고 한다.

다중회귀분석의 경우 제곱항이 포함되는 것 이외에 대부분은 단순회귀가 비슷합니다. 다만 식을 표현할 때는 행렬을 이용합니다.

다중회귀식을 행렬로 표현하고 최소제곱 추정 기법을 사용하기 위해서는 x’x의 역행렬이 존재해야 하며 그렇지 않은 해당 기법을 사용할 수 없습니다.

마찬가지로 y절편과 회귀계수를 구한 후 결정 계수와 잔차 분석을 수행하여 선형회귀분석의 가정을 만족하는 지 확인해야 합니다.

회귀분석을 하는 것은 한정된 독립변수로 종속 변수를 표현하는 것이기 때문에 벡터의 측면에서 보면 독립변수의 벡터평면에 종속 변수 벡터를 투영하는 것으로 생각할 수 있습니다.


곡선회귀분석

곡선회귀분석은 독립변수와 종속변수 사이의 관계가 선형이 아닌 곡선이 적절하다고 생각될 때 수행되는 학습 알고리즘으로 선형회귀분석의 독립변수들을 제곱항으로 치환한 형태를 가진다. 다중회귀분석의 독립변수를 제곱항으로 치환한 것이므로 풀이 또한 비슷하게 할 수 있다.


다중공선성

독립변수 간의 연관성이 클 경우, 회귀계수의 값이 커지는 현상이 발생한다. 혹은 회귀계수의 변동성이 커져 반대의 부호를 도출하는 경우가 생긴다. 이런 경우 하나의 회귀계수의 값 자체는 무의미하게 변해버린다. 다중공선성은 분산팽창계수(variance inflation factor, VIF)를 통해 확인할 수 있다. VIF는 한 독립변수를 종속변수로 놓고 다른 독립변수로 회귀식을 추정한 후 그 회귀식의 결정계수 값에 의해 결정된다. 결정계수가 커질수록 VIF가 커지면 VIF가 커지면 다중공선성이 있다고 생각할 수 있다.


어떠한 독립변수를 사용하든 서로 연관성이 아예 없을 수는 없기 때문에 다중공선성을 완전히 제거할 수 없다. 다만 다중공선성을 최소화하려고 노력해야 한다. 그러기 위해 사용하는 방법으로 forward selection, backward elimination, stepwise selection 등을 통해 변수를 선택하는 방식이 있고 혹은 회귀식을 구할 때 회귀계수의 크기에 제약을 두는 능동회귀와 같은 방법이 있다.

이때 backward elimination은 사용한 독립변수 중 회귀식에 유의미한 영향을 주지 않는 독립변수를 하나씩 제거하는 방법이다. forward selection은 영향력이 높은 독립변수를 하나씩 추가하는 방법이다. stepwise selection은 처음 어떤 상태에서 시작하는가에 달라지며 영향 여부에 따라 변수를 하나씩 추가하거나 제거하는 방법으로 최적의 독립변수 집합을 찾는 방법이다. 위의 3가지 방법은 최적은 아니지만 어느 정도로 잘 설명할 수 있는 독립변수들을 빠르게 찾을 수 있다. best subset selection은 독립변수의 가능한 모든 조합에 대해 최적의 조합을 찾을 수 있지만 많은 시간이 걸린다.

다중회귀분석을 한 후 그 모델들을 선택할 때는 다양한 기준을 적용할 수 있다. 이때 적합도와 복잡도를 모두 고려하여야 하는 데 결정 계수의 경우 적합성만을 표시하고 다중공선성을 나타내지 못하기 때문에 적절하지 못하다. 모형 선정 척도(model selection measures)의 경우, 적합 결핍(lack of fit)과 복잡도(complexity)를 모두 고려하는 데 두 요소는 대개 어느 정도 상충의 관계에 있기 때문에 적절히 절충해서 선택해야 한다. 이외에도 AIC, BIC, Mallows’ Cp 등이 있다.

728x90
반응형
반응형
250x250
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/06   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30
글 보관함