* 노란 글씨 : 이해 잘 안 됨
* 파란 글씨 : 이해 후 재서술
* 보라 글씨 : 더 공부할 게 있음
** 내가 자꾸 내 수준을 모르고 어려운 것만 찾는 것 같아서 이번엔 좀 초심 같은 느낌으로 아는 내용을 한 번 더 보는 것에 신경써봤다.
선형 회귀
어떤 변수의 값을 기반으로 다른 변수의 값을 예측하는 데 사용한다. 예측하고자 하는 변수를 종속 변수(y), 그 변수를 예측하는 데 사용하는 변수를 독립 변수(x)라고 한다. 선형 방정식(직선 또는 평면)을 이용해 독립 변수와 종속 변수 사이의 관계를 표현한다. 물론 당연히 두 가지 변수 사이에 선형의 관계가 존재해야 한다. 사전에 수집한 종속 변수(y) 데이터가 ‘정답’이 되므로 지도 학습에 속한다. 독립 변수가 한 개이면 단순 선형 회귀, 여러 개이면 다중 선형 회귀이다.
선형 회귀로 알아내는 방정식은 가설(Hypothesis)이라고 부른다. 실제로 종속 변수의 값에 영향을 미치는 것은 사람이 임의로 정한 독립 변수 이외에도 수많은 무관해보이는 요소들이 있을 수 있기 때문에 “진짜” 회귀선을 찾을 수 없어서 가설이라 부른다고 한다. 간단히 함수 h라고 한다.
손실 함수(오차 함수)
가장 적당한 h 함수를 찾기 위한 기준의 역할을 하는 게 오차 함수이다. 기본적으로 원래 정답인 값과 예측한 정답의 차이를 오차로 보는데, 이 오차는 양수일수도 있고 음수일수도 있으니 제곱하거나 절댓값으로 사용한다. 오차를 제곱하여 최소화하는 오차 함수가 LSE, MSE 등이고, 절대값을 사용하는 게 MAE이다.
선형 회귀는 어떤 상황에 적절한가
- 변수가 연속적인 경우 : 시간, 체중, 가격, 시험 점수 등
- 산점도를 사용하여 두 변수 사이에 관계가 있는지 알아보기
- 관찰은 독립적이어야 한다 : 어떤 한 변수를 관찰했을 때 다른 변수가 자동으로 정해지는 관계가 아니어야 한다.
- 데이터에 중요한 이상치(outlier)가 없어야 한다 : 이 말은 잘 모르겠다. 아웃라이어는 데이터 전처리로 골라낼 수 없는 건가?
- 등분산성 확인 : 최적 선형 회귀선을 따른 분산이 해당 선 전체에 걸쳐 유사하게 유지되는 통계적 개념이다. → 일단 등분산성이란 “모든 확률 변수가 같은 유한 분산을 가지는 성질을 가정한다. 등분산성은 분산분석(ANOVA)을 통해 서로 다른 두개 이상의 집단을 비교하고자 할때, 기본적으로 해당 집단들이 만족해야되는 조건 중 한가지로 분산이 같음을 의미하게 된다.(출처 위키백과)”라고 하는데, 무슨 말인지는 내가 통계 지식이 없어서 모르겠다. 어쨌든 독립 변수와 종속 변수 사이에 일정한 경향이 있어야 한다는 말이지?
- 최적 회귀선의 잔차(오차)는 정규 분포를 따른다 : 무슨 말인지는 대충 알겠는데 진짜 그렇게 돼? 난 그게 더 궁금해. 오차가 정규 분포로 나와 진짜로? 신기해라
선형 회귀 사용 예
- 동향 및 매출 추정치 평가
- 가격 탄력성 분석
- 보험 회사 위험 평가
- 스포츠 분석