회귀는 여러 개의 독립변수 (X)와 하나의 종속변수 (y)의 상관관계를 정의하는 것이다.

$$ y = w_1x_1+w_2x_2+...w_nx_n\\X=(x_1,x_2,...x_n) $$

X 의 샘플들은 서로 독립적이라고 가정하고, y 는 X 의 샘플들에 종속적인 것이다.

X 의 각 샘플들 사이에 강한 상관관계가 있다면 좋은 dataset 이라고 할 수 없다.

머신러닝 회귀 예측의 핵심은 최적의 회귀 계수를 찾아내는 것이다.

선형 회귀는 선형 함수로 문제를 한정 지어서, 데이터 간 관계를 가장 잘 표현하는 선형 함수를 찾는 것이다.

Linear Regression

독립변수들과 종속 변수 사이의 상관관계를 선형으로 정의하고 그 관계를 찾는 것이다.

선형 회귀 문제에서는 Loss Function 을 MSE 로 설정하는 것이 일반적이다.

$$ \text{MSE} = \frac{1}{2N} \sum_{i=1}^N (y_i - \hat{y}_i)^2 $$

이는 error 의 크기를 가늠하는 함수로, MSE 의 사용은 분석에 용이한 등 장점이 많은 합리적인 선택이다. 분모의 2 는 mathematical convinience 를 위해 추가한 것이다.

사실 optimal 한 상태에서는 loss function 의 종류가 모델 성능에 영향을 미치진 않는다. 그러나 loss fuction 에 따라 훈련 속도가 달라지므로, 정해진 시간 동안 훈련을 시켜야 하는 상황에서는 의미가 있다. 그러므로 상황에 맞는 loss fuction 의 선택이 중요하다.

세 개의 데이터 포인트와 $y = a_1 x$ 라는 식에 대해, a 값의 변화에 대한 MSE 의 변화를 그래프로 그리면 위와 같다.

Multi Dimension Linear Regression

Image classification, Text Embedding 등이 포함된 task 들은 입력값의 변수가 여러 개인 다차원이다.

이 입력값을 다차원 벡터로 표현해보자

$$ x = (x_1, x_2,...,x_d)\in R^d $$

$x$ 와 같은 차원의 임의의 벡터 $w$ 와 $b$ 를 생각해보자. 선형 회귀는 문제를 선형 함수로 한정 짓는다.

이 선형 함수는 다음과 같이 표현될 수 있다.