
모델에는 두 가지 종류가 있다. 첫 번째는 왼쪽처럼 주어진 데이터를 잘 학습해 설명 능력이 뛰어난 Explanatory Model 이다. 이런 모델은 학습 데이터를 잘 학습해 Training Error 를 최소화한다.
학습 데이터의 여러 개의 데이터 포인트 중 하나의 random sample 의 pointwise loss 를 살펴보자.
$$ \text{Expected MSE(Y)}=E[(Y-\bar{Y})^2]\\=E[(Y-E[{Y}])^2]+E[(E(Y)-\bar{Y})^2]\\=\text{Variance }+\text{ Bias}^2 $$
완벽한 Explanatory Model 은 Variance 와 Bias 를 모두 0으로 만드는 것이다.
두 번째는 오른쪽처럼 Training Error 는 더 크지만, Generalization 능력이 좋고 복잡도가 상대적으로 낮은 Predictive Model 이다. 이 모델은 테스트 데이터의 loss 를 최소화한다.
우리가 지금까지 살펴본 모델 훈련 알고리즘을 살펴보면 모두 bias 를 줄이는 역할을 했다. 훈련을 통해 variance 를 줄일 수 없으므로, 우리는 variance 를 줄이는 데 신경을 써야 한다.
하지만 앞에서 살펴봤듯이 Variance 와 Bias 사이에는 trade-off 가 존재한다. 또한 bias 가 0 인 상태 즉, 훈련 데이터를 완벽하게 학습한 상태는 Overfitting 이 발생한 상태이다. 그러므로 우리는 bias 를 조금 늘리더라도 variance 를 줄이는 방법을 모색해야 한다.
모델 파라미터의 일부만 학습시켜 Variance 를 줄이는 방법이다. 모델의 일부만 학습 시키면 손실 함수의 기울기의 noise 가 적고 개형이 단순해 Variance 가 줄어드는 원리다. 이런 방식의 한 예시로 Stochastic Coordinate Descent 가 있다.

Optimization 의 방향이 한 번의 이동 당 하나의 축을 따라가는 것을 알 수 있다. 즉, 한 번에 하나의 차원에 대한 학습과 최적화만 진행하는 것이다.
하지만 이런 방법들은 Non-Convex Problem 을 해결하지 못한다. 매번 하나의 차원만 이동하므로 함수 전체의 개형을 고려하지 못하기 때문이다.
모델의 복잡도를 제한함으로써 Variance 를 줄이는 방식이다. 모델의 복잡도가 낮으면 데이터의 변화에 대해 상대적으로 둔감해지기 때문에 Variance 를 줄일 수 있는 것이다.
