Why Predictions Might Be Wrong

Partial Observability

우리는 세상의 모든 데이터를 수집, 가공해서 모델에 학습시킬 수 없다. 그러므로 모델은 진리를 학습할 수 없어 틀린 답을 내놓을 떄가 있다. Partial Observability 는 두 가지 경우로 나뉜다.

Hard Partial Observability: 데이터가 부족한 경우
Soft Partial Observability: 모종의 이유로 인해 일부 데이터를 의도적으로 무시

Noise

측정 오류, 측정 기기의 한계로 인해 noise 가 데이터셋에 포함될 수도 있다.

Representational Bias

데이터셋을 구성할 때 모델의 특성을 고려하는 것은 정말 중요하다.

Linear Regression 과 같이 선형 관계를 학습하는 모델을 사용하는데, 오른쪽고 같은 2차원 데이터셋을 구축했다고 가정하자. 실제로는 다른 데이터인데, 선형 모델은 왼쪽과 같이 데이터를 인식하기 때문에 seperable 여부가 달라지게 된다. 즉, 모델의 구조 자체가 특정한 방식으로 데이터 패턴을 제한하는 현상이 일어난다. 이런 현상을 Representational Bias 라고 한다.

Representational Bias를 완화하기 위해서는 다차원의 더 유연한 표현을 학습할 수 있는 모델이 필요하다. 이를 완화하기 위한 방법이 SVM 이다.

Support Vector Machine

SVM 의 기본 아이디어는 N 차원 공간에서 데이터를 가장 잘 분리하는 N-1 차원의 hyperplane 을 찾는 것이다.

데이터를 가장 잘 분리한다는 것은, 두 클래스 사이의 결정 경계(hyperplane)로부터 가장 가까운 데이터 포인트들까지의 거리를 나타내는 'margin'을 최대화하는 것이다. Margin 이 넓을수록 train data 와 비슷한 test data 에 대해서도 분류 성능이 좋기 때문이다.

Hyperplane에 가장 가까이 위치한 훈련 샘플들을 support vectors라고 하며, 이들이 결정 경계를 정의하는 데 핵심적인 역할을 한다.

이 아이디어는 모든 차원에서 동작하기 때문에 Representational Bias 를 완화할 수 있는 것이다.

Why Predictions Might Be Wrong

Partial Observability

Noise

Representational Bias

Support Vector Machine

Decision Rules