본문 바로가기

언어/참고

11/24 데이터 마이닝 정리 (서포트 벡터 머신)

일단 Binary response에 대한 분류 문제 기준으로 설명

 

서포트 벡터 머신은 크게 두 가지로 나눌 수 있음

1. separable case (No overlap): linear한 class boundary로 error없이 분류할 수 있는 경우를 말한다.

2. Non-separable case (Overlap): linear한 class boundary 하나만으로는 error없이 분류가 절대로 불가능한 경우

 

separable의 경우 Maximal Margin Classifier (MMC)를 사용하고,

non-separable case는 Support Vector Classifier (SVC)를 사용하여 분류를 한다.

 

(서포트 벡터 머신은 그림으로 설명하면 이해가 더 쉽지만, 지금은 말로만 정리)

 

첫번째 경우인 separable case에 대해서 적용할 수 있는 MMC를 살펴보자.

 

2차원 좌표평면을 생각하고, 특정 선을 기준으로 한쪽에는 클래스가 1인 데이터 포인트들만 존재하고, 반대쪽에는 클래스가 -1인 데이터 포인트들만 존재한다고 하자.

 

여기서 '특정 선'이라고 표현한 클래스 분류의 기준이 되는 직선을 'class boundary'라고 한다.

이 직선을 나타내는 다른 표현도 더 존재한다. (ex. )

그리고 이 선은 2차원 좌표평면의 직선이므로 간단한 일차방정식 형태로 표현이 가능하다.

$\beta_{0} + \beta_{1} x_{1} + \beta_{2} x_{2} = 0$