Ch5.3 Linear Discriminant Functions - Generalized linear discriminant functions

2020-2학기 서강대 김경환 교수님 강의 내용 및 패턴인식 교재를 바탕으로 본 글을 작성하였습니다.

5.3 Linear Discriminant Functions and Decision Surfaces

▶ the linear discriminant function

$g(\mathbf{x})=w_{0}+\sum_{i=1}^{d} w_{i} x_{i} \tag{1}\label{1}$

▶ the quadratic discriminant function

$g(\mathbf{x})=w_{0}+\sum_{i=1}^{d} w_{i} x_{i}+\sum_{i=1}^{d} \sum_{j=1}^{d} w_{i j} x_{i} x_{j} \tag{2}\label{2}$

$x_i x_j = x_j x_i$ 이므로, 일반성의 손실 없이 $\omega_{ij} = \omega_{ji}$ 라고 가정할 수 있다. 따라서, 2차 판별 함수는 더 복잡한 분리 표면들을 만드는 데 임의로 쓸 수 있는 $d(d+1)/2$ 개의 계수를 추가로 가진다 $g(\mathbf{x})$ 에 의해 정의되는 분리 표면은 2차 또는 초 2차(Hyperquadratic) 표면이다. (e.g. 직선 to 포물선)

▶ the class of polynomial discriminant functions

$w_{i j k} x_{i} x_{j} x_{k}$ 와 같은 항들을 계속해서 추가하면 다항 판별 함수들을 얻을 수 있다.

▶ generalized linear discriminant function

$g(\mathbf{x})=\sum_{i=1}^{\hat{d}} a_{i} y_{i}(\mathbf{x}) \tag{3}\label{3}$

$g(\mathbf{x})=\mathbf{a}^T \mathbf{y} \tag{4}\label{4}$

$\mathbf{a}$ is now $\hat{d}$ -dim weight vecgtor and $\hat{d}$ functions $y_i{\mathbf{x}}$ can arbitrary functions of $\mathbf{x}$ .

여기서, $\hat{d}$ 개 함수 $y_i{\mathbf{x}}$ 는 $\mathbf{x}$ 를 $\mathbf{y}$ space로 매핑하는 과정 ( $\varphi$ function로 불림)

$\hat{d} \gt d$ 로, 현명하게 설정한다면, 어떠한 원하는 판별 함수도 위 과정을 통해 근사화할 수 있다. (즉, "차원을 늘려 판별함수를 잘 만들어 보자!"라는 관점)

the resulting discriminant function is not linear in $\mathbf{x}$ but it is linear in $\mathbf{y}$ . (판별 함수는 $\mathbf{x}$ 에 대해서는 선형적이지 않으나, $\mathbf{y}$ 에서는 선형적임)
$\hat{d}$ functions $y_i{\mathbf{x}}$ merely map points in $d$ -dim $\mathbf{x}$ -sapce to points in $\hat{d}$ -dim $\mathbf{y}$ -space.
the mapping from $\mathbf{x}$ to $\mathbf{y}$ reduces the problem on one of finding a homogeneous linear discriminant fucntion.

이 방식의 장단점은 단순한 예제를 보면 이해하기 쉬울것이다.

$g(x)=a_{1}+a_{2} x+a_{3} x^{2} \tag{5}\label{5}$

로 놓아서 3-dimensional vector $\mathbf{y}$ 는

$\mathbf{y}=\left(\begin{array}{c} 1 \\ x \\ x^{2} \end{array}\right) \tag{6}\label{6}$

으로 주어진다고 하자. $x$ 로부터 $\mathbf{y}$ 로의 매핑을 그림 5.5가 보여준다.

위 매핑은 점들을 더 낮은 차원의 공간으로부터 더 높은 차원의 공간으로 옮기면, 아주 단순하게 $H$ 로부터 분리(linearly seperable O)할 수 있다.

하지만, 모든 선형변환이 단순한것은 아니다 위 매핑처럼 비교적 단순한 변환을 했음에도 불구하고 $H$ 로부터 상당히 복잡하게 분류될 가능성도 충분히 존재한다.

안타깝게도 차원의 저주는 보통 실제에서 이 유연성을 이용하는 것을 어렵게 만든다. 완전한 2차 판별 함수는 $\hat{d}=(d+1)(d+2)/2$ 개의 항을 포함한다. $d$ 가 상당히 커도, 예를 들어 50인 경우에 많은 계산을 요구할 것이다. 다항식에 3차, 그리고 일반적으로 $k$ 차 요소들을 포함하면 복잡도 $\mathbf{O}(d^k)$ 항이 된다. 더욱이, 가중치 벡터 $\mathbf{a}$ 의 $\hat{d}$ 요소들은 훈련 샘플들로부터 결정되어야 한다. $\hat{d}$ 을 판별 함수에 대한 자유도를 규정하는 것으로 간주하면, 샘플 수는 자유도보다 작지 않아야 할 것이 당연히 요구된다. 분명히 $g(\mathbf{x})$ 의 일반적 급수 전개는 어쩌면 계산과 데이터에 대한 완전히 비현실적 요구사항으로 이끌 수 있다. 그렇지만, 5.11절에서 이 결점이 훈련 패턴들 사이에 큰 틈 또는 띠를 두어야 하는 제한을 부과함으로써 조정될 수 있음을 보게 될 것이다. 이 경우, 엄밀한 의미에서, 모든 자유 파라미터를 맞추는 것을 말하고 있지 않다. 그 대신, 고차원 공간으로의 매핑은 훈련 점들 사이에 어떠한 불필요한 구조나 관계도 부과하지 않는다는 가정에 의존한다. (manifold 가정) 대안적으로, Ch6에서는 DNN을 사용하여 입력 특징들의 단일 비선형 함수를 여럿 복제한 것들을 사용해서 이 문제에 접근한다.

일반화된 선형 판별 함수의 잠재적 장점을 실현하는 것은 어려울 수 있으나, 적어도 $g(\mathbf{x})$ 를 homogeneous 꼴인 $\mathbf{a}^T \mathbf{y}$ 로 쓸 수 있는 편리성을 이용할 수 있다. 선형 판별 함수의 특수한 경우에

$g(\mathbf{x})=w_{0}+\sum_{i=1}^{d} w_{i} x_{i}=\sum_{i=0}^{d} w_{i} x_{i} \tag{7}\label{7}$

이며, 여기서 $x_0 = 1$ 로 설정했다. 따라서,

$\mathbf{y}=\left[\begin{array}{c} 1 \\ x_{1} \\ \vdots \\ x_{d} \end{array}\right]=\left[\begin{array}{l} 1 \\ \\ \mathrm{x} \\ \\ \end{array}\right] \tag{8}\label{8}$

로 쓸 수 있으며, $\mathbf{y}$ 는 때로 augmented feature vector(증보된 특징 벡터)라고 불린다. 마찬가지로, augmented weight vector(증보된 가중치 벡터)는 다음과 같다.

$\mathbf{a}=\left[\begin{array}{c} w_{0} \\ w_{1} \\ \vdots \\ w_{d} \end{array}\right]=\left[\begin{array}{l} w_{0} \\ \\ \mathbf{w} \\ \\ \end{array}\right] \tag{9}\label{9}$

$d$ 차원 $\mathbf{x}$ -space으로부터 $d+1$ -차원 $\mathbf{y}$ -space으 ㅣ이 매핑은 수하적으로 사소하나, 매우 편리하다. $\mathbf{x}$ 에 상수 요소를 더하는 것은 샘플 간의 모든 거리관계를 보존한다. 그 결과인 $\mathbf{y}$ vector들은 모두 $\mathbf{x}$ -space 그 자체인 $d$ -차원 부공간(subspace)에 놓인다.

Reference

pattern classification by richard o. duda

저작자표시

'Pattern Classification [수업]' 카테고리의 다른 글

Ch7.2 Stochastic Methods - Stochastic search (0)	2020.11.17
Ch7.1 Stochastic Methods - Introduction (0)	2020.11.17
Ch5.2 Linear Discriminant Functions - Linear Discriminant Functions and Decision Surfaces (0)	2020.10.29
Ch5.1 Linear Discriminant Functions - Introduction (0)	2020.10.29
Ch4.3 Nonparametric techniques - Parzen Windows (0)	2020.10.12

토	월	화	수	목	금

+23°	+10°	+15°	+19°	+23°	+23°
+2°	+6°	+6°	+8°	+14°	+16°

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

DeepHaejoong

Ch5.3 Linear Discriminant Functions - Generalized linear discriminant functions

5.3 Linear Discriminant Functions and Decision Surfaces

Reference

'Pattern Classification [수업]' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Ch5.3 Linear Discriminant Functions - Generalized linear discriminant functions

5.3 Linear Discriminant Functions and Decision Surfaces

Reference

'Pattern Classification [수업]' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역