Linear Discriminant Analysis

데이터 분류 방법 : LDA

가정

  1. 각 숫자 집단은 정규분포 형태 확률분포를 가짐
  2. 각 숫자 집단은 비슷한 형태의 공분산 구조를 가짐

가정 시 우상향 타원 + 분산을 갖는 (공분산) 형태가 나옴 > 1, 2, 3그룹 모두 비슷하게 갖고 있음

검은 실선 > 영역 분할 == LDA

자룔 특정축으로 정사형을 만듦 > 두 분포를 비교하고 분산 대비 평균 차이를 비교

자료가 같음에도 축이 다르면 바운더리가 변경 > 어떤 축에 정’사영’을 시킬 것인지 문제

기본적으로 평균의 차이를 크게하는 곳에 두 개를 이은 벡터를 평행이동 시켜 정사형을 만듦 > 평균 차이의 극대화 ( but 분산 대비 평균의 차이가 커야하지만, 각각의 분산이 크기 때문에 확실한 차이가 있는지 애매함)

왼 : 평균 차이 극대화 / 분산이 너무 큼 (분산 줄이는 법 > 단축방향 ) > 오 : 분산의 최소화 방향

LDA 모델 정의 및 추정

확률분포 관점 : l보다 k에 속할 확률 > log 부분이 커지면 됨 > log파이k/파이l 도 커질 것임

만약에 시그마 케이가 같을 때 == 간단하게 정리할 수 있음

LDA 심화적 이해

장점 :

나이브 베이즈 : 설명변수 간 조건부 독립을 가정했음 > 타원 형태는 무시되고 분석을 하게 됐었음

공분산 구조가 조금 다르더라도 변화의 민감하지 않음

단점 :

공분산 구조가 다른 경우 > QDA

QDA 정의 및 이해

y 샘플들이 각 공분산 구조가 상이한 상황에서도 사용할 수 있게 함

비선형관계에서 유용하게 쓰임

lda qda 비 교

공분산 구조를 다르게 가질 수 있는가의 차이 > 추정해야하는 파라미터 수가 많아짐

샘플이 충분치 않을 때는 lda 가 효율적임