Decision Tree

장점 : 해석력 > 모델의 정확성 이외에도 활용성 ( 메세지 ) :: 결과에 대한 풀이 (연속형 - 범주형 등의 형태에 대한 범용성 높음)

단점 : 변동성 / 샘플에의 민감

결과값 > 반응변수 예측하는 형태로 나타남

섞여있는 정도

정의 1. -p(p - 1) + c

정의2. -plog…

활용한 변수로 인한 이득 // ig로 각 변수를 평가 (outlook / humidity) > 어떤 변수를 최상위 노드로 사용할지 결정함

관측치를 많이 갖고 있음 > 다수의 웨이트를 줌 ( e.g. 전체 14개 중 첫 번째 범주에 5/ 4/ 5 - 가중평균을 구해줌)

섞여있음 ( 엔트로피 높음 ) > 분류 진행 ( 엔트로피 낮춤 )

Classification Tree

m번째 노드가 k 범주일 확률 : y가 k 범주 안에 존재하면 카운트 - reason을 어떻게 구하는지에 대한 결정

ig가 최대화 되는 영역

오분류율 : 전체 샘플 개수 내 상대 비율 - 오류율

Rm결정 이후 (특정 변수를 어떤 기준으로 나눌 것인지) 결정된 Rm에 대해 pmk 중 가장 이 값이 커지는 k를 구함 > y범주를 구할 것

종속변수가 연속형 - 시각화 시 높이 == 예측값

각각에 대해 특정 실수값을 줌 - cm (z 축) 값을 곱함

임의로 영역을 나눔 > measure 부분을 엔트로피나 gini index를 사용해 최소화되는 점을 찾음

Cm > 샘플의 평균값