Machine Learning/Intro to Machine Learning with Python

[IMLP] Chapter 2. 지도 학습 (3) - 지도학습 알고리즘 (3): 나이브 베이즈 분류기

joo_ 2022. 5. 18. 20:03

- LR과 LinearSVC 같은 선형 분류기보다 훈련 속도가 빠르지만 일반화 성능이 뒤짐

- 효과적인 이유는 각 특성을 개별로 취급해 파라미터를 학습하고 각 특성에서 클래스별 통계를 단순하게 취합함

- scikit-learn에 구현된 나이브 베이즈 분류기는 GaussianNB(연속적인 데이터), BernoulliNB(이진 데이터), MultinomialNB(카운트 데이터.. 예를 들면 문장에 나타난 단어횟수) 3가지

 

[장단점과 매개변수]

- MultinomialNB와 BernoulliNB는 모델의 복잡도를 조절하는 alpha 매개변수가 있음

- GaussianNB는 대부분 매우 고차원인 데이터셋에 사용, 다른 모델은 텍스트 같은 희소한 데이터

- 비교적 매개변수에 민감하지 않음