Machine Learning/Intro to Machine Learning with Python
[IMLP] Chapter 2. 지도 학습 (3) - 지도학습 알고리즘 (3): 나이브 베이즈 분류기
joo_
2022. 5. 18. 20:03
- LR과 LinearSVC 같은 선형 분류기보다 훈련 속도가 빠르지만 일반화 성능이 뒤짐
- 효과적인 이유는 각 특성을 개별로 취급해 파라미터를 학습하고 각 특성에서 클래스별 통계를 단순하게 취합함
- scikit-learn에 구현된 나이브 베이즈 분류기는 GaussianNB(연속적인 데이터), BernoulliNB(이진 데이터), MultinomialNB(카운트 데이터.. 예를 들면 문장에 나타난 단어횟수) 3가지
[장단점과 매개변수]
- MultinomialNB와 BernoulliNB는 모델의 복잡도를 조절하는 alpha 매개변수가 있음
- GaussianNB는 대부분 매우 고차원인 데이터셋에 사용, 다른 모델은 텍스트 같은 희소한 데이터
- 비교적 매개변수에 민감하지 않음