Machine Learning/Intro to Machine Learning with Python
[IMLP] Chapter 7. 텍스트 데이터 다루기
joo_
2022. 5. 23. 15:25
** 자연어 처리와 같이 텍스트 데이터 분석할 일 있을 때 다시 읽어보기
[문자열 데이터 타입]
- 문자열 데이터 종류: 범주형 데이터, 범주에 의미 연결시킬 수 있는 임의의 문자열, 구조화된 문자열 데이터, 텍스트 데이터
- 범주열 데이터: 고정된 목록으로 구성
- 구조: ex. 주소, 장소, 사람 이름, 날짜, 전화번호, 식별번호
- 텍스트 데이터: ex. 리뷰, 작품, 문서, 전자책..
[예제 애플리케이션: 영화 리뷰 감성 분석]
!tree -dL 2 data/aclImdb #셸 명력 실행하는 Ipython의 매직 명령ㅇ어
!rm -r data/aclImdb/train/unsup
[텍스트 데이터를 BOW로 표현하기]
- 토큰화: 문서에 포함된 단어로 나눔
- 어휘 사전 구축: 어휘를 모으고 번호를 매김
- 인코딩: 문서마다 몇번 나타나는지 헤아림