Machine Learning/Intro to Machine Learning with Python

[IMLP] Chapter 7. 텍스트 데이터 다루기

joo_ 2022. 5. 23. 15:25

** 자연어 처리와 같이 텍스트 데이터 분석할 일 있을 때 다시 읽어보기

 

[문자열 데이터 타입]

- 문자열 데이터 종류: 범주형 데이터, 범주에 의미 연결시킬 수 있는 임의의 문자열, 구조화된 문자열 데이터, 텍스트 데이터

- 범주열 데이터: 고정된 목록으로 구성

- 구조: ex. 주소, 장소, 사람 이름, 날짜, 전화번호, 식별번호

- 텍스트 데이터: ex. 리뷰, 작품, 문서, 전자책..

 

[예제 애플리케이션: 영화 리뷰 감성 분석]

!tree -dL 2 data/aclImdb #셸 명력 실행하는 Ipython의 매직 명령ㅇ어

!rm -r data/aclImdb/train/unsup

[텍스트 데이터를 BOW로 표현하기]

- 토큰화: 문서에 포함된 단어로 나눔

- 어휘 사전 구축: 어휘를 모으고 번호를 매김

- 인코딩: 문서마다 몇번 나타나는지 헤아림