[데이터마이닝] 텍스트 데이터?
[데이터마이닝] 텍스트 데이터 텍스트 데이터의 분류 크기 순으로 corpus(말뭉치), document, sentence, word, morpheme(형태소), phoneme(음소)로 분리된다. 음소는 주로 언어학 차원에서 다루며, 데이터마이닝에서는 형태소까지만 다룸 corpus? 문서의 상위 개념 수집한 문서들의 전체 집합, 또는 특정 언어의 정형화된 대용량 텍스트 표본들의 집합 token 텍스트 분석의 분석 단위 대개 단어를 의미하기도 하지만, 하나의 글자 단위, 형태소 단위일 수 있음 토큰은 통계적 기법을 적용해 빈도 분석을 수행 이를 통해 전체적 맥락 분석, 문서의 주제나 감정을 추정 텍스트 데이터의 분석법 사전기반 접근방법(Dictionary Based Approach) 단어사전 기준으로 빈도 ..