자연어란 인간의 언어를 의미한다. 기계어는 컴퓨터의 언어를 의미한다. 자연어 처리란 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고, 이를 구현하는 인공지능의 한 분야이다. 정보검색, 문서자동분류, 신문기사 클러스터링, 대화형 Agent등이 있다. 이번 포스팅에서는 문서자동분류, 신문기사 클러스터링 같이 인공지능으로 자연어로 이루어진 문서의 카테고리를 분류하는 작업의 원리에 대해서 다룬다. 전체적인 과정을 이미지로 표현해보았다. 먼저 자연어로 된 문서들을 컴퓨터가 이해할 수 있도록 입력값(X)과 Target(Y)을 숫자 형태로 변환한다. (①) 적절한 형태의 학습 데이터를 확보하면 머신러닝, 딥러닝 모델을 생성한다. (②) 새로운 문서가 주어지면 이를 다시 숫자형태로 변환하고..