언어판정이란 주어진 문장이 어떤 언어로 작성됐는지 판정하는 것을 의미한다. 머신러닝 모델을 사용해서 언어판정을 해보려고 한다. 1. 이론 (1) Unicode codepoint 언어의 종류마다 사용하는 문자가 다르다. 한국어는 '가, 나,...' 영어는 'a,b,...' 일본어는 'か,つ,...' 언어판정을 위해서는 사용하는 문자의 차이, 사용빈도를 구분할 수 있어야한다. 이때, 문자의 식별을 위해 Unicode codepoint라는 개념을 사용한다. Unicode codepoint란? 문자열을 대표하는 정수값으로, 문자열에 할당된 코드값을 의미한다. 한 문자는 한 코드를 갖는다. 유니코드 전체를 논리적으로 묶은 평면을 유니코드 평면이라고 하는데, 총 17개의 평면으로 구성되어 있으며, 한 평면은 655..