Subword 단위의 자연어 처리를 위해 BPE(Byte Pair Encoding) 기반 토크나이저를 Python으로 구현했습니다. 코퍼스를 입력 데이터로 사용하여 병합 규칙을 학습하고, 학습된 규칙을 적용해 단어를 서브워드 단위로 분해할 수 있도록 설계하였습니다.
파이썬으로 한글 입력 방식을 직접 구현한 오토마타. 초성, 중성, 종성을 조합하여 완성형 글자를 생성하는 과정을 코드로 설계하였습니다.