BPE

3월 29, 2025 · 1 분 읽기

Subword 단위의 자연어 처리를 위해 BPE(Byte Pair Encoding) 기반 토크나이저를 Python으로 구현했습니다. 코퍼스를 입력 데이터로 사용하여 병합 규칙을 학습하고, 학습된 규칙을 적용해 단어를 서브워드 단위로 분해할 수 있도록 설계하였습니다.