1. 토큰화 (Tokenization)
ㅇ 텍스트를 처리 가능한 단위(토큰)로 분할하는 과정
- 문장을 개별 단어나 부분 단어로 분할하는 등
ㅇ 토큰화 목적 : 자연어를 수치 처리 가능한 형태로 변환하기 위함
- 이후, 토큰 → 숫자 ID → 임베딩 변환 과정을 거침
2. [참고사항] 토큰과 형태소 비교
ㅇ 토큰 : AI 모델이 처리하기 위한 단위
- 통계적/학습 기반으로 분할
- 통상 의미를 갖지 않음
ㅇ 형태소 : 언어학적 의미 단위
- 문법/의미 기반으로 분할
- 거의 항상 의미 갖음
2. [참고사항] LLM 내 형태소 분석
ㅇ 전통 NLP
- "형태소 분석 → 품사 태깅 → 구문 분석 → 의미 분석" 처럼 단계별 파이프라인이 많았음
ㅇ LLM
- 명시적 형태소 분석 없이도, 대규모 학습을 통해,
. 문법,형태,의미 관계를 내부적으로 함께 학습함
- 다만, 한국어 처리에서는,
. 조사,어미,활용,띄어쓰기 등이 중요하므로,
. 모델 내부적으로는 형태소 수준의 패턴을 상당 부분 학습하고 있다고 볼 수 있음
- 즉, 문장을 토큰(token) 단위로 분해하되,
. 이 토큰은 반드시 형태소와 일치하지는 않음 (모델/토크나이저 마다 다름)