Tokenization   토큰화

(2026-05-26)

1. 토큰화 (Tokenization)텍스트를 처리 가능한 단위(토큰)로 분할하는 과정
     - 문장을 개별 단어나 부분 단어로 분할하는 등

  ㅇ 토큰화 목적  :  자연어를 수치 처리 가능한 형태로 변환하기 위함
     - 이후, 토큰 → 숫자 ID → 임베딩 변환 과정을 거침


2. [참고사항]  토큰형태소 비교토큰  :  AI 모델이 처리하기 위한 단위
     - 통계적/학습 기반으로 분할
     - 통상 의미를 갖지 않음

  ㅇ 형태소  :  언어학적 의미 단위
     - 문법/의미 기반으로 분할
     - 거의 항상 의미 갖음


2. [참고사항]  LLM형태소 분석

  ㅇ 전통 NLP
     - "형태소 분석품사 태깅구문 분석의미 분석" 처럼 단계별 파이프라인이 많았음

  ㅇ LLM
     - 명시적 형태소 분석 없이도, 대규모 학습을 통해,
        . 문법,형태,의미 관계를 내부적으로 함께 학습함
     - 다만, 한국어 처리에서는,
        . 조사,어미,활용,띄어쓰기 등이 중요하므로, 
        . 모델 내부적으로는 형태소 수준의 패턴을 상당 부분 학습하고 있다고 볼 수 있음
     - 즉, 문장토큰(token) 단위로 분해하되,
        . 이 토큰은 반드시 형태소와 일치하지는 않음 (모델/토크나이저 마다 다름)

LLM, NLP
1. 자연어 처리 (NLP)   2. 자연어 처리 용어   3. N-gram   4. 편집 거리   5. 언어 모델   6. 대규모 언어 모델 (LLM)   7. 임베딩   8. 어텐션   9. 트랜스포머   10. 토큰화 [AI]  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]