Tokenization 토큰화

(2026-05-26)

▷ Top ▷ 정보기술(IT) ▷ 인공지능 ▷ LLM, NLP

1. 토큰화 (Tokenization)

  ㅇ 텍스트를 처리 가능한 단위(토큰)로 분할하는 과정
     - 문장을 개별 단어나 부분 단어로 분할하는 등

  ㅇ 토큰화 목적  :  자연어를 수치 처리 가능한 형태로 변환하기 위함
     - 이후, 토큰 → 숫자 ID → 임베딩 변환 과정을 거침


2. [참고사항]  토큰과 형태소 비교

  ㅇ 토큰  :  AI 언어 모델이 처리하기 위한 단위
     - 통계적/학습 기반으로 분할
     - 통상 의미를 갖지 않음

  ㅇ 형태소  :  언어학적 의미 단위
     - 문법/의미 기반으로 분할
     - 거의 항상 의미 갖음


2. [참고사항]  LLM 내 형태소 분석

  ㅇ 전통 NLP
     - "형태소 분석 → 품사 태깅 → 구문 분석 → 의미 분석" 처럼 단계별 파이프라인이 많았음

  ㅇ LLM
     - 명시적 형태소 분석 없이도, 대규모 학습을 통해,
        . 문법,형태,의미 관계를 내부적으로 함께 학습함
     - 다만, 한국어 처리에서는,
        . 조사,어미,활용,띄어쓰기 등이 중요하므로, 
        . 모델 내부적으로는 형태소 수준의 패턴을 상당 부분 학습하고 있다고 볼 수 있음
     - 즉, 문장을 토큰(token) 단위로 분해하되,
        . 이 토큰은 반드시 형태소와 일치하지는 않음 (모델/토크나이저 마다 다름)

▷ LLM, NLP

1. 자연어 처리 (NLP) 2. 자연어 처리 용어 3. N-gram 4. 편집 거리 5. 언어 모델 6. 대규모 언어 모델 (LLM) 7. 토큰화 8. 임베딩 9. 어텐션 10. 트랜스포머

용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"

[정보통신기술용어해설]