LLM   Large Language Model   대규모 언어 모델

(2026-02-07)

Tokenization, 토큰화


1. LLM (Large Language Model, 대규모 언어 모델)

  ㅇ 방대한 텍스트 데이터학습하여,
     - 인간언어를 이해하고 생성하는 인공지능 모델

  ㅇ 핵심 특징
     - 대규모 학습 (Large-scale Training)
        . 수십억 ~ 수조 단어 수준 데이터학습
     - 확률 기반 예측
        . 다음에 올 단어(토큰)를 확률적으로 예측
     - 문맥 이해 (Context Awareness)
        . 앞뒤 문장을 고려하여 의미를 파악
     - 생성 능력 (Generation)
        . 질문 답변, 요약, 번역, 코드 생성 등 수행

  ㅇ 기본 원리
     - 언어 모델 (Language Model)
        . 문장확률모델링  :  P(문장) = P(w1,w2,...,wn)
     - 자기 회귀 구조 (Autoregressive)
        . 이전 단어를 기반으로 다음 단어 생성
     - Transformer 기반
        . Attention 메커니즘으로 단어 간 관계 학습

  ㅇ 주요 구성
     - 토큰화 (Tokenization)
        . 텍스트를 처리 가능한 단위(토큰)로 분할하는 과정
           .. 문장을 개별 단어나 부분 단어로 분할하는 등
     - 임베딩 (Embedding)
        . 단어/형태소의 의미를 포착하기 위한 벡터 공간 표현
           .. 특성이 담긴 숫자 체계로 변환하는 작업
     - 어텐션 (Attention)
        . 중요한 단어에 가중치를 두는 메커니즘

  ㅇ 활용 분야
     - 자연어 처리 (NLP)  :  번역, 요약, 질의응답
     - 코드 생성  :  프로그래밍 자동화
     - 대화형 AI  :  챗봇, 가상 비서
     
  ㅇ 한계
     - 환각 (Hallucination)  :  사실이 아닌 내용을 생성
        . RAG (Retrieval-Augmented Generation, 검색 증강 생성)
           .. 외부 지식검색하여 환각과 최신 정보 부족 문제를 보완
     - 데이터 편향  :  학습 데이터에 의존
     - 자원 소모  :  학습/추론에 큰 자원 필요

LLM, NLP
1. 자연어 처리 (NLP)   2. 대규모 언어 모델 (LLM)   3. 임베딩   4. 어텐션   5. 트랜스포머  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]