1. 언어 모델 (Language Model, LM) 이란?
ㅇ 자연어(문장,단어)의 출현 확률 및 순서를 학습하여,
- 다음 단어를 예측하거나 문장을 이해,생성하는 수학적/통계적 모델
- 즉,
. "어떤 단어 다음에 어떤 단어가 올 가능성이 높은가?",
. "주어진 문장이 자연스러운가?" 등을 수학적/확률적으로 모델링한 것
ㅇ 활용
- 문장 생성, 기계 번역, 음성 인식, 질의 응답, 요약, 검색 등
2. 언어 모델의 발전 과정
ㅇ BoW : 단어 빈도 중심, 단어 순서 무시
ㅇ N-gram : 짧은 순서 관계 고려, 짧은 어순 정보 반영
ㅇ RNN/LSTM : 시퀀스 문맥 학습, 시퀀스 기억 가능
ㅇ Transformer : 긴 문맥과 의미 관계까지 학습 가능, Attention 기반 문맥 전체 학습
ㅇ LLM : 초대규모 Transformer 언어 모델의 발전 형태
※ "언어를 수학적/확률적으로 모델링"하되, 표현 능력과 문맥 이해 능력 면에서, 점점 고도화됨
3. 초기 언어 모델 : BoW (Bag of Words)
ㅇ 문서를 단어들의 모음 즉, "가방(Bag)"으로 간주하는 표현 방식
ㅇ 특징
- 단어의 순서를 무시
- 단어 출현 여부/빈도만 사용
- 장점 : 단순함, 계산 쉬움
- 단점 : 문맥(Context) 손실, 어순 정보 없음, 의미 관계 표현 부족
ㅇ 例) "I love AI", "AI love I" → BoW에서는 동일 취급
4. 전통적 언어 모델
ㅇ 통계 기반 언어 모델
- 단어 출현 빈도와 조건부 확률을 사용
ㅇ 모델 例) N-gram 모델, 마르코프 모델 등
※ 즉, 이전 단어들로부터, 다음 단어에 대한 확률을 찾아냄
5. 신경망 언어 모델 (Neural Language Model)
ㅇ 인공신경망을 이용하여 단어 관계와 문맥을 학습하는 언어 모델
ㅇ 특징
- 단어를 벡터(Embedding)로 표현
. 임베딩(Embedding) : 의미를 컴퓨터 처리 가능토록 벡터 공간 내 수치 좌표로 바꿈
- 의미적 유사성 학습 가능
- BoW 보다 문맥 표현 우수
ㅇ 대표적인 구조 例) RNN, LSTM, GRU 등
6. Transformer 기반 언어 모델
ㅇ 자기 주의(Self-Attention) 구조를 사용하는 현대적 언어 모델
ㅇ 특징
- 긴 문맥 처리 가능
- 병렬 처리 유리
- 대규모 학습 가능
ㅇ 대표 모델 例) OpenAI의 GPT 계열, Google의 BERT, Meta의 LLaMA 등
7. 대규모 언어 모델 (LLM, Large Language Model)
ㅇ 매우 방대한 텍스트 데이터와 거대한 신경망 파라미터를 이용해 학습된 언어 모델
ㅇ 특징
- 수십억~수조 개 파라미터
- 광범위한 지식 학습
- 자연스러운 문장 생성
- 추론 및 요약 가능
ㅇ 핵심 기반
- Transformer 구조
- Self-Attention
- Tokenization
- Embedding
- 확률적 다음 토큰 예측