1. LLM (Large Language Model, 대규모 언어 모델)
ㅇ 방대한 텍스트 데이터를 학습하여,
- 인간의 언어를 이해하고 생성하는 인공지능 모델
ㅇ 핵심 특징
- 대규모 학습 (Large-scale Training)
. 수십억 ~ 수조 단어 수준 데이터로 학습
- 확률 기반 예측
. 다음에 올 단어(토큰)를 확률적으로 예측
- 문맥 이해 (Context Awareness)
. 앞뒤 문장을 고려하여 의미를 파악
- 생성 능력 (Generation)
. 질문 답변, 요약, 번역, 코드 생성 등 수행
ㅇ 기본 원리
- 언어 모델 (Language Model)
. 문장의 확률을 모델링 : P(문장) = P(w1,w2,...,wn)
- 자기 회귀 구조 (Autoregressive)
. 이전 단어를 기반으로 다음 단어 생성
- Transformer 기반
. Attention 메커니즘으로 단어 간 관계 학습
ㅇ 주요 구성
- 토큰화 (Tokenization)
. 텍스트를 처리 가능한 단위(토큰)로 분할하는 과정
.. 문장을 개별 단어나 부분 단어로 분할하는 등
- 임베딩 (Embedding)
. 단어/형태소의 의미를 포착하기 위한 벡터 공간 표현
.. 특성이 담긴 숫자 체계로 변환하는 작업
- 어텐션 (Attention)
. 중요한 단어에 가중치를 두는 메커니즘
ㅇ 활용 분야
- 자연어 처리 (NLP) : 번역, 요약, 질의응답
- 코드 생성 : 프로그래밍 자동화
- 대화형 AI : 챗봇, 가상 비서
ㅇ 한계
- 환각 (Hallucination) : 사실이 아닌 내용을 생성
. RAG (Retrieval-Augmented Generation, 검색 증강 생성)
.. 외부 지식을 검색하여 환각과 최신 정보 부족 문제를 보완
- 데이터 편향 : 학습 데이터에 의존
- 자원 소모 : 학습/추론에 큰 자원 필요