자연어 처리 용어

(2026-02-19)

1. 자연어 처리 용어자연어 (Natural Language)  :   사람이 일상적으로 사용하는 언어자연어 처리 (NLP)  :  인간언어컴퓨터가 이해,분석,생성하도록 하는 기술
  ㅇ 어휘집/어휘목록/어휘사전 (Vocabulary)  :  모델인식 가능한 단어,토큰들의 집합코퍼스 (Corpus)  :  언어 분석을 위한 대규모 텍스트 데이터 모음
  ㅇ 시소러스 (Thesaurus)  :  유의어 사전
     - WordNet 등에 수많은 단어 동의어와 계층구조 등이 수작업으로 정의되어 있음
  ㅇ 토큰화 (Tokenization)  :  문장을 단어,형태소,문자 등의 단위로 나누는 과정
  ㅇ 토큰 (Token)  :  자연어컴퓨터가 처리하는 기본 단위형태소 (Morpheme)  :  의미를 가지는 가장 작은 언어 단위형태소 분석 (Morphological Analysis)  :  단어를 형태소 단위로 분리하고 품사를 분석하는 과정
  ㅇ 어간 추출 (Stemming)  :  단어의 어미,접사 등을 제거하여 기본 어간을 얻는 기법
  ㅇ 표제어 추출 (Lemmatization)  :  단어를 사전상의 기본형(표제어)으로 변환하는 과정
  ㅇ 품사 태깅 (POS Tagging, , Part-of-Speech Tagging)  :  각 단어에 품사 정보를 부여하는 작업
  ㅇ 편집 거리 (Edit Distance)  :  한 문자열을 다른 문자열로 변환하는 데 필요한 최소 편집 횟수
  ㅇ 불용어 (Stopword)  :  분석에서 의미가 적은 단어 (`은`,`는`,`이`,`가` 등)
  ㅇ 정규화 (Normalization)  :  서로 다른 표현의 일관된 변환 (대소문자 통일,특수문자 제거 등)
  ㅇ 벡터화 (Vectorization)  :  텍스트벡터 공간 내 수치 벡터 형태로 변환하는 과정 
  ㅇ 원-핫 인코딩 (One-Hot Encoding)  :  단어를 하나의 위치만 1인 벡터로 표현하는 방식
  ㅇ BoW (Bag of Words)  :  단어의 순서는 무시하고 출현 빈도만으로 문서를 표현하는 방법
  ㅇ N-gram  :  연속적으로 나타나는 N개의 단어(또는 문자) 묶음
  ㅇ TF-IDF (Term Frequency–Inverse Document Frequency)  :  단어의 중요도를 빈도 기반으로 계산

LLM, NLP
1. 자연어 처리 (NLP)   2. 자연어 처리 용어   3. N-gram   4. 편집 거리   5. 언어 모델   6. 대규모 언어 모델 (LLM)   7. 임베딩   8. 어텐션   9. 트랜스포머  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]