1. 자연어 처리 용어
ㅇ 자연어 (Natural Language) : 사람이 일상적으로 사용하는 언어
ㅇ 자연어 처리 (NLP) : 인간의 언어를 컴퓨터가 이해,분석,생성하도록 하는 기술
ㅇ 어휘집/어휘목록/어휘사전 (Vocabulary) : 모델이 인식 가능한 단어,토큰들의 집합
ㅇ 코퍼스 (Corpus) : 언어 분석을 위한 대규모 텍스트 데이터 모음
ㅇ 시소러스 (Thesaurus) : 유의어 사전
- WordNet 등에 수많은 단어 동의어와 계층구조 등이 수작업으로 정의되어 있음
ㅇ 토큰화 (Tokenization) : 문장을 단어,형태소,문자 등의 단위로 나누는 과정
ㅇ 토큰 (Token) : 자연어를 컴퓨터가 처리하는 기본 단위
ㅇ 형태소 (Morpheme) : 의미를 가지는 가장 작은 언어 단위
ㅇ 형태소 분석 (Morphological Analysis) : 단어를 형태소 단위로 분리하고 품사를 분석하는 과정
ㅇ 어간 추출 (Stemming) : 단어의 어미,접사 등을 제거하여 기본 어간을 얻는 기법
ㅇ 표제어 추출 (Lemmatization) : 단어를 사전상의 기본형(표제어)으로 변환하는 과정
ㅇ 품사 태깅 (POS Tagging, , Part-of-Speech Tagging) : 각 단어에 품사 정보를 부여하는 작업
ㅇ 편집 거리 (Edit Distance) : 한 문자열을 다른 문자열로 변환하는 데 필요한 최소 편집 횟수
ㅇ 불용어 (Stopword) : 분석에서 의미가 적은 단어 (`은`,`는`,`이`,`가` 등)
ㅇ 정규화 (Normalization) : 서로 다른 표현의 일관된 변환 (대소문자 통일,특수문자 제거 등)
ㅇ 벡터화 (Vectorization) : 텍스트를 벡터 공간 내 수치 벡터 형태로 변환하는 과정
ㅇ 원-핫 인코딩 (One-Hot Encoding) : 단어를 하나의 위치만 1인 벡터로 표현하는 방식
ㅇ BoW (Bag of Words) : 단어의 순서는 무시하고 출현 빈도만으로 문서를 표현하는 방법
ㅇ N-gram : 연속적으로 나타나는 N개의 단어(또는 문자) 묶음
ㅇ TF-IDF (Term Frequency–Inverse Document Frequency) : 단어의 중요도를 빈도 기반으로 계산