1. N-gram 이란?
ㅇ "N개 단위의 연속 묶음"
- N (묶는 개수), gram (기록된 단위, 문자 조각 등)
ㅇ 연속적으로 나타나는 N개의 단어(또는 문자) 묶음
- 언어 데이터 내 "인접한 항목들의 연속 패턴"을 다루는 표현 방법
. 문장 내 단어 연속성을 바탕으로, 다음 출현 단어 확률 예측
ㅇ 例) "I love artificial intelligence"
- 1-gram (Unigram) : I, love, artificial, intelligence
- 2-gram (Bigram) : I love, love artificial, artificial intelligence
- 3-gram (Trigram) : I love artificial, love artificial intelligence
* 주로, 다음 단어 예측을 위해 사용됨
. "artificial" 다음에 "intelligence"가 자주 나오면, 다음 단어 확률을 높게 판단
ㅇ 용도
- 검색어 추출, 철자 교정, 텍스트 검색, 텍스트 유사도 측정, 자동 분류 등에 사용