1. 정보 검색 관련 용어
ㅇ 텍스트 (Text)
- 보통은, 기호 또는 언어 문자로 이루어진 복합체
- 광의로는, 쓰여지거나 인쇄된 문헌
- 한편, 자연언어 처리의 대상이 되는 텍스트는, 다음과 같이 세분화될 수 있음 (즉,토큰화)
. 문단 -> 문장 -> 단어 -> 형태소
ㅇ 키워드/핵심어 (Keyword)
* (핵심적인 의미를 전달하는 단어나 구문)
- 사용자의 질의 내용을 구체화한 중요 단어 (질의어)
- 때론, 문서 내용을 요약한 핵심적인 단어 (핵심어)
- 또는, 프로그램의 구성 단위 중 하나
ㅇ 시소러스 (Thesaurus)
- 단어,단어구, 이들 간의 계층관계,연관관계,동의어,동형이의어 등으로 구성된 일종의 사전
- 검색 효율을 향상시키는 도구로 활용됨
ㅇ 색인 (Index), 색인어 (Index Term), 색인화 (Indexing)
- 색인(Index)은, 검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조를 말함
- 색인어(Index Term)는, 정보 검색의 대상이 되는 단어로써, 색인 작업시 그 대상이 됨
- 색인화(Indexing)는, 문헌들로부터 추출된 각 색인어별 문헌 리스트를 생성하는 작업임
ㅇ 역색인 (Inverted Index)
- 작은 내용으로 키 값 및 자세한 내용을 알 수 있게하는 색인
. 사용자가 원하는 정보(키워드)를 주면, 그 정보가 포함된 모든 문서를 찾아주는 색인
- 역색인은 일반적인 색인 구조와 정반대의 색인 구조를 갖음
ㅇ 스테밍 (Stemming, 어간/어근 추출)
- 공통적인 어근(stem)으로부터 도출되는 단어들을 그룹핑하는 것
. 例) fish, fishes, fishing => fish로 그룹핑
. 어간 : 어형 변화의 기초가 되는 부분
. 어근 : 단어의 가장 중심이 되는 형태소
ㅇ 불용어 제거 (Stopping)
- 문장 구조 형성에 만 도움을 주고 주제에는 거의 도움이 되지 않는 불용어(stopword)의 제거
. 例) the, of, to, for 등
ㅇ 전문 검색 (Full Text Search, Full Text Retrieval)
- DB 내 이미 정형화/키워드화 되어 있는 작은 값이 대상이 아니라,
- 특정 키워드가 포함된 문서 전체(전문,Full Text)를 대상으로 특정 키워드 검색
. 例) 게시판 게시물 등의 내용 중 포함된 특정 키워드 검색
* 이는 인터넷 검색 엔진의 동작 원리와 유사함
ㅇ 크롤러 (Crawler) / 웹로봇 (Robot) / 스파이더 (Spider)
- 검색엔진을 대신하여 웹페이지를 수집해오는 프로그램