정보 검색 용어

(2018-02-26)

Thesaurus, 시소러스, Full Text Search, Full Text Retrieval, 전문 검색, Inverted Index, 역색인, Text, 텍스트

1. 정보 검색 관련 용어

  ㅇ 키워드 (Keyword)
     - 사용자의 질의 내용을 구체화한 중요 단어 (질의어)
     - 때론, 문서 내용을 요약한 핵심적인 단어 (핵심어)

  ㅇ 텍스트 (Text)
     - 보통은, 기호 또는 언어 문자로 이루어진 복합체
     - 광의로는, 쓰여지거나 인쇄된 문헌
     - 자연언어 처리의 대상이 되는 텍스트는 다음과 같이 나누어짐(즉,토큰화)
        . 문단 -> 문장 -> 단어 -> 형태소

  ㅇ 시소러스 (Thesaurus)
     - 단어,단어구, 이들 간의 계층관계,연관관계,동의어,동형이의어 등으로 구성된 일종의 사전
     - 검색 효율을 향상시키는 도구로 활용됨

  ㅇ 색인(Index), 색인어(Index Term), 색인화(Indexing)
     - 색인(Index)은, 검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조를 말함
     - 색인어(Index Term)는, 정보 검색의 대상이 되는 단어로써, 색인 작업시 그 대상이 됨
     - 색인화(Indexing)는, 문헌들로부터 추출된 각 색인어별 문헌 리스트를 생성하는 작업임

  ㅇ 역색인 (Inverted Index)
     - 작은 내용으로 키 값 및 자세한 내용을 알 수 있게하는 색인
        . 사용자가 원하는 정보(키워드)를 주면, 그 정보가 포함된 모든 문서를 찾아주는 색인
     - 역색인은 일반적인 색인 구조와 정반대의 색인 구조를 갖음

  ㅇ 스테밍 (Stemming, 어간/어근 추출)
     - 공통적인 어근(stem)으로부터 도출되는 단어들을 그룹핑하는 것
        . 例) fish, fishes, fishing => fish로 그룹핑
        . 어간 : 어형 변화의 기초가 되는 부분
        . 어근 : 단어의 가장 중심이 되는 형태소

  ㅇ 불용어 제거 (Stopping)
     - 문장 구조 형성에 만 도움을 주고 주제에는 거의 도움이 되지 않는 불용어(stopword)의 제거
        . 例) the, of, to, for 등

  ㅇ 전문 검색 (Full Text Search,Full Text Retrieval)
     - DB 내 이미 정형화/키워드화 되어 있는 작은 값이 대상이 아니라,
     - 특정 키워드가 포함된 문서 전체(전문,Full Text)를 대상으로 특정 키워드 검색
        . 例) 게시판 게시물 등의 내용 중 포함된 특정 키워드 검색
     * 이는 인터넷 검색 엔진의 동작 원리와 유사함

  ㅇ 크롤러(Crawler)/웹로봇(Robot)/스파이더(Spider)
     - 검색엔진을 대신하여 웹페이지를 수집해오는 프로그램


[정보검색] 1. 정보 검색 2. 정보검색 용어 3. 인덱스 4. 인덱스 키 5. 메타데이터 6. 시맨틱 웹 7. 온톨로지

 
        최근수정     요약목록(시험중)     참고문헌