정보 검색 용어

(2024-07-12)

Thesaurus, 시소러스, Full Text Search, Full Text Retrieval, 전문 검색, Inverted Index, 역색인, Text, 텍스트, Keyword, 키워드


1. 정보 검색 관련 용어

  ㅇ 텍스트 (Text)
     - 보통은, 기호 또는 언어 문자로 이루어진 복합체
     - 광의로는, 쓰여지거나 인쇄된 문헌
     - 한편, 자연언어 처리의 대상이 되는 텍스트는, 다음과 같이 세분화될 수 있음 (즉,토큰화)
        . 문단 -> 문장 -> 단어 -> 형태소

  ㅇ 키워드/핵심어 (Keyword)
     * (핵심적인 의미를 전달하는 단어나 구문)
     - 사용자의 질의 내용을 구체화한 중요 단어 (질의어)
     - 때론, 문서 내용을 요약한 핵심적인 단어 (핵심어)
     - 또는, 프로그램의 구성 단위 중 하나

  ㅇ 시소러스 (Thesaurus)
     - 단어,단어구, 이들 간의 계층관계,연관관계,동의어,동형이의어 등으로 구성된 일종의 사전
     - 검색 효율을 향상시키는 도구로 활용됨

  ㅇ 색인 (Index), 색인어 (Index Term), 색인화 (Indexing)
     - 색인(Index)은, 검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조를 말함
     - 색인어(Index Term)는, 정보 검색의 대상이 되는 단어로써, 색인 작업시 그 대상이 됨
     - 색인화(Indexing)는, 문헌들로부터 추출된 각 색인어별 문헌 리스트를 생성하는 작업임

  ㅇ 역색인 (Inverted Index)
     - 작은 내용으로 키 값 및 자세한 내용을 알 수 있게하는 색인
        . 사용자가 원하는 정보(키워드)를 주면, 그 정보가 포함된 모든 문서를 찾아주는 색인
     - 역색인은 일반적인 색인 구조와 정반대의 색인 구조를 갖음

  ㅇ 스테밍 (Stemming, 어간/어근 추출)
     - 공통적인 어근(stem)으로부터 도출되는 단어들을 그룹핑하는 것
        . 例) fish, fishes, fishing => fish로 그룹핑
        . 어간 : 어형 변화의 기초가 되는 부분
        . 어근 : 단어의 가장 중심이 되는 형태소

  ㅇ 불용어 제거 (Stopping)
     - 문장 구조 형성에 만 도움을 주고 주제에는 거의 도움이 되지 않는 불용어(stopword)의 제거
        . 例) the, of, to, for 등

  ㅇ 전문 검색 (Full Text Search, Full Text Retrieval)
     - DB 내 이미 정형화/키워드화 되어 있는 작은 값이 대상이 아니라,
     - 특정 키워드가 포함된 문서 전체(전문,Full Text)를 대상으로 특정 키워드 검색
        . 例) 게시판 게시물 등의 내용 중 포함된 특정 키워드 검색
     * 이는 인터넷 검색 엔진의 동작 원리와 유사함

  ㅇ 크롤러 (Crawler) / 웹로봇 (Robot) / 스파이더 (Spider)
     - 검색엔진을 대신하여 웹페이지를 수집해오는 프로그램

[정보검색]1. 정보 검색   2. 정보검색 용어   3. 인덱스   4. 인덱스 키   5. 메타데이터   6. 시맨틱 웹   7. 온톨로지  


"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]       편집·운영 (차재복)          편집 후원          편집 이력 (금일 2건)
  1. Top (분류 펼침)      :     1,591개 분류    6,512건 해설