정보 검색 용어

정보 검색 용어	(2026-02-03)
Thesaurus, 시소러스, Full Text Search, Full Text Retrieval, 전문 검색, Inverted Index, 역 색인, 역 파일 색인, 자동 색인, Text, 텍스트, Keyword, 키워드, 불용어

▷ Top ▷ 정보기술(IT) ▷ IT 기타기술 ▷ 정보검색

1. 정보 검색 관련 용어

  ㅇ 텍스트 (Text)
     - 보통은, 기호 또는 언어 문자로 이루어진 복합체
     - 광의로는, 쓰여지거나 인쇄된 문헌
     - 한편, 자연언어 처리의 대상이 되는 텍스트는, 다음과 같이 세분화될 수 있음 (즉,토큰화)
        . 문단 -> 문장 -> 단어 -> 형태소

  ㅇ 문서 (Document)
     - 정보 검색의 대상이 되는 개별 텍스트 단위
     - 이의 내용을 분석하여, 분류, 주제 추출, 구조 파악, 색인 생성 등을 하게 됨

  ㅇ 키워드/핵심어 (Keyword)
     * (핵심적인 의미를 전달하는 단어나 구문)
     - 사용자의 질의 내용을 구체화한 중요 단어 (질의어)
     - 때론, 문서 내용을 요약한 핵심적인 단어 (핵심어)
     - 또는, 프로그램의 구성 단위 중 하나              ☞ 식별자 예약어 키워드 토큰 어휘항목 비교
        . 프로그래밍 언어에서, 이미 정해진 의미를 갖음

  ㅇ 시소러스 (Thesaurus)
     - 단어,단어구, 이들 간의 계층관계,연관관계,동의어,동형이의어 등으로 구성된 일종의 사전
     - 검색 효율을 향상시키는 도구로 활용됨

  ㅇ 색인 (Index), 색인어 (Index Term), 색인화 (Indexing)
     - 색인  :  검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조를 말함
     - 색인어  :  정보 검색의 대상이 되는 단어로써, 색인 작업시 그 대상이 됨
     - 색인화  :  문헌들로부터 추출된 각 색인어별 문헌 리스트를 생성하는 작업임

  ㅇ 역색인 (Inverted Index)
     - 작은 내용으로 키 값 및 자세한 내용을 알 수 있게하는 색인
        . 사용자가 원하는 정보(키워드)를 주면, 그 정보가 포함된 모든 문서를 찾아주는 색인
     - 일반적인 색인(문서 내용 → 키워드) 구조와는 반대로, (키워드 → 문서 목록)의 구조를 가짐
        . 사용자가 원하는 정보(키워드)를 입력하면, 그 키워드를 포함한 모든 문서를 찾아줌

  ㅇ 역 파일 색인 (Inverted File Index)
     - 각 문서로부터 색인어(검색어로 사용할 단어)를 추출하여 검색어 사전을 생성
     - 이 검색어 사전 내에,
        . 각 검색어 및 해당 검색어가 있는 문서들의 정보(문서 ID, 위치 등)를 저장

  ㅇ 자동 색인 (Automatic Indexing)
     - 소프트웨어를 활용하여 자동으로 색인어(검색어)를 추출하는 것
        . 문서 색인 단계 : 문서들에서 색인어 추출
        . 검색 단계 : 사용자가 입력한 질의어에서 색인어 추출

  ㅇ 스테밍 (Stemming, 어간/어근 추출)
     - 공통적인 어근(stem)으로부터 도출되는 단어들을 그룹핑하는 것
        . 例) fish, fishes, fishing => fish로 그룹핑
        . 어간 : 어형 변화의 기초가 되는 부분
        . 어근 : 단어의 가장 중심이 되는 형태소

  ㅇ 불용어 제거 (Stopping)
     - 문장 구조 형성에 만 도움을 주고 주제에는 거의 도움이 되지 않는 불용어(stopword)의 제거
        . 例) the, of, to, for 등

  ㅇ 전문 검색 (Full Text Search, Full Text Retrieval)
     - DB 내 이미 정형화/키워드화 되어 있는 작은 값이 대상이 아니라,
     - 특정 키워드가 포함된 문서 전체(전문,Full Text)를 대상으로 특정 키워드 검색
        . 例) 게시판 게시물 등의 내용 중 포함된 특정 키워드 검색
     * 이는 인터넷 검색 엔진의 동작 원리와 유사함

  ㅇ 웹 크롤러 (Crawler) / 웹 로봇 (Robot) / 스파이더 (Spider)
     - 검색엔진을 대신하여 웹페이지를 수집해오는 프로그램

▷ 정보검색

1. 정보 검색 2. 정보검색 용어 3. 인덱스 4. 인덱스 키 5. 메타데이터 6. 시맨틱 웹 7. 온톨로지

용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"

[정보통신기술용어해설]

정보 검색 용어

Thesaurus, 시소러스, Full Text Search, Full Text Retrieval, 전문 검색, Inverted Index, 역 색인, 역 파일 색인, 자동 색인, Text, 텍스트, Keyword, 키워드, 불용어