Index, Indicator   인덱스, 지표(指標), 색인

(2020-10-30)

Indexing, 색인화, 인덱싱


1. 인덱스, 지표 이란?

  ㅇ [일반]      어떤 현상에 대한 계량적, 수치적 표현
  ㅇ [자료구조]  특정 요소를 빠르게 참조할 수 있는 별도의 수단
  ㅇ [정보검색]  검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조


2. [일반]  지표 (指標, Index,Indicator)

  ㅇ 어떤 현상에 대한 계량적, 수치적 표현

  ㅇ 사용 목적  
     - 타 대상과의 비교, 어떤 현상에 대한 대표성 확보, 계량분석을 통한 
       장래 이용을 위한 기초자료화 등

  ㅇ 주요 용도
     - 예측에 이용, 관련자들에게 공통의 인식 및 의사소통을 갖게함

  ㅇ 주요 단점
     - 특정 상황에 대해 구체적인 지식 등을 전달할 수 없음
     - 현재와 과거를 동일선상에 두고 예단함으로써 상황 변화를 간과할 수 있음

  ㅇ 지표의 유형                                     ☞ 자료 표현(양적 자료,질적 자료) 참조
     - 질적(Qualitative) 지표 및 양적(Quantative) 지표
     - 정태적(Static) 지표 및 동태적(Dynamic) 지표

  ㅇ 주요 특징
     - 지표는 항상 측정 행위를 수반하게됨


3. [자료구조]  색인 (Index)

  ㅇ 참조 수단
     - 행렬,배열,리스트 등에서 특정 요소를 빠르게 참조할 수 있는 별도의 수단
        . 통상적으로, 정수 값

     - 표현 例) 행렬 A를 [aij]로 표시할 수 있으며, 
        . 아래첨자 i,j를 각각 행과 열의 인덱스라고 함

  ㅇ 색인 역할이 가능한 주요 자료구조
     - 이진 검색 트리, B 트리, 해시 테이블4. [정보검색]  색인 (Indexing, 인덱싱)

  ㅇ 색인(Index), 색인어(Index Term), 색인화(Indexing) 비교
     - 색인(Index)은, 검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조를 말함
     - 색인어(Index Term)는, 정보 검색의 대상이 되는 단어로써, 색인 작업시 그 대상이 됨
     - 색인화(Indexing)는, 원하는 데이터를 빨리 접근하기 위한 작업임

  ㅇ 색인화 (인덱싱,Indexing) 이란?
     - 원하는 데이터를 빨리 접근하기 위한 방안
        . 먼저 인덱스(Index)를 찾고 그것이 가리키는 주소를 따라가 원하는 데이터에 접근하게 됨

     - 주로, 문서 내용을 대표하는 식별자(색인어,주제어,특징)를 추출하는 일
        . 색인화 결과 추출된 요소를 색인어(index term) 또는 특징(feature) 이라고 함
           . 색인어는 검색에 사용되는 문서 내용의 표현(representation)임

  ㅇ 색인 역할 (문헌의 지시,선별,목록화)
     - 검색 수단     : 사용자 질의와 문서를 연결 지시해주는 수단
     - 속도 향상     : 문서 탐색 속도 향상을 위한 보조적 자료
     - 자료 목록     : 문서 위치를 포함하는 목록화, 문서 위치 지시
     - 키워드화 가능 : 문서 주제를 나타내는 핵심어로써의 역할도 가능

  ㅇ 색인 단점
     - 별도 저장 공간 필요
     - 항상 최신의 갱신 필요

  ㅇ 색인 구분
     - 수동 색인, 자동 색인
        . 수동 색인 : 전문가에 의한 색인 작업
        . 자동 색인 : 컴퓨터에 의한 색인 작업
           .. 문헌 텍스트를 분석한 후 문헌 내용을 대표하는 단어 추출 즉 색인어의 선정 작업
           .. 먼저, 텍스트 구성 단어들을 주제어,비주제어(불용어,stop words)로 구분하고,
                    주제어를 색인어로 선정
     - 주제어 색인, 비주제어 색인
        . 주제어 색인   : 문헌 내용/주제를  직접 표현하는 이용자관점의 색인화
           ..  정보검색은 주로 이를 통해 이루어짐
        . 비주제어 색인 : 저자명,작성년도,표제 등 주제와 직접적인 관련이 없는 색인화

  ㅇ 색인에 주로 쓰이는 자료구조
     - 계층 구조화(B-tree), 해싱(직접 탐색에 유용) 등

  ※ [참고용어] ☞ 키 (Key)
     - 다른 원소와 구별할 수 있는 정형화된 속성 모음



Copyrightⓒ written by 차재복 (Cha Jae Bok)