1. 인덱스, 지표 이란?
ㅇ [일반] 어떤 현상에 대한 계량적, 수치적 표현
ㅇ [자료구조] 특정 요소를 빠르게 참조할 수 있는 별도의 수단
ㅇ [정보검색] 검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조
2. [일반] 지표 (指標, Index, Indicator)
ㅇ 어떤 현상에 대한 계량적, 수치적 표현
ㅇ 사용 목적
- 타 대상과의 비교, 어떤 현상에 대한 대표성 확보, 계량분석을 통한
장래 이용을 위한 기초자료화 등
ㅇ 주요 용도
- 예측에 이용, 관련자들에게 공통의 인식 및 의사소통을 갖게함
ㅇ 주요 단점
- 특정 상황에 대해 구체적인 지식 등을 전달할 수 없음
- 현재와 과거를 동일선상에 두고 예단함으로써 상황 변화를 간과할 수 있음
ㅇ 지표의 유형 ☞ 자료 표현(양적 자료,질적 자료) 참조
- 질적(Qualitative) 지표 및 양적(Quantative) 지표
- 정태적(Static) 지표 및 동태적(Dynamic) 지표
ㅇ 주요 특징
- 지표는 항상 측정 행위를 수반하게됨
3. [자료구조] 색인 (Index)
ㅇ 빠른 참조 수단
- 행렬,배열,리스트 등에서 특정 요소를 빠르게 참조할 수 있는 별도의 수단
. 통상적으로, 정수 값
- 표현 例) 행렬 A를 [aij]로 표시할 수 있으며,
. 아래첨자 i,j를 각각 행과 열의 인덱스라고 함
ㅇ 빠른 검색 수단
- 빠른 검색을 위한, 색인 역할이 가능한 키(Key)로써의 수단
. 例) 이진 검색 트리, B 트리, 해시 테이블 등
4. [정보검색] 색인 (Indexing, 인덱싱)
ㅇ 색인(Index), 색인어(Index Term), 색인화(Indexing) 비교
- 색인(Index)은, 검색 속도를 개선하기 위해 추가적으로 만들어진 자료구조를 말함
- 색인어(Index Term)는, 정보 검색의 대상이 되는 단어로써, 색인 작업시 그 대상이 됨
- 색인화(Indexing)는, 원하는 데이터를 빨리 접근하기 위한 작업임
ㅇ 색인화 (인덱싱,Indexing) 이란?
- 원하는 데이터를 빨리 접근하기 위한 방안
. 먼저 인덱스(Index)를 찾고 그것이 가리키는 주소를 따라가 원하는 데이터에 접근하게 됨
- 주로, 문서 내용을 대표하는 식별자(색인어,주제어,특징)를 추출하는 일
. 색인화 결과 추출된 요소를 색인어(index term) 또는 특징(feature) 이라고 함
. 색인어는 검색에 사용되는 문서 내용의 표현(representation)임
ㅇ 색인 역할 (문헌의 지시,선별,목록화)
- 검색 수단 : 사용자 질의와 문서를 연결 지시해주는 수단
- 속도 향상 : 문서 탐색 속도 향상을 위한 보조적 자료
- 자료 목록 : 문서 위치를 포함하는 목록화, 문서 위치 지시
- 키워드화 가능 : 문서 주제를 나타내는 핵심어로써의 역할도 가능
ㅇ 색인 단점
- 별도 저장 공간 필요
- 항상 최신의 갱신 필요
ㅇ 색인 구분
- 수동 색인, 자동 색인
. 수동 색인 : 전문가에 의한 색인 작업
. 자동 색인 : 컴퓨터에 의한 색인 작업
.. 문헌 텍스트를 분석한 후 문헌 내용을 대표하는 단어 추출 즉 색인어의 선정 작업
.. 먼저, 텍스트 구성 단어들을 주제어,비주제어(불용어,stop words)로 구분하고,
주제어를 색인어로 선정
- 주제어 색인, 비주제어 색인
. 주제어 색인 : 문헌 내용/주제를 직접 표현하는 이용자관점의 색인화
.. 웹 정보검색은 주로 이를 통해 이루어짐
. 비주제어 색인 : 저자명,작성년도,표제 등 주제와 직접적인 관련이 없는 색인화
ㅇ 색인에 주로 쓰이는 자료구조
- 계층 구조화(B-tree), 해싱(직접 탐색에 유용) 등
※ [참고용어] ☞ 키 (Key)
- 다른 원소와 구별할 수 있는 정형화된 속성 모음