1. 검색 (Retrieval / Search) 이란?
ㅇ 검색은,
- 광의로, 정보의 구조,분석,조직화,저장,탐색,검색 등을 모두 포괄하는 총칭
. 크게, 정보의 축적 (storage)과 검색 (retrieval) 과정으로 나눌 수 있음
- 협의로, 많은 데이터 중 원하는 데이터 만을 찾는 것
ㅇ `Retrieval (검색)`과 `Search (검색)` 비교
* 통상, Retrieval 및 Search (검색)이 혼용되나,
. Retrieval은, 적합 정보를 찾아가는 체계적 조사 과정 상의 행위를 강조함
. Search은, 적합 정보를 찾아내는 결과 행위를 강조함
ㅇ `자료 검색`과 `정보 검색` 비교
- 자료 검색 (Data Retrieval)
. 정형화/구조화된 자료를 대상으로하는 검색 ☞ 검색 알고리즘 참조
.. DBMS에서 인덱스 키 값으로 검색하는 방식
- 정보 검색 (Information Retrieval) 때론 문헌 검색(Document Retrieval)
. 주로, 비정형화된(비구조적인) 자료를 대상으로 하는 검색을 말함
.. 질의어를 만족시키는 특정 주제와 관련되는 결과 목록을 얻어내는 것
2. 정보검색 구분
ㅇ 검색기법(검색모델) 구분
- 단순 키워드 검색
- 불리언(Boolean) 검색
- 확률 검색
- 벡터공간 검색 등
ㅇ 검색유형 구분
- 질의기반 검색 : 검색엔진을 통해 사용자 질의에 기반한 키워드로 검색하는 방식
. 미리 수집하여 검색이 쉬운 형태로 조직화시켜,
. 필요시 순위화된 문서 리스트 형태로 즉시 제공하는 웹 검색 형태
- 수직 검색(Vertical Search) : 검색영역을 특정 주제에 제한시킴
- 내용기반 검색(Content-based Retrieval) : 비 문자 미디어를 대상으로 함
. 例) 내용기반 영상검색 : 영상 내부의 색상,질감,모양 등 내용 정보로 영상 검색
- 기업용 검색(Enterprise Search) : 기업 인트라넷에 산재된 다양한 정보들에서
필요한 정보를 찾는 것
- 질의응답 : 질의에 대한 정답을 사용자에게 제시하는 것
3. 검색 엔진 (Search Engine)
ㅇ 주로, 비구조적인(비정형화된) 텍스트 검색에 특화된 전문 소프트웨어 시스템
- 텍스트 외에도 그림,비디오,오디오 등 멀티미디어도 점차 그 대상이 됨
ㅇ 구성 요소
- 텍스트 획득
- 텍스트 변환 : 파서, 불용어 제거, 스테밍, 링크 추출 및 분석, 정보 추출, 분류기
- 색인 생성
- 사용자와의 상호작용
- 순위 부여
ㅇ 인터넷 웹 검색 엔진
- 입터넷 웹에서 검색 질의(query)에 적합한 문서(document)들을 찾아 수집(crawl)하고
순위화(ranking)하여 매우 짧은 시간에 그 결과를 제공하는 시스템
. 例) 루씬(Lucene) : 대중적인 자바 기반 검색엔진, 구글(Google) : 상업용 검색엔진
- 웹 검색엔진 종류
. 웹 인덱스 방식
.. 로봇을 사용
.. 다루게되는 인덱스 데이터베이스가 매우 큼
. 웹 디렉토리 방식
. 통합형 검색엔진