Information Retrieval, Search Engine   정보 검색, 검색 엔진

(2022-07-10)

검색, Data Retrieval, 자료 검색, Content-based Retrieval, 내용기반 검색, Web Search, 웹 검색


1. 검색 (Retrieval / Search) 이란?

  ㅇ 검색은,
     - 광의로, 정보의 구조,분석,조직화,저장,탐색,검색 등을 모두 포괄하는 총칭
        . 크게, 정보의 축적 (storage)과 검색 (retrieval) 과정으로 나눌 수 있음
     - 협의로, 많은 데이터 중 원하는 데이터 만을 찾는 것

  ㅇ `Retrieval (검색)`과 `Search (검색)` 비교
     * 통상, Retrieval 및 Search (검색)이 혼용되나, 
        . Retrieval은, 적합 정보를 찾아가는 체계적 조사 과정 상의 행위를 강조함
        . Search은, 적합 정보를 찾아내는 결과 행위를 강조함

  ㅇ `자료 검색`과 `정보 검색` 비교
     - 자료 검색 (Data Retrieval)
        . 정형화/구조화된 자료를 대상으로하는 검색    ☞ 검색 알고리즘 참조
           .. DBMS에서 인덱스 키 값으로 검색하는 방식
     - 정보 검색 (Information Retrieval) 때론 문헌 검색(Document Retrieval)
        . 주로, 비정형화된(비구조적인) 자료를 대상으로 하는 검색을 말함
           .. 질의어를 만족시키는 특정 주제와 관련되는 결과 목록을 얻어내는 것


2. 정보검색 구분

  ㅇ 검색기법(검색모델) 구분
     - 단순 키워드 검색
     - 불리언(Boolean) 검색
     - 확률 검색
     - 벡터공간 검색 등

  ㅇ 검색유형 구분
     - 질의기반 검색 : 검색엔진을 통해 사용자 질의에 기반한 키워드로 검색하는 방식
        . 미리 수집하여 검색이 쉬운 형태로 조직화시켜,
        . 필요시 순위화된 문서 리스트 형태로 즉시 제공하는  검색 형태
     - 수직 검색(Vertical Search) : 검색영역을 특정 주제에 제한시킴
     - 내용기반 검색(Content-based Retrieval) : 비 문자 미디어를 대상으로 함
        . 例) 내용기반 영상검색 : 영상 내부의 색상,질감,모양 등 내용 정보영상 검색
     - 기업용 검색(Enterprise Search) : 기업 인트라넷에 산재된 다양한 정보들에서
                                        필요한 정보를 찾는 것
     - 질의응답 : 질의에 대한 정답을 사용자에게 제시하는 것


3. 검색 엔진 (Search Engine)

  ㅇ 주로, 비구조적인(비정형화된) 텍스트 검색에 특화된 전문 소프트웨어 시스템
     - 텍스트 외에도 그림,비디오,오디오멀티미디어도 점차 그 대상이 됨

  ㅇ 구성 요소
     - 텍스트 획득
     - 텍스트 변환 : 파서, 불용어 제거, 스테밍, 링크 추출 및 분석, 정보 추출, 분류기
     - 색인 생성
     - 사용자와의 상호작용
     - 순위 부여

  ㅇ 인터넷  검색 엔진
     - 입터넷 에서 검색 질의(query)에 적합한 문서(document)들을 찾아 수집(crawl)하고
       순위화(ranking)하여 매우 짧은 시간에 그 결과를 제공하는 시스템
        . 例) 루씬(Lucene) : 대중적인 자바 기반 검색엔진, 구글(Google) : 상업용 검색엔진

     -  검색엔진 종류
        .  인덱스 방식
           .. 로봇을 사용
           .. 다루게되는 인덱스 데이터베이스가 매우 큼
        .  디렉토리 방식
        . 통합형 검색엔진

[정보검색 ⇩]1. 정보 검색   2. 정보검색 용어   3. 인덱스   4. 인덱스 키   5. 메타데이터   6. 시맨틱 웹   7. 온톨로지  

  1. Top (분류 펼침)      :     1,591개 분류    6,513건 해설

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]       편집·운영 (차재복)          편집 후원          편집 이력 (금일 3건)