Information Retrieval, Search Engine   정보 검색, 검색 엔진

(2018-02-12)

Content-based Retrieval, 내용기반 검색

1. 검색(Retrieval/Search) 이란?

  ㅇ 검색은,
     - 광의로, 정보의 구조,분석,조직화,저장,탐색,검색 등을 모두 포괄하는 총칭
        . 크게, 정보의 축적(storage)과 검색(retrieval)으로 나눌 수 있음

     * 통상, Retrieval 및 Search (검색)이 혼용되나, 
        . Retrieval은 적합 정보를 찾아가는 체계적 조사 과정상의 행위, 
        . Search은 적합 정보를 찾아내는 결과 행위를 강조함

  ㅇ 자료 검색과 정보 검색 비교
     - 자료 검색 (Data Retrieval)
        . 정형화/구조화된 자료를 대상으로하는 검색 
           .. DBMS에서 인덱스 키 값으로 검색하는 방식
     - 정보 검색 (Information Retrieval) 때론 문헌 검색(Document Retrieval)
        . 주로, 비정형화된(비구조적인) 자료를 대상으로 하는 검색을 말함
           .. 질의어를 만족시키는 특정 주제와 관련되는 결과 목록을 얻어내는 것


2. 정보검색 구분

  ㅇ 검색기법(검색모델) 구분
     - 단순 키워드 검색
     - 불리언(Boolean) 검색
     - 확률 검색
     - 벡터공간 검색 등

  ㅇ 검색유형 구분
     - 질의기반 검색 : 검색엔진을 통해 사용자 질의에 기반한 키워드로 검색하는 방식
        . 미리 수집하여 검색이 쉬운 형태로 조직화시켜,
        . 필요시 순위화된 문서 리스트 형태로 즉시 제공하는  검색 형태
     - 수직 검색(Vertical Search) : 검색영역을 특정 주제에 제한시킴
     - 내용기반 검색(Content-based Retrieval) : 비 문자 미디어를 대상으로 함
        . 例) 내용기반 영상검색 : 영상 내부의 색상,질감,모양 등 내용 정보영상 검색
     - 기업용 검색(Enterprise Search) : 기업 인트라넷에 산재된 다양한 정보들에서
                                        필요한 정보를 찾는 것
     - 질의응답 : 질의에 대한 정답을 사용자에게 제시하는 것


3. 검색 엔진 (Search Engine)

  ㅇ 주로, 비구조적인(비정형화된) 텍스트 검색에 특화된 전문 소프트웨어 시스템
     - 텍스트 외에도 그림,비디오,오디오멀티미디어도 점차 그 대상이 됨

  ㅇ 구성 요소
     - 텍스트 획득
     - 텍스트 변환 : 파서, 불용어 제거, 스테밍, 링크 추출 및 분석, 정보 추출, 분류기
     - 색인 생성
     - 사용자와의 상호작용
     - 순위 부여

  ㅇ 인터넷  검색 엔진
     - 입터넷 에서 검색 질의(query)에 적합한 문서(document)들을 찾아 수집(crawl)하고
       순위화(ranking)하여 매우 짧은 시간에 그 결과를 제공하는 시스템
        . 例) 루씬(Lucene) : 대중적인 자바 기반 검색엔진, 구글(Google) : 상업용 검색엔진

     -  검색엔진 종류
        .  인덱스 방식
           .. 로봇을 사용
           .. 다루게되는 인덱스 데이터베이스가 매우 큼
        .  디렉토리 방식
        . 통합형 검색엔진


[정보검색] 1. 정보 검색 2. 정보검색 용어 3. 인덱스 4. 인덱스 키 5. 메타데이터 6. 시맨틱 웹 7. 온톨로지
  1.   기술공통
  2.   기초과학
  3.   진동/파동
  4.   방송/멀티미디어/정보이론
  5.   전기전자공학
  6.   통신/네트워킹
  7.   정보기술(IT)
        1. 정보기술
    1.   전산기초
    2.   컴퓨터구조
    3.   프로그래밍
    4.   데이터베이스
    5.   소프트웨어 공학
    6.   운영체제
    7.   정보보호/보안
    8.   IT 기타기술
      1.   임베디드시스템
      2.   로봇
      3.   정보검색
        1.   1. 정보 검색
            2. 정보검색 용어
            3. 인덱스
            4. 인덱스 키
            5. 메타데이터
            6. 시맨틱 웹
            7. 온톨로지
      4.   인공지능
      5.   VR,AR
  8.   공업일반(기계,재료등)
  9.   표준/계측/품질
  10.   기술경영

 
        최근수정     요약목록(시험중)     참고문헌