Unicode, ISO 10646   International Organization for Standardization 10646   유니코드

(2018-09-27)

UTF-8, UTF-16

1. ISO-10646 또는 Unicode

  ㅇ 흔히 Unicode라고 불리는 문자세트(문자집합)과 그 부호화에 대해서 정의하고 있는 표준

  ㅇ 유니코드 콘소시엄과 ISO/IEC가 협력하여 만듬
     - ISO/IEC 10646 (국내 KS X 1005-1)


2. 유니코드 특징

  ㅇ 유니코드는 문자 각각에 부여되는 데이터값을 모두 16비트(2 바이트)로 통일하여,
     - 모든 문자 간의 호환성을 제고하여, 컴퓨터에 의한 데이터의 저장 및 교환을 가능하게 함
     - 하나의 문서 내에 여러 나라 언어를 혼합 작성하는 것이 가능하게 됨

     - 例) 아래 유니코드 홈페이지에 가 보면 여러나라 언어가 함께 보여짐
        .  ☞ 유니코드 홈페이지 

  ㅇ 한글의 경우, 
     - 전체 65,536 자의 17.04%(11,172 자)가,
        . Ox AC00(`가`)~D7A3(`힣`) 영역에 가나다 순으로 할당되어있음


3. 유니코드 주요 인코딩 방식 : UTF-8, UTF-16, ACE(ASCII Compatible Encoding) 등

  ㅇ UTF-8  : 유니코드를 위한 가변 길이 문자 인코딩 방식 중의 하나 (가장 보편적으로 사용)
     - 1~4 바이트
        . ASCII (영문,공백문자,기호 등) 1 바이트 (128 문자로 인코딩)
        . 로마/그리스/아랍문자 2 바이트 (1920 문자로 인코딩)
        . 중국/일본/한국 3 바이트 (63488 문자로 인코딩)
     - UTF-8은, 유닉스,HTML,웹페이지(웹브라우저) 등에서 주로 쓰임

  ㅇ UCS-2  : 모든 문자를 2 바이트로 표현 (65535개)
  ㅇ UTF-16 : UCS-2의 확장, 4 바이트로 표현 (1114112 문자로 인코딩)
     - 유니코드로 표현할 수 있는 범위를 넘어서는 것(특수 한자,이모티콘 등)도 표현 가능
  ㅇ UCS-4  : 모든 문자를 4 바이트로 표현


[자료표현(알파벳/코드)] 1. 알파뉴메릭 코드 2. ASCII 코드 3. KSC5601 한글완성형코드표준 4. 유니코드 5. 확장 유닉스 코드(EUC) 6. 문자 셋 7. MSB,LSB 8. Big-endian,Little-endian
[제어 문자]
  1.   기술공통
  2.   기초과학
  3.   진동/파동
  4.   방송/멀티미디어/정보이론
  5.   전기전자공학
  6.   통신/네트워킹
  7.   정보기술(IT)
        1. 정보기술
    1.   전산기초
    2.   컴퓨터구조
    3.   프로그래밍
          1. 프로그램,프로그래밍
      1.   프로그래밍 언어론
      2.   객체지향
      3.   자료구조
      4.   알고리즘
      5.   자료표현(알파벳/코드)
            1. 알파뉴메릭 코드
            2. ASCII 코드
            3. KSC5601 한글완성형코드표준
            4. 유니코드
            5. 확장 유닉스 코드(EUC)
            6. 문자 셋
            7. MSB,LSB
            8. Big-endian,Little-endian
        1.   제어 문자
      6.   시스템 소프트웨어
      7.   프로그래밍언어 종류
      8.   프로그래밍 기타일반
    4.   데이터베이스
    5.   소프트웨어 공학
    6.   운영체제
    7.   정보보호/보안
    8.   IT 기타기술
  8.   공업일반(기계,재료등)
  9.   표준/계측/품질
  10.   기술경영

 
        최근수정     요약목록(시험중)     참고문헌