Unicode, ISO 10646   International Organization for Standardization 10646   유니코드

(2016-03-01)

UTF-8

1. ISO-10646 또는 Unicode

  ㅇ 흔히 Unicode라고 불리는 문자세트(집합)과 그 부호화에 대해서 정의하고 있는 표준


2. 유니코드 특징

  ㅇ 유니코드는 문자 각각에 부여되는 데이터값을 모두 16비트(2 바이트)로 통일하여,
     - 모든 문자 간의 호환성을 제고하여, 컴퓨터에 의한 데이터의 교환을 가능하게 함
        . 하나의 문서 내에 여러 나라 언어를 혼합 작성하는 것이 가능하게 됨

     - 例) 아래 유니코드 홈페이지에 가 보면 여러나라 언어가 함께 보여짐
        .  ☞ 유니코드 홈페이지 

     - 일반적으로, 웹브라우저 인코딩이 디폴트로 유니코드(UTF-8)로 설정되고 있음

  ㅇ 한글의 경우, 
     - 전체 65,536 자의 17.04%(11,172 자)가,
        . Ox AC00(`가`)~D7A3(`힣`) 영역에 가나다 순으로 할당되어있음


3. 유니코드 주요 인코딩 방식 : UTF-8, UTF-16, ACE(ASCII Compatible Encoding) 등

  ㅇ UTF-8  : 유니코드를 위한 가변 길이 문자 인코딩 방식 중의 하나 (가장 보편적으로 사용)
     - 1~4 바이트
        . ASCII (영문,공백문자,기호 등) 1 바이트 (128 문자로 인코딩)
        . 로마/그리스/아랍문자 2 바이트(1920 문자로 인코딩)
        . 중국/일본/한국 3 바이트(63488 문자로 인코딩)

  ㅇ UCS-2  : 모든 문자를 2 바이트로 표현 (65535개)
  ㅇ UTF-16 : UCS-2의 확장, 4 바이트로 표현 (1114112 문자로 인코딩)
  ㅇ UCS-4  : 모든 문자를 4 바이트로 표현


[자료표현(알파벳/코드)] 1. 알파뉴메릭 코드 2. ASCII 코드 3. KSC5601 한글완성형코드표준 4. 유니코드 5. 확장 유닉스 코드(EUC) 6. 문자 셋 7. MSB,LSB 8. Big-endian,Little-endian
[제어 문자]

 
        최근수정     모바일웹     참고문헌