Entropy   엔트로피, 평균 정보량, 무질서도

(2016-10-17)
1. 엔트로피 이란?

  ㅇ 이공학분야에서 일반적으로,
     - 무질서 또는 불확실성(Uncertainty)에 대한 량(값)

  ㅇ [통신분야(정보공학)]
     - 정보원(Information Source)의 평균 정보량(평균적 불확실량)

  ㅇ [화학]
     - 열역학적 계에서 무질서의 척도 ☞ 엔트로피


2. 정보공학적 관점정보공학에서 말하는 정보는 `정보의 의미/내용` 보다는 `정보의 양`을 중시함
  ㅇ 따라서, 평균정보량/최대정보량/효율성과 같이 정보량의 측정이 중요한 관점이다.  


3. 엔트로피(평균 정보량)의 표현

  ㅇ 선택가능한 심볼 집합에서  `심볼평균 정보량(비트수)`
     
     - (m : 메세지 심볼 집합, M : 심볼 개수, P : 발생 확률, I : 정보량)

     * 例) 동일 발생 확률(p=1/2)을 갖는 2개 사건(2진)의 평균 정보량은, 
        . H = p log₂1/p + (1-p) log₂1/(1-p) = 1/2 + 1/2 = 1 bit/symbol


4. 엔트로피의 높고 낮음의 의미 (정보가 갖는 확률적인 특성을 나타냄)

  ㅇ 엔트로피가 낮다 =>
     - 확정적인 정보가 많음.
     - 특정 심볼이 발생 확률이 높음.
     - 예측성이 있음.

  ㅇ 엔트로피가 높다 =>
     - 예측이 어려움. 놀라운 정보가 많음. 
     - 각 심볼들의 발생 확률이 동일함/무작위성. 랜덤성이 높음. 중복성이 거의 없음.
     - 평균 정보량이 높음.


5. 엔트로피 상하한 값

  ※  0 ≤ H(m) ≤ log2 M

  ㅇ 엔트로피 하한값 (최소 조건) :   H(m) = 0
     - 모든 심볼 중 오직 하나 만이 발생확률이 1 이고, 나머지 심볼들의 발생확률이 0 일 때.
     - 불확실성이 없음을 의미

  ㅇ 엔트로피 상한값 (최대 조건) :   H(m) = log2 M
     - 소스 알파벳 내의 모든 심볼들이 동일한 발생확률을 갖을 때 (Pi=1/M)
        . 이 때의 엔트로피가 log2 M
     - 불확실성이 가장 높음을 의미


6. 정보의 압축 한계

  ※  어떤 부호화도 소스(정보원)가 갖는 엔트로피 보다 적은 정보량으로 압축할 수 없음
     - 데이터로부터 불필요한 정보를 제거(압축)하는데의 한계치를 제공

  ㅇ 부호화를 위한 최소 비트 수
     - 소스 데이터에 있는  모든 정보를 표현하기 위한  필요 최소 비트 수
     - 소스의 평균불확실성인 엔트로피 값에 의해 결정됨(의존함)

  ㅇ 따라서, 임의 소스의 정보 효율성(Efficiency)은,
     -  소스 정보 효율성 =  ( 엔트로피 [bits] ) / ( 소스 부호화 비트수 [bits] ) x 100 %


7. 엔트로피의 극대화

  ㅇ 일반적으로, 얻을 수 있는 평균정보량(엔트로피)이 가능한 최대가 될 수 있도록
     통신시스템설계하여야 함

  ㅇ 만일 정보원의 엔트로피(평균정보량)가 채널용량 보다 작으면, 
     그 채널을 통해 에러가 없는 통신이 가능함


8. 소스가 여러 개일 경우에 평균 정보량

  ㅇ 각 소스가 통계적 독립이면 => H(A,B) = H(A) + H(B) 
     - 즉, 전체 정보량은 각 소스의 정보량들의 총합과 같음

  ㅇ 각 소스가 종속적이면 => H(A,B) = H(A) + H(B|A)

  ㅇ 결국, H(A,B) ≤ H(A) + H(B)
     - (등식은 A,B가 서로 통계적으로 독립일때)


[정보량] 1. 정보량 2. 엔트로피 3. 용장도 4. 자기정보/상호정보/평균상호정보 5. 조건부,결합 엔트로피 6. 확률천이행렬

 
        최근수정     요약목록(시험중)     참고문헌