Entropy 엔트로피, 평균 정보량, 무질서도

(2025-02-03)
▷ Top ▷ 방송/멀티미디어/정보이론 ▷ 정보이론/코딩 ▷ 정보이론 ▷ 정보량
1. 엔트로피 이란?

  ㅇ [일반]
     - 무질서(Disorder) 또는 불확실성(Uncertainty)에 대한 량(값)

  ㅇ [통신이론/정보이론]
     - 정보원(Information Source)의 평균 정보량 (평균적 불확실량)

  ㅇ [화학/열역학]
     - 열역학적 계에서 무질서의 척도  ☞ 엔트로피 참조


2. 엔트로피의 정보공학적 관점

  ㅇ 정보공학에서 말하는 정보는, `정보의 의미/내용` 보다는 `정보의 양`에 대한 측정을 중시함
  ㅇ 또한, 평균 정보량/최대 정보량/정보 효율성과 같이 측정된 정보량의 평균적인 성격이 중요함
  ㅇ 여기서, 평균 정보량을 엔트로피라고 함


3. 엔트로피의 높고 낮음의 의미 

  ※ (정보/정보원이 갖는 확률적인 특성을, 아래와 같이 양적으로 보여줄 수 있음)

  ㅇ 엔트로피가 낮다  :
     - 예측성이 있음.
     - 확정적인 정보가 많음.
     - 특정 심볼이 발생 확률이 높음
        . 즉, 랜덤성이 낮고, 중복성이 높음.
     * 만일, 엔트로피가 0 이라면, 예측 가능하므로, 굳이 저장,전송,통신 등이 필요 없음.

  ㅇ 엔트로피가 높다  :
     - 예측이 어려움.
     - 놀라운 정보가 많음. 
     - 각 심볼들의 발생 확률이 동일함. 
        . 즉, 랜덤성(무작위성)이 높고, 중복성이 거의 없음.
     - 결국, 평균 정보량이 높음


4. 엔트로피의 정량화

  ㅇ 선택가능한 심볼 집합에서  `심볼 당 평균 정보량(비트수)`
      [# H(m) = \sum^{M}_{i=1} P_i I_i = \sum^{M}_{i=1} P_i \log_2 \frac{1}{P_i} 
              = - \sum^{M}_{i=1} P_i \log_2 P_i #] [bits/symbol]
     - m : 메세지 심볼 집합
     - M : 심볼 개수
     - P_i : 심볼 각각의 발생 확률
     - I_i : 심볼 각각의 정보량
     - H(m) 표기는, m이 함수의 매개변수가 아니라, 
        . m개 원소를 갖는 집합으로 된 정보원의 엔트로피라는 뜻임
        . 한편, 특정 매개변수에 집중한 H(p₀) 같은 표기의 경우에는, 
           .. 이를 엔트로피 함수 이라고 함
     - 엔트로피 단위 : 심볼 당 비트 수 [bits/symbol]

  ㅇ 例) 동일 발생 확률(p = 1/2)의 2개 사건 (2진)을 갖는 정보원의 평균 정보량은, 
     - H = p log₂1/p + (1-p) log₂1/(1-p) = 1/2 + 1/2 = 1 bit/symbol


5. 엔트로피의 상한/하한 값

  ※  0 ≤ H(m) ≤ log₂ M

  ㅇ 엔트로피 하한값 (최소 조건, 최소 엔트로피)  :   H(m) = 0
     - 모든 심볼 중 오직 하나 만이 발생확률이 1 이고, 나머지 심볼들의 발생확률이 0 일 때.
     - 불확실성이 없음을 의미 (심볼 당 평균 정보량 없음)

  ㅇ 엔트로피 상한값 (최대 조건, 최대 엔트로피)  :   H(m) = log₂ M
     - 소스 알파벳 내의 모든 심볼들이 동일한 발생확률을 갖을 때 (P_i=1/M)
        . 이 때의 엔트로피가 log₂ M
     - 불확실성이 가장 높음을 의미 (심볼 당 평균 정보량 최대)


6. 정보원의 엔트로피 => 정보의 압축 한계 => 샤논 제1정리

  ※ 정보원이 갖는 확률적인 특성인 엔트로피로부터, 다음과 같은 결론을 도출 함
     - 어떤 부호화도, 소스(정보원)가 갖는 엔트로피 보다 적은 정보량으로 압축할 수 없음
        . 즉, 데이터로부터 불필요한 정보를 제거(압축)하는데의 한계치(즉,엔트로피)가 있음

  ㅇ 이에의해, 부호화를 위한 최소 비트 수 (평균코드길이)가 결정됨
     - 소스의 평균적 불확실성인 엔트로피 값에 의해 그 한계가 결정됨(의존함)
        . 소스 데이터에 있는  모든 정보를 표현하기 위한 필요 최소 비트 수

  ㅇ 따라서, 임의 소스의 정보 효율성(Efficiency)은,
     -  소스 정보 효율성 =  ( 엔트로피 [bits] ) / ( 소스 부호화 비트수 [bits] ) x 100 %
        . 정보를 얼마나 효율적으로 표현 가능한가에 대한 능력 척도


7. 엔트로피와 채널 용량 간의 관계

  ㅇ 만일, 정보원의 엔트로피(평균 정보량)가 채널용량 보다 작으면, 
     - 그 채널을 통해 에러가 없는 통신이 가능함

  ㅇ 통상, 채널용량 대비 얻을 수 있는 평균 정보량(엔트로피)이 가능한 최대가 될 수 있도록,
     - 그렇게 통신시스템을 설계하여야 함


8. 소스가 여러 개일 경우에 (결합사건일 때), 평균 정보량

  ㅇ 각 소스가 통계적 독립이면 => H(A,B) = H(A) + H(B) 
     - 즉, 전체 정보량은 각 소스의 정보량들의 총합과 같음

  ㅇ 각 소스가 통계적 종속이면 => H(A,B) = H(A) + H(B|A)

  ㅇ 결국, H(A,B) ≤ H(A) + H(B)
     - (등식은 A,B가 서로 통계적으로 독립일때)


9. 소스에서 블록 단위로 구분 전송될 때의 엔트로피

  ㅇ 길이 n의 블록인 경우에,  H(mⁿ) = n H(m)
     - 이를 확장된 소스(정보원)이라고 칭함
▷정보량
1. 정보량 2. 엔트로피 3. 용장도 4. 자기정보/상호정보/평균상호정보 5. 조건부,결합 엔트로피 6. 확률천이행렬
용어해설 종합 (단일 페이지 형태)
"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
[정보통신기술용어해설]