Entropy   엔트로피, 평균 정보량, 무질서도

(2025-02-03)

평균적 불확실량


1. 엔트로피 이란?

  ㅇ [일반]
     - 무질서(Disorder) 또는 불확실성(Uncertainty)에 대한 량(값)

  ㅇ [통신이론/정보이론]
     - 정보원(Information Source)의 평균 정보량 (평균적 불확실량)

  ㅇ [화학/열역학]
     - 열역학적 계에서 무질서의 척도  ☞ 열역학 엔트로피 참조


2. 엔트로피의 정보공학적 관점정보공학에서 말하는 정보는, `정보의 의미/내용` 보다는 `정보의 양`에 대한 측정을 중시함
  ㅇ 또한, 평균 정보량/최대 정보량/정보 효율성과 같이 측정정보량평균적인 성격이 중요함
  ㅇ 여기서, 평균 정보량을 엔트로피라고 함


3. 엔트로피의 높고 낮음의 의미 

  ※ (정보/정보원이 갖는 확률적인 특성을, 아래와 같이 양적으로 보여줄 수 있음)

  ㅇ 엔트로피가 낮다  :
     - 예측성이 있음.
     - 확정적인 정보가 많음.
     - 특정 심볼이 발생 확률이 높음
        . 즉, 랜덤성이 낮고, 중복성이 높음.
     * 만일, 엔트로피가 0 이라면, 예측 가능하므로, 굳이 저장,전송,통신 등이 필요 없음.

  ㅇ 엔트로피가 높다  :
     - 예측이 어려움.
     - 놀라운 정보가 많음. 
     - 각 심볼들의 발생 확률이 동일함. 
        . 즉, 랜덤성(무작위성)이 높고, 중복성이 거의 없음.
     - 결국, 평균 정보량이 높음


4. 엔트로피의 정량화

  ㅇ 선택가능한 심볼 집합에서  `심볼평균 정보량(비트수)`
      
[# H(m) = \sum^{M}_{i=1} P_i I_i = \sum^{M}_{i=1} P_i \log_2 \frac{1}{P_i} = - \sum^{M}_{i=1} P_i \log_2 P_i #]
[bits/symbol] - m : 메세지 심볼 집합 - M : 심볼 개수 - Pi : 심볼 각각의 발생 확률 - Ii : 심볼 각각의 정보량 - H(m) 표기는, m이 함수매개변수가 아니라, . m개 원소를 갖는 집합으로 된 정보원의 엔트로피라는 뜻임 . 한편, 특정 매개변수에 집중한 H(p0) 같은 표기의 경우에는, .. 이를 엔트로피 함수 이라고 함 - 엔트로피 단위 : 심볼비트 수 [bits/symbol] ㅇ 例) 동일 발생 확률(p = 1/2)의 2개 사건 (2진)을 갖는 정보원의 평균 정보량은, - H = p log₂1/p + (1-p) log₂1/(1-p) = 1/2 + 1/2 = 1 bit/symbol 5. 엔트로피의 상한/하한 값 ※ 0 ≤ H(m) ≤ log2 M ㅇ 엔트로피 하한값 (최소 조건, 최소 엔트로피) : H(m) = 0 - 모든 심볼 중 오직 하나 만이 발생확률이 1 이고, 나머지 심볼들의 발생확률이 0 일 때. - 불확실성이 없음을 의미 (심볼평균 정보량 없음) ㅇ 엔트로피 상한값 (최대 조건, 최대 엔트로피) : H(m) = log2 M - 소스 알파벳 내의 모든 심볼들이 동일한 발생확률을 갖을 때 (Pi=1/M) . 이 때의 엔트로피가 log2 M - 불확실성이 가장 높음을 의미 (심볼평균 정보량 최대) 6. 정보원의 엔트로피 => 정보압축 한계 => 샤논 제1정리정보원이 갖는 확률적인 특성인 엔트로피로부터, 다음과 같은 결론을 도출 함 - 어떤 부호화도, 소스(정보원)가 갖는 엔트로피 보다 적은 정보량으로 압축할 수 없음 . 즉, 데이터로부터 불필요한 정보를 제거(압축)하는데의 한계치(즉,엔트로피)가 있음 ㅇ 이에의해, 부호화를 위한 최소 비트 수 (평균코드길이)가 결정됨 - 소스의 평균불확실성인 엔트로피 값에 의해 그 한계가 결정됨(의존함) . 소스 데이터에 있는 모든 정보를 표현하기 위한 필요 최소 비트 수 ㅇ 따라서, 임의 소스의 정보 효율성(Efficiency)은, - 소스 정보 효율성 = ( 엔트로피 [bits] ) / ( 소스 부호화 비트수 [bits] ) x 100 % . 정보를 얼마나 효율적으로 표현 가능한가에 대한 능력 척도 7. 엔트로피와 채널 용량 간의 관계 ㅇ 만일, 정보원의 엔트로피(평균 정보량)가 채널용량 보다 작으면, - 그 채널을 통해 에러가 없는 통신이 가능함 ㅇ 통상, 채널용량 대비 얻을 수 있는 평균 정보량(엔트로피)이 가능한 최대가 될 수 있도록, - 그렇게 통신시스템설계하여야 함 8. 소스가 여러 개일 경우에 (결합사건일 때), 평균 정보량 ㅇ 각 소스가 통계적 독립이면 => H(A,B) = H(A) + H(B) - 즉, 전체 정보량은 각 소스의 정보량들의 총합과 같음 ㅇ 각 소스가 통계적 종속이면 => H(A,B) = H(A) + H(B|A) ㅇ 결국, H(A,B) ≤ H(A) + H(B) - (등식은 A,B가 서로 통계적으로 독립일때) 9. 소스에서 블록 단위로 구분 전송될 때의 엔트로피 ㅇ 길이 n의 블록인 경우에, H(mn) = n H(m) - 이를 확장된 소스(정보원)이라고 칭함

정보량
1. 정보량   2. 엔트로피   3. 자기 정보량, 조건부 정보량, 상호 정보량   4. 평균 상호 정보량   5. 조건부,결합 엔트로피   6. 용장도   7. 확률천이행렬  
용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]          최근 편집          Copyrightⓒ 차재복