Data   데이터

(2023-12-02)

자료 분류, 자료 종류, 데이터 분류, 자료 표현, 데이터 표현


1. 자료(데이터) 이란?

  ㅇ 관찰,측정,실험 등을 통해 수집되며, 의미를 갖을 수 있는 모든 사실,값들


2. 자료(데이터)의 가공, 처리, 표현

  ㅇ 자료(데이터)의 가공
     - `대상` -(측정)-> `자료/데이터` -(분석/처리)-> `정보` -(추출)-> `지식`
        . 정보는, 자료를 특정 목적에 맞게 가공처리하여, 유용한 형태로 변환시킨 것
        . 지식은, 정보를 개념화,체계화시켜 보편적인 정리,법칙 등으로 변환시킨 것

  ㅇ 자료(데이터)의 분석/처리 과정
     - 전처리 과정 -> 데이터 분석 (통계분석 등) -> 모델 구축 과정 -> 평가 과정
        . 전처리 : 데이터를 다루기 쉬운 형태로 변환시키는 것
        . 데이터 분석 : 데이터에 엮어진 성질을 요약, 설명하는 것
        . 모델 구축 : 데이터로부터 특징,패턴을 추출하고, 
           .. 이로부터 식별,분류,예측/추정 등을 정형화하는 모델을 찾는 것

     * 최근, 공개적이고, 대용량이며, 고 해상도 데이터를 얻기 쉬워져, 
        . 특히, 데이터 분석/처리가 중요해짐


3. 자료(데이터)의 참고사항

  ㅇ 자료의 생성 : 어떤 성질에 를 부여하는 행위  ☞ 측정, 실험 참조
  ㅇ 자료의 정량화 : 값어치에 대한 정량화  ☞ 정보량 참조
  ㅇ 자료의 물리적/수학적 표현  ☞ 신호 참조
  ㅇ 자료의 컴퓨터 표현  ☞ 디지트 (비트, 옥텟, 바이트, 니블, 워드 등) 참조
  ㅇ 자료의 코드화 (코드어로의 사상/매핑)  ☞ 코딩 참조
  ㅇ 자료의 연산 형태별 그룹핑  ☞ 자료형, 기본자료형 (숫자형, 문자형, 논리값형 등) 참조
  ㅇ 자료의 전달 방식  ☞ 데이터 통신, 패킷 데이터 망
  ㅇ 자료의 전달 단위통신계층별 (메세지,세그먼트,패킷,프레임 등) 참조
  ㅇ 자료의 묶음 : 블록(Block), RDB => 테이블, R언어 => 데이터프레임 등
  ㅇ 자료의 통계적 활용 : 자료의 요약,표현,분석,예측 등
     * [참고] ☞ 통계학, 통계량, 통계 자료 표현, 통계적 분석, 추정 등 참조
        . 자료 집합에 대한 통계적 특징 량(量)의 추출,분석 등을 체계적/과학적으로 수행
     - 통계량 : 데이터 집합 내 경향성(중심성:평균 등, 변동성:분산 등)을 나타내는 량


4. [통계]  자료(데이터)의 기준 척도측정할 때, 기준을 삼는 척도(길이,크기,순서 등의 기준)에 따른 구분  ☞ 통계 척도 참조
     - 범주형 : 명목척도, 서열척도
     - 수치형 : 등간척도, 비율척도


5. [통계]  자료(데이터)의 분류/구분

  ※ 수집된/제시된 자료가 어떤 유형인지에 따라, 그 분석/처리하는 방법에 큰 차이를 보임

  ㅇ (범주형)  질적 자료 (Qualitative Data), 범주 자료 (Categorical Data)
     * 색깔,지역,직업,설문결과,사회계급,학력 등 `범주화/식별성 및 서열 정도 만` 가능

     - 범주형 구분                                                           ☞ 통계 척도 참조
        . 명목 자료 (Nomial Data)
           .. 어떤 속성을 분류하기 위해 수치 부여 (例, 남 1,여 0,혈액형 등)
        . 서열 자료 (Ordinal Data)
           .. 상대적인 크기 비교 (例, 사회계급,선호도,만족도,학력 등)

     - 범주형 특징
        . 사칙연산 의미 없음

     - [참고]
        . 자료의 식별  ☞ 개체, 식별 참조
        . 자료의 코드화  ☞ 코드, 상품코드(바코드,QR코드,RFID 등) 참조
        . 자료의 컴퓨터 표현  ☞ 알파뉴메릭 코드(ASCII,유니코드 등), 기본자료형 등 참조

  ㅇ (수치형)  양적 자료 (Quantitative Data), 수치 자료 (Numerical Data)
     * 나이,소득,매출액 등 수량화 가능     (수량적 자료)

     - 수치형 구분  (수치 부여 유형에 따라 구분)                             ☞ 통계 척도 참조
        . 등간 자료, 구간 자료 (Interval Data) 
           .. 간격이 균등한 수치 부여 (例, 온도,IQ 등)
        . 비율 자료 (Ratio Data)
           .. 균등 간격에 절대 영점 있음 (例, 나이,소득,무게,방문자수 등)
           .. 따라서, 비율 표현 및 비교가 자연스러움

     - 수치형 구분  (셀 수 있음 여부에 따라 구분)
        . 계수치 (이산적, Discrete)
           .. 셀 수 있는 정수 값 (例, 생산개수,불량수,나이 등)
        . 계량치 (연속적, Continuous)
           .. 연속 값 (例, 길이,무게,인장강도,온도,시간 등)

     - 수치형 특징 
        . 사칙연산 가능

     - [참고]
        . 자료의 수치화  ☞ 셈법, 수 표현(진법체계,고정소수점,부동소수점 등) 참조
        . 컴퓨터 숫자형 표현  ☞ 수치 코드, 컴퓨터 수 체계, 기본자료형(숫자형) 참조

공통/유사어(ㄷ~ㄹ)
   1. 데이터 (data)   2. 도메인 (domain)   3. 동차성 (homogeneity)   4. 등시성 (isochronism)   5. 레인징 (ranging)  
자료(데이터)
   1. 자료 및 그 분류   2. 질적 자료   3. 양적 자료   4. 자료의 요약 및 표현   5. 자료의 척도   6. 독립변수, 종속변수   7. 시계열 데이터  


Copyrightⓒ written by 차재복 (Cha Jae Bok)       기술용어해설 소액 후원
"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"