1. 자료(데이터) 이란?
ㅇ 관찰,측정,실험 등을 통해 수집되며, 의미를 갖을 수 있는 모든 사실,값들
2. 자료(데이터)의 가공, 처리, 표현
ㅇ 자료(데이터)의 가공
- `대상` -(측정)-> `자료/데이터` -(분석/처리)-> `정보` -(추출)-> `지식`
. 정보는, 자료를 특정 목적에 맞게 가공처리하여, 유용한 형태로 변환시킨 것
. 지식은, 정보를 개념화,체계화시켜 보편적인 정리,법칙 등으로 변환시킨 것
ㅇ 자료(데이터)의 분석/처리 과정
- 전처리 과정 -> 데이터 분석 (통계분석 등) -> 모델 구축 과정 -> 평가 과정
. 전처리 : 데이터를 다루기 쉬운 형태로 변환시키는 것
. 데이터 분석 : 데이터에 엮어진 성질을 요약, 설명하는 것
. 모델 구축 : 데이터로부터 특징,패턴을 추출하고,
.. 이로부터 식별,분류,예측/추정 등을 정형화하는 모델을 찾는 것
* 최근, 공개적이고, 대용량이며, 고 해상도 데이터를 얻기 쉬워져,
. 특히, 데이터 분석/처리가 중요해짐
3. 자료(데이터)의 참고사항
ㅇ 자료의 추출 대상이 갖는 성질에 수를 부여하는 행위 ☞ 측정 참조
ㅇ 자료의 값어치에 대한 정량화 ☞ 정보량 참조
ㅇ 자료의 묶음 : 블록(Block), RDB => 테이블, R언어 => 데이터프레임 등
ㅇ 자료의 요약,표현,분석,예측 ☞ 통계학, 통계량, 통계 자료 표현, 통계적 분석, 추정 등 참조
- 자료 집합에 대한 통계적 특징 량(量)의 추출,분석 등을 체계적 수행하려는 것
- 통계량이란? : 데이터 집합 내 경향성(중심성:평균 등, 변동성:분산 등)을 나타내는 량
ㅇ 자료의 컴퓨터 저장/표현 ☞ 디지트 (비트, 옥텟, 바이트, 니블, 워드 등) 참조
ㅇ 자료의 연산 가능 영역 그룹핑 ☞ 자료형, 기본자료형 (숫자형, 문자형, 논리값형 등) 참조
ㅇ 자료의 코드화 (코드어로의 사상/매핑) ☞ 코딩 참조
ㅇ 자료의 전달 방식 ☞ 데이터 통신, 패킷 데이터 망
ㅇ 자료의 전달 단위 ☞ 통신계층별 (메세지,세그먼트,패킷,프레임 등) 참조
ㅇ 자료의 물리적/수학적 변환 표현 ☞ 신호 참조
4. [통계] 자료(데이터)의 기준 척도
※ 측정할 때, 기준을 삼는 척도(길이,크기,순서 등의 기준)에 따른 구분 ☞ 통계 척도 참조
- 범주형 : 명목척도, 서열척도
- 수치형 : 등간척도, 비율척도
5. [통계] 자료(데이터)의 분류/구분
※ 수집된/제시된 자료가 어떤 유형인지에 따라, 그 분석/처리하는 방법에 큰 차이를 보임
ㅇ (범주형) 질적 자료 (Qualitative Data), 범주 자료 (Categorical Data)
* 색깔,지역,직업,설문결과,사회계급,학력 등 `범주화/식별성 및 서열 정도 만` 가능
- 범주형 구분 ☞ 통계 척도 참조
. 명목 자료 (Nomial Data)
.. 어떤 속성을 분류하기 위해 수치 부여 (例, 남 1,여 0,혈액형 등)
. 서열 자료 (Ordinal Data)
.. 상대적인 크기 비교 (例, 사회계급,선호도,만족도,학력 등)
- 범주형 특징
. 사칙연산 의미 없음
- [참고]
. 자료의 식별 ☞ 개체, 식별 참조
. 자료의 코드화 ☞ 코드, 상품코드(바코드,QR코드,RFID 등) 참조
. 자료의 컴퓨터 표현 ☞ 알파뉴메릭 코드(ASCII,유니코드 등), 기본자료형 등 참조
ㅇ (수치형) 양적 자료 (Quantitative Data), 수치 자료 (Numerical Data)
* 나이,소득,매출액 등 수량화 가능 (수량적 자료)
- 수치형 구분 (수치 부여 유형에 따라 구분) ☞ 통계 척도 참조
. 등간 자료, 구간 자료 (Interval Data)
.. 간격이 균등한 수치 부여 (例, 온도,IQ 등)
. 비율 자료 (Ratio Data)
.. 균등 간격에 절대 영점 있음 (例, 나이,소득,무게,방문자수 등)
.. 따라서, 비율 표현 및 비교가 자연스러움
- 수치형 구분 (셀 수 있음 여부에 따라 구분)
. 계수치 (이산적, Discrete)
.. 셀 수 있는 정수 값 (例, 생산개수,불량수,나이 등)
. 계량치 (연속적, Continuous)
.. 연속 값 (例, 길이,무게,인장강도,온도,시간 등)
- 수치형 특징
. 사칙연산 가능
- [참고]
. 자료의 수치화 ☞ 셈법, 수 표현(진법체계,고정소수점,부동소수점 등) 참조
. 컴퓨터 숫자형 표현 ☞ 수치 코드, 컴퓨터 수 체계, 기본자료형(숫자형) 참조