1. 자료(데이터) 이란?
ㅇ 관찰,측정,실험 등을 통해 수집되며, 의미를 갖을 수 있는 모든 사실,값들
2. 자료(데이터)의 가공, 처리
ㅇ 자료(데이터)의 가공
- `대상` -(측정)-> `자료/데이터` -(분석/처리)-> `정보` -(추출)-> `지식`
. 정보는, 자료를 특정 목적에 맞게 가공처리하여, 유용한 형태로 변환시킨 것
. 지식은, 정보를 개념화,체계화시켜 보편적인 정리,법칙 등으로 변환시킨 것
ㅇ 자료(데이터)의 분석/처리 과정
- 전처리 과정 -> 데이터 분석 (통계분석 등) -> 모델 구축 과정 -> 평가 과정
. 전처리 : 데이터를 다루기 쉬운 형태로 변환시키는 것
. 데이터 분석 : 데이터에 엮어진 성질을 요약, 설명하는 것
. 모델 구축 : 데이터로부터 특징,패턴을 추출하고,
.. 이로부터 식별,분류,예측/추정 등 필요 동작을,
.. 정형화하는 모델을 찾는 것
* 최근, 공개적이고, 대용량이며, 고 해상도 데이터를 얻기 쉬워져,
. 특히, 데이터 분석/처리가 중요해짐
3. 자료(데이터)의 참고사항
ㅇ 자료의 생성 : 어떤 성질에 수를 부여하는 행위 ☞ 측정, 실험 참조
ㅇ 자료의 정량화 : 값어치에 대한 정량화 ☞ 정보량 참조
ㅇ 자료의 물리적/수학적 표현 ☞ 신호 참조
ㅇ 자료의 컴퓨터 표현 ☞ 디지트 (비트, 옥텟, 바이트, 니블, 워드 등) 참조
ㅇ 자료의 코드화 (코드어로의 사상/매핑) ☞ 코딩 참조
ㅇ 자료의 그룹핑 유형 (by 연산) ☞ 자료형, 기본자료형 (숫자형, 문자형, 논리값형 등) 참조
ㅇ 자료의 전달 방식 ☞ 데이터 통신, 패킷 데이터 망 참조
ㅇ 자료의 전달 단위 ☞ 통신계층별 데이터 단위 참조
- (메세지,세그먼트,패킷,프레임 등)
ㅇ 자료의 묶음 : 블록(Block), RDB => 테이블, R언어 => 데이터프레임 등
ㅇ 자료의 통계적 활용 : 자료의 요약,표현,분석,예측 등
* [참고] ☞ 통계학, 통계량, 통계 자료 표현, 통계적 분석, 추정 등 참조
. 자료 집합에 대한 통계적 특징 량(量)의 추출,분석 등을 체계적/과학적으로 수행
- 통계량 : 데이터 집합 내 경향성(중심성:평균 등, 변동성:분산 등)을 나타내는 량
4. [통계] 자료(데이터)의 척도
※ ☞ 통계 척도 참조
- 측정할 때, 기준을 삼는 척도(길이,크기,순서 등의 기준)에 따른 구분
. 범주형 : 명목척도, 서열척도
. 수치형 : 등간척도, 비율척도
5. [통계] 자료(데이터)의 분류/구분
※ ☞ 자료 분류 참조
- 수집된/제시된 자료가 어떤 유형인지에 따라, 그 분석/처리하는 방법에 큰 차이를 보임
. (범주형) 질적 자료 : 색깔,지역,직업,사회계급,학력 등 `범주화/식별성,서열 정도 만` 가능
. (수치형) 양적 자료 : 나이,소득,매출액 등 수량화 가능료)
6. [통계] 자료의 요약 및 표현
※ ☞ 통계 자료 표현 참조
- 주어진 데이터를 이해하기 쉽게 정리하고 시각적으로 또는 수학적으로 표현하는 과정