1. 데이터마이닝
ㅇ 데이터에 내재된 유용한 패턴, 변수들 간의 관계, 트랜드 등을 정교한 분석모형으로 찾아내는 작업
- 대규모 데이터에 내재된 관심있는 구조를 자동으로 찾아내는 기술
2. 데이터마이닝 특징
ㅇ 데이타마이닝은 최종사용자들이 데이타에 내재된 패턴을 찾아낼 수 있도록 도와줄 뿐이지,
- 발견된 패턴의 타당성이나 가치를 판단해 주지는 못함
. 결국, 이의 최종적인 목적은 예측모델을 통한 의사결정지원 임
ㅇ 탄생배경
- 기계학습, 패턴인식, 통계학, 시각화 등을 포함한 다양한 분야로부터 영향을 받아 탄생
3. 일반적인 데이터마이닝 절차
ㅇ 데이터 추출 (Data Selection) → 데이터 정제 (Cleaning) → 데이터 변형 (Tansformation)
→ 분석 (Analysis) → 해석 (Interpretation) → 보고서 작성 (Reporting)
4. 데이터마이닝 주요 기법들
ㅇ 분류 (Classification)
- 데이터를 미리 정의된 여러 클래스(범주) 중 하나로 할당하는 기법 (스팸 메일 필터링 등)
ㅇ 군집화 (Clustering)
- 유사한 특성을 가진 데이터들을 그룹(클러스터)으로 묶는 비지도 학습 기법 (고객 세분화 등)
ㅇ 회귀 분석 (Regression Analysis)
- 독립 변수,종속 변수 간의 관계를 모델링하여, 종속 변수 값의 예측 기법 (주택 가격 예측 등)
ㅇ 연결분석 (Link Analysis)
- 데이터 간의 관계나 연결고리를 파악하는 기법 (소셜 네트워크 분석 등)
ㅇ 판별분석 (Discrimination Analysis)
- 그룹 간의 차이의 설명, 데이터가 어떤 그룹에 속하는지 판별하는 데 사용되는 통계적 기법
ㅇ 연관성 규칙 발견 (Association Rule Discovery)
- 데이터 내 함께 발생하는 빈번한 아이템 집합이나 규칙을 찾는 기법 (장바구니 분석 등)
ㅇ 사례 기반 추론 (Case-Based Reasoning)
- 과거의 유사한 사례를 기반으로 새로운 문제에 대한 해결책이나 예측을 제시하는 기법
ㅇ 의사 결정 나무 (Decision Tree)
- 데이터를 속성 값에 따라 분기하는 트리 구조를 만들어 분류 또는 회귀 분석을 수행하는 기법
ㅇ 인공 신경망 (Artificial Neural Network)
- 인간의 신경망을 모방하여, 복잡한 패턴 인식, 분류, 회귀 분석 등에 사용되는 기계 학습 모델
ㅇ 유전자 알고리즘 (Genetic Algorithm)
- 자연의 진화 과정을 모방한 최적화 알고리즘
ㅇ OLAP (On-Line Analytical Processing)
- 다차원 데이터 분석을 지원하는 기술로, 다양한 관점에서 데이터를 탐색하고 분석하는 데 사용