기계학습 용어

기계학습 용어, 머신러닝 용어	(2025-09-07)
Label , 레이블 , 라벨 , 정답 , 데이터 세트 , 훈련 데이터, 학습 데이터, MNIST, 일반화

▷ Top ▷ 정보기술(IT) ▷ 인공지능 ▷ 기계학습

1. 기계학습의 기초 용어

  ㅇ 학습 (Learning) 또는 훈련 (Training)
     - 지속적인 경험이나 훈련의 결과로 생기는 행동 변화
     - 기계학습에서는, 데이터를 통해, 모델을 만들어가는 과정을 말함
     * [참고] ☞ `기계학습 종류` 참조

  ㅇ 학습 알고리즘 (Learning Algorithm)
     - 컴퓨터를 활용해, 데이터에서 하나의 모델을 만들어내는 알고리즘

  ㅇ 모델 (Model)
     - 데이터로부터 학습하여, 예측,분류 등을 수행하는, 알고리즘 또는 수학적 구조

  ㅇ 기계학습 (Machine Learning)
     - 데이터들로부터, 스스로 학습하고 예측하는 기술
        . 특징,패턴을 감지하여, 규칙,알고리즘,지식 등을 자동으로 학습,확장시킴

  ㅇ 통계 기반 기계학습
     - 통계학적으로 대규모 데이터에 내재된 패턴을 찾아내는 학습 모델
     * 크게, 빈도주의 통계법(기존)과 베이즈 통계법으로 구분 가능


2. 기계학습의 데이터 세트, 특징, 패턴, 패턴 인식

  ㅇ 데이터 세트 (Data Set)
     - 대상되는 데이터들의 집합
        . 이들 각각을 사례(instance),샘플(sample)이라고 하고,
        . 각 샘플은, 여러 특징(feature)들로 묘사되며, 특징 수 만큼의 차원을 가짐
        . 이러한 샘플은, 샘플 공간 위 하나의 벡터로 표현됨
     - MNIST (Modified NIST database)
        . 머신러닝,딥러닝 등에서 가장 널리 쓰이는, 학습/평가용 데이터셋
        . 손글씨 숫자(0~9) 인식 문제를 위해, 미국 고등학생,인구조사국 직원들이 쓴, 7만개 숫자 이미지

  ㅇ 특징 또는 속성 (Feature)
     - 데이터의 특징을 나타내는 정보 (두드러지고, 풍부한 정보를 주는 것)
        . 例) 키,체중,머리카락길이 등으로 성별을 예측할 때, 키,체중,머리카락길이 등이 특징 임
     - 특징 벡터  :  데이터에서 특징으로 간주되는, 1 이상의 변수들로 구성된, 벡터
     - 특징 량  :  데이터에서 나타나는 변화를, 1 이상의 변수들(특징 벡터)로 나타낸, 계산식

  ㅇ 패턴 (Pattern)
     - 데이터들에서 나타나는 좋은 특징들을 모아놓은 집합
        . 데이터 내에 존재하는 규칙성이나 반복적인 구조
     - 학습을 통해 발견 (학습하거나 추론하는 대상)

  ㅇ 패턴 인식 (Pattern Recognition)
     - 핵심이 되는 특징의 추출 및 이를 분류하는 것

  ㅇ 라벨(레이블) (Label)
     - 데이터에 대한 정답 (또는, 목표 값)  :  (라벨 = 정답 데이터 = 타킷 데이터 = 목표 데이터)
        . 즉, 모델이 학습하는 동안 예측하고자 하는 대상
     - 주로, 지도학습에서 정답 역할을 하는 값
        . 분류 문제 등에서, 분류 명칭,분류 범주,유형,카타고리 (Category) / 클래스 (Class) 

  ㅇ 차원 (Dimension)
     - 데이터의 각 변수 또는 특징을 의미
        . 例) 의료 데이터 : 환자의 나이,혈당 수치,염증 지표 등 여러 특징을 포함하는 벡터로 표현 


3. 기계학습의 데이터 구성, 전처리

  ㅇ 훈련 데이터 (Training Data), 학습 집합 (Training Set), 학습 데이터, 훈련 데이터
     - 학습에 사용되는 샘플 데이터
        . 데이터가 어떻게 구성된지(많거나,적거나,치우치거나)에 따라 학습 성능이 크게 달라짐
           .. 무작위로 뽑아 작은 데이터셋을 만들거나, 중요도에 따라 크게 또는 작게 선택하는 등

  ㅇ 시험 데이터 (Testing Data), 시험 집합 (Test Set), 시험 데이터 (Test Data)
     - 학습된 모델의 일반화 성능을 평가하기 위한, 별도의 새로운 데이터
        . 모델이 새로운 데이터에 대해 얼마나 잘 예측하는지를 확인하는 데 사용

  ㅇ 타킷 데이터 (Target Data)
     - 정답 데이터 (라벨링이 된 훈련 데이터)

  ㅇ 검증 데이터 (Validation Data)
     - 모델의 튜닝과 성능 평가를 위해 사용되는 데이터 세트

  ㅇ 데이터 전처리 (Data Preprocessing)
     - 정규화 (Normalization)  :  데이터를 일정한 범위 내로 조정하는 작업
     - 표준화 (Standardization)  :  통계 기반 모델에서, 데이터의 중심과 분포를 정렬하는 것
     - 특징 추출 (Feature Extraction)  :  차별적인/구별적인 정보를 갖는 특징들 만을 추려냄
     - 특징 선택 (Feature Selection)  :  중요한 특징 만 선택해서, 전체 학습률과 성능을 증가시킴


4. 기계학습의 최적화, 일반화, 과적합

  ㅇ 최적화 (Optimization)
     - 손실함수의 결과값을 최소화하는 모델의 인자를 찾는 것
     - 반복 근사 방법 例) 경사하강법, 뉴턴/준뉴턴 방법, 확률적 경사하강법, 역전파 등  

  ㅇ 학습률 (Learning Rate)
     - 최적화 알고리즘의 조정 매개변수 
        . 너무 높으면, 모델이 발산할 수 있으며, 너무 낮으면, 학습이 느려져 수렴 못할 수 있음

  ㅇ 일반화 (generalization)
     - 훈련 단계에서 사용하지 않은 예시들에 대해서도 올바르게 분류하는 응용 능력

  ㅇ 과적합 (Overfitting, 오버피팅)
     - 학습 데이터에만 지나치게 최적화되어, 새로운 데이터에 대한 일반화 성능이 저하되는 현상


5. 기계학습의 유형  :  (수행 방식) 

  ㅇ `무엇을 얻어낼 것인가 (예측 및 추론)`  :  (문제 유형, 적용 대상에 따른 구분)
     - 회귀 (Regression)  :  입력 값을 바탕으로 연속적인 출력 값을 추정/예측
     - 분류 (Classification)  :  입력 값을 바탕으로 특정 범주를 추정/예측
     - 군집화 (Clustering)  :  입력 값들을 비슷한 특성별로 여러 그룹으로 분할하며 큰 단위로 만듬

  ㅇ `학습법 (학습 시나리오)`  :  (학습 시나리오에 따른 구분)
     - 지도 학습 (Supervised Learning)  :  분류, 회귀 등
        . 입력과 정답(레이블)이 주어진 상태에서 모델을 학습시키는 방식
     - 비지도 학습 (Unsupervised Learning)  :  군집화, 차원 축소 등
        . 정답 없는 데이터에서 숨겨진 구조나 패턴을 찾는 학습 방식
     - 강화 학습 (Reinforcement Learning)  :  정책 학습, 가치 학습 등
        . 행동에 대해 보상/벌점을 받으며, 최적의 행동 전략을 학습하는 방식


6. 기계학습의 응용 例)                       ☞ 기계학습 응용 참조

  ㅇ 이미지 인식
     - 필요 : 상품 인식, 얼굴 인식, 도로 상황 파악 등
     - 분류 : 물체 분류, 물체 인식 등

  ㅇ 자연어 처리 (NLP)
     - 개요 : 텍스트 데이터를 이해하고 처리하는 기술
     - 응용 : 감정 분석, 번역, 음성 인식 등

▷ 기계학습

1. 기계 학습 2. 기계학습 용어 3. 기계학습 종류 4. 기계학습 모델 5. 기계학습 응용 6.

▷특징, 패턴

▷유사도

▷분류, 군집화

▷학습법

10.

▷신경망, 딥러닝

11.

▷기타 (기계학습)

용어해설 종합 (단일 페이지 형태)

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"

[정보통신기술용어해설]

기계학습 용어, 머신러닝 용어

Label , 레이블 , 라벨 , 정답 , 데이터 세트 , 훈련 데이터, 학습 데이터, MNIST, 일반화