모델 표현(Model Representation)
표기법
우선 여기서 앞으로 사용하게 될 표기법을 정의하고 넘어가도록 하겠습니다.
- : 입력 특징 또는 “입력” 변수 (집의 면적)
- : “출력” 혹은 목표 변수(집의 가격)
- : 훈련예제 또는 데이터집합 (학습에 사용)
- ; i=1,…, m : 훈련집합(m 개의 훈련예제)
여기서 윗첨자 “(i)” 는 훈련집합의 인덱스를 의미합니다. 입력변수의 공간을 표현하기 위해서 X 를 사용하고, 출력값의 공간을 표시하기 위해서 Y 를 사용할 것입니다. 이번 예제의 경우는 X = Y = ℝ 입니다.
모델과 학습
기계학습 분야에서 모델이란 입력 특징이라고도 부르는 “입력” 변수들과 출력" 혹은 우리가 예측을 시도한 목표변수의 관계를 정의합니다. 학습 이란 이러한 모델을 만들거나 배우는 것을 의미합니다.
어떠한 데이터가 있을 때, 예를 들어 아래는 주택의 면적과 가격을 표시한 데이터 입니다. 이 데이터를 통해서 우리는 주택의 면적(입력) 에 따른 가격(출력)을 예측하는 모델을 세우고자 합니다.
간단한 모델을 다음과 같이 선정할 수 있습니다. 데이터의 관계가 선형관계라고 보고 이 관계를 근사치(테이터의 특성을 대표한다고 생각하는 데이터의 일부만을 사용하여)로 직선을 그릴 수 있습니다.
지도학습문제를 조금 더 공식적으로 기술하면, 우리의 목표는 주어진 전체 데이터 집합의 일부인 훈련집합으로 함수 h(모델) 를 학습하는(또는 만드는) 것입니다.
X → Y 일 때, h(x) 는 해당하는 y 에 대해서 “양호한” 예측값 입니다. 역사적인 사유로, 이 함수 h 를 가르켜 가정이라고 부릅니다. 그림으로 표현하면, 아래와 같습니다.
선형회기
우리가 예측하려는 목표값인 주택의 가격은 연속적입니다. 또한 예측하려는데 사용하는 가정은 선형(주택의 크기가 커질수록 가격이 증가하는 경향을 관찰할 수 있었습니다.)입니다. 따라서 이러한 학습문제를 선형회기 문제라고 합니다.
중요하기 때문에 반복적으로 언급하면 우리가 앞서 살펴본 주택의 예시와 같이 연속적인 결과값을 예측하는 모델을 만드는 학습문제를 회기문제라고 불렀습니다. 반면 y 가 단지 몇 개의 불연속적인 값(예를들어, 주택의 면적이 주어질 때 우리가 이것이 단독주택인지 아파트인지 예측을 하고 싶은 경우)으로 표현될 경우, 우리는 이것을 분류 문제라고 불렀습니다.
'머신러닝' 카테고리의 다른 글
경사하강법 (Gradient Descent) (0) | 2018.09.13 |
---|---|
비용함수 (Cost Function) (0) | 2018.09.10 |
비지도 학습(Unsupervised Learning) (0) | 2018.09.06 |
지도학습 (Supervised Learning) (0) | 2018.09.05 |
머신러닝이란 무엇인가? (0) | 2018.09.05 |