1 지도 학습(supervised learning)[편집 | 원본 편집]

1.1 정의[편집 | 원본 편집]

알고리즘에 주입하는 훈련 데이터에 레이블(label)이라 불리는 정답을 포함하는 경우 사용하는 학습 방법

- 도착한 메일을 스팸, 영수증, 지인 등으로 분류(classification)

- 주행 거리, 연식, 브랜드 등의 특성(feature)을 사용해 중고차 가격 같은 타깃(target)을 예측하는 회귀(regression)

※ 지도 학습에서 타깃(target)과 레이블(label)은 일반적으로 동의어로 취급. 회귀 작업에서 타깃(target)이라는 용어를 주로 사용하고 분류 작업에서는 레이블(label)이라는 용어를 주로 사용함.

알고리즘에 주입하는 훈련 데이터에 레이블(label)이 없는 경우 사용하는 학습 방법

- 블로그 방문자를 비슷한 방문자 그룹으로 군집(clustering)

- 데이터를 시각화하여 인사이트를 얻을 수 있도록 하는 시각화(visualization)

- 너무 많은 정보를 잃지 않으면서 데이터를 간소화하는 차원 축소(dimensionality reduction) ⬅️ 아래서 설명하는 특성 추출(feature extraction)과 상호보완적인 관계

- 차의 주행 거리와 연식이 강하게 연관되어 있기 때문에 차원 축소 알고리즘으로 두 특성을 차의 마모 정도를 나타내는 하나의 특성으로 합치는 특성 추출(feature extraction)

- 부정 거래를 막기 위해 이상한 신용카드 거래를 감지하거나 제조 결함을 잡아내는 이상치 탐지(outlier detection)

- 이상치 탐지와 유사한 특이치 탐지(novelty detection)는 훈련 세트에 있는 모든 샘플과 달라 보이는 새로운 샘플을 탐지할 때 사용

- 대량의 데이터에서 특성 간의 흥미로운 관계를 찾는 연관 규칙 학습(association rule learning) ⬅️ 슈퍼마켓에서 바비큐 소스와 감자를 구매한 사람이 스테이크도 구매하는 경향이 있다는 패턴을 찾으면 이 상품들을 함께 진열할 수 있음

이어서 작성

###

실시간으로 점진적인 학습을 하는지 아닌지

단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아닌지 아니면 과학자들이 하는 것처럼 데이터셋에서 패턴을 발견하여 예측 모델을 만드는지