경험으로부터 학습
- 지도학습
레이블이 포함된 입/출력 쌍을 사용해 학습
- 비지도학습
데이터를 패턴별로 나누어 분류
- 강화학습
레이블 대신 결과에 대한 피드백만 받음
머신러닝 과제
- 지도학습
= 분류classification
새로운 관측치(input)를 가장 가능성 있는 category/class/label로 분류
ex. 주가 상승/하락, 기사의 범주 분류
= 회귀regression
output 예측
ex. 판매 수익 예측, 급여 유추
- 비지도학습
= 군집화clustering
관측치가 유사한 집단끼리 그룹화
ex. 영화 리뷰의 긍정적/부정적 분류 (어떤 것이 긍정적/부정적인지는 모름)
음악의 키, 사용된 악기 등으로 장르 구분
= 차원축소
특징 중 중요한 요소를 추려냄
데이터 시각화
훈련 데이터, 테스트 데이터, 검증 데이터
과적합overfitting: 학습 데이터가 지나치게 편향되어 일반적인 데이터를 잘 해석하지 못함
초매개변수hyperparameters: 알고리즘의 학습 방식을 조절하는 매개변수
검증 데이터validation data: 초매개변수를 설정하기 위해 사용되는 데이터
50~75% 훈련 데이터 / 10~25% 테스트 데이터 / 나머지 검증 데이터
교차 검증cross validation: 전체 데이터를 분할하여 훈련 데이터/테스트 데이터로 번갈아가며 사용하여 평균 값 사용
편향과 분산
편향bias: 데이터가 특정 영역에 몰려있음. 유연하지 못함
분산variance: 데이터가 넓게 퍼져있어 특징을 잘 나타내지 못함. 노이즈까지 적합하다고 판단함
정확도accuracy: 정확히 분류된 비율만 나타냄
ACC = (TP + TN) / (TP + TN + FP + FN)
정밀도precision: 타겟이라고 판단한 것 중 정확히 분류한 비율
P = TP / (TP + FP)
재현율recall: 실제 타겟 중 정확히 분류한 비율
R = TP / (TP + FN)