https://machinelearningmastery.com/types-of-classification-in-machine-learning/
4 Types of Classification Tasks in Machine Learning
Machine learning is a field of study and is concerned with algorithms that learn from examples. Classification is a task that requires the use of machine learning algorithms that learn how to assign a class label to examples from the problem domain. An eas
machinelearningmastery.com
https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/
로지스틱 회귀 · ratsgo's blog
이번 포스팅에선 범주형 변수를 예측하는 모델인 로지스틱 회귀(Logistic Regression)에 대해 살펴보려고 합니다. 이번 글은 고려대 강필성 교수님과 역시 같은 대학의 김성범, 정순영 교수님 강의를
ratsgo.github.io
- Multiple Linear Regression
수치 변수 X와 연속한 값 Y 간의 관계를 선형으로 가정하고 그 회귀 계수를 데이터로부터 추정
예측값과 실제값의 차이, error sum of squares를 최소로 하는 값
Y가 연속 값이 아니라 categorical 값인 경우 제대로 예측하지 못함

- Logistic Function (Sigmoid Function)
변수에 대한 값이 선형이 아닌 S-커브를 따르는 경우
출력 결과는 항상 0 ~ 1이므로 확률밀도함수 조건 충족
- Odds

- Binomial Logistic Regression
Y의 categorical 값을 확률로 바꾸어 계산
계산 결과가 무한대 범위를 가지므로 Y를 odds 값으로 변경
odds 값은 음의 결과를 갖지 못하므로 로그를 취하여 계산

https://ratsgo.github.io/machine%20learning/2017/04/17/KNN/
K-Nearest Neighbor Algorithm · ratsgo's blog
이번 글에서는 K-최근접이웃(K-Nearest Neighbor, KNN) 알고리즘을 살펴보도록 하겠습니다. 이번 글은 고려대 강필성 교수님, 김성범 교수님 강의를 참고했습니다. 그럼 시작하겠습니다. 모델 개요 KNN��
ratsgo.github.io
- KNN(K Nearest Neighbor)
학습 없이 새로운 데이터가 들어왔을 때 기존 데이터 사이의 거리를 잼
k: 탐색할 이웃 수
최적의 k 값은 데이터마다 다르므로 실험하며 찾아야 함
거리 측정 방법
-- Euclidean Distance
두 관측치 사이의 직선 최단거리
-- Manhattan Distance
각 좌표축 방향으로만 이동할 때 최단거리
-- Mahalanobis Distance
변수 간 상관관계(분산)를 고려한 거리
데이터의 전체적인 경향과 맞아 떨어지는 값의 거리가 가까움

-- Correlation Distance
-- Rank Correlation Distance
Combining Rule
-- Majority Voting
가장 많은 이웃으로 범주 결정
-- Weighted Voting
거리가 가까운 이웃에 높은 가중치 부여
Cut-off
범주 간 비율이 불균형할 때 범주의 prior probability를 고려해야 함
Regularization
각 특징정보가 잘 반영될 수 있도록 변수별 평균과 분산을 일치시키는 정규화 작업 필요
https://ratsgo.github.io/machine%20learning/2017/03/26/tree/
의사결정나무(Decision Tree) · ratsgo's blog
이번 포스팅에선 한번에 하나씩의 설명변수를 사용하여 예측 가능한 규칙들의 집합을 생성하는 알고리즘인 의사결정나무(Decision Tree)에 대해 다뤄보도록 하겠습니다. 이번 글은 고려대 강필성 �
ratsgo.github.io
- Decision Tree
데이터를 규칙들의 조합으로 나타냄
terminal node 간 교집합이 없음
classification: 나뉘어진 규칙을 기반으로 분류
regression: terminal node의 종속변수의 평균 기반
구분 뒤 각 영역의 entropy(불확실성) 감소 = information gain(변별력) 높은 규칙
-- Recursive Partitioning
입력 변수 영역을 두개로 구분(1,n-1 2,n-2 3,n-3 ...)하여 두 영역간의 엔트로피 및 IG를 계산
모든 경우의 수 중 가장 IG가 큰 변수 종류 및 지점을 택해 분기

-- Pruning
모든 terminal node의 순도가 최대인 경우(full tree) overfitting을 방지하기 위해 적절히 node를 결합
cost function을 최소로 하도록 학습
https://ratsgo.github.io/machine%20learning/2017/05/23/SVM/
서포트 벡터 머신 (Support Vector Machine) · ratsgo's blog
이번 글에서는 딥러닝 이전 뛰어난 성능으로 많은 주목을 받았던 서포트 벡터 머신(Support Vector Machine)에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님과 같은 대학의 김성범
ratsgo.github.io
- SVM(Support Vector Machine)
margin(minus plane, plus plane 사이의 거리)을 최대화하는 분류 경계면을 찾는 기법

https://ratsgo.github.io/machine%20learning/2017/05/18/naive/
나이브 베이즈 분류기 · ratsgo's blog
이번 글에서는 문서 분류를 하기 위한 나이브 베이지안 분류기(Naive Bayesian Classifier)에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님과 역시 같은 대학의 정순영 교수님 강의,
ratsgo.github.io
- Naive Bayes
-- Bayes Model
구하기 어려운 posterior probability 대신 prior probability와 likelihood probability를 통해 간접 계산
각 특징이 독립이라고 가정하여 곱연산을 통해 계산
-- Smoothing
likelihood probability가 0이 되는 경우에 대비
-- Binary NB
특징이 샘플 내에 등장했는지 여부만 확인
'AI' 카테고리의 다른 글
Multi-class Classification (0) | 2020.07.24 |
---|
https://machinelearningmastery.com/types-of-classification-in-machine-learning/
4 Types of Classification Tasks in Machine Learning
Machine learning is a field of study and is concerned with algorithms that learn from examples. Classification is a task that requires the use of machine learning algorithms that learn how to assign a class label to examples from the problem domain. An eas
machinelearningmastery.com
https://ratsgo.github.io/machine%20learning/2017/04/02/logistic/
로지스틱 회귀 · ratsgo's blog
이번 포스팅에선 범주형 변수를 예측하는 모델인 로지스틱 회귀(Logistic Regression)에 대해 살펴보려고 합니다. 이번 글은 고려대 강필성 교수님과 역시 같은 대학의 김성범, 정순영 교수님 강의를
ratsgo.github.io
- Multiple Linear Regression
수치 변수 X와 연속한 값 Y 간의 관계를 선형으로 가정하고 그 회귀 계수를 데이터로부터 추정
예측값과 실제값의 차이, error sum of squares를 최소로 하는 값
Y가 연속 값이 아니라 categorical 값인 경우 제대로 예측하지 못함

- Logistic Function (Sigmoid Function)
변수에 대한 값이 선형이 아닌 S-커브를 따르는 경우
출력 결과는 항상 0 ~ 1이므로 확률밀도함수 조건 충족
- Odds

- Binomial Logistic Regression
Y의 categorical 값을 확률로 바꾸어 계산
계산 결과가 무한대 범위를 가지므로 Y를 odds 값으로 변경
odds 값은 음의 결과를 갖지 못하므로 로그를 취하여 계산

https://ratsgo.github.io/machine%20learning/2017/04/17/KNN/
K-Nearest Neighbor Algorithm · ratsgo's blog
이번 글에서는 K-최근접이웃(K-Nearest Neighbor, KNN) 알고리즘을 살펴보도록 하겠습니다. 이번 글은 고려대 강필성 교수님, 김성범 교수님 강의를 참고했습니다. 그럼 시작하겠습니다. 모델 개요 KNN��
ratsgo.github.io
- KNN(K Nearest Neighbor)
학습 없이 새로운 데이터가 들어왔을 때 기존 데이터 사이의 거리를 잼
k: 탐색할 이웃 수
최적의 k 값은 데이터마다 다르므로 실험하며 찾아야 함
거리 측정 방법
-- Euclidean Distance
두 관측치 사이의 직선 최단거리
-- Manhattan Distance
각 좌표축 방향으로만 이동할 때 최단거리
-- Mahalanobis Distance
변수 간 상관관계(분산)를 고려한 거리
데이터의 전체적인 경향과 맞아 떨어지는 값의 거리가 가까움

-- Correlation Distance
-- Rank Correlation Distance
Combining Rule
-- Majority Voting
가장 많은 이웃으로 범주 결정
-- Weighted Voting
거리가 가까운 이웃에 높은 가중치 부여
Cut-off
범주 간 비율이 불균형할 때 범주의 prior probability를 고려해야 함
Regularization
각 특징정보가 잘 반영될 수 있도록 변수별 평균과 분산을 일치시키는 정규화 작업 필요
https://ratsgo.github.io/machine%20learning/2017/03/26/tree/
의사결정나무(Decision Tree) · ratsgo's blog
이번 포스팅에선 한번에 하나씩의 설명변수를 사용하여 예측 가능한 규칙들의 집합을 생성하는 알고리즘인 의사결정나무(Decision Tree)에 대해 다뤄보도록 하겠습니다. 이번 글은 고려대 강필성 �
ratsgo.github.io
- Decision Tree
데이터를 규칙들의 조합으로 나타냄
terminal node 간 교집합이 없음
classification: 나뉘어진 규칙을 기반으로 분류
regression: terminal node의 종속변수의 평균 기반
구분 뒤 각 영역의 entropy(불확실성) 감소 = information gain(변별력) 높은 규칙
-- Recursive Partitioning
입력 변수 영역을 두개로 구분(1,n-1 2,n-2 3,n-3 ...)하여 두 영역간의 엔트로피 및 IG를 계산
모든 경우의 수 중 가장 IG가 큰 변수 종류 및 지점을 택해 분기

-- Pruning
모든 terminal node의 순도가 최대인 경우(full tree) overfitting을 방지하기 위해 적절히 node를 결합
cost function을 최소로 하도록 학습
https://ratsgo.github.io/machine%20learning/2017/05/23/SVM/
서포트 벡터 머신 (Support Vector Machine) · ratsgo's blog
이번 글에서는 딥러닝 이전 뛰어난 성능으로 많은 주목을 받았던 서포트 벡터 머신(Support Vector Machine)에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님과 같은 대학의 김성범
ratsgo.github.io
- SVM(Support Vector Machine)
margin(minus plane, plus plane 사이의 거리)을 최대화하는 분류 경계면을 찾는 기법

https://ratsgo.github.io/machine%20learning/2017/05/18/naive/
나이브 베이즈 분류기 · ratsgo's blog
이번 글에서는 문서 분류를 하기 위한 나이브 베이지안 분류기(Naive Bayesian Classifier)에 대해 살펴보도록 하겠습니다. 이번 글 역시 고려대 강필성 교수님과 역시 같은 대학의 정순영 교수님 강의,
ratsgo.github.io
- Naive Bayes
-- Bayes Model
구하기 어려운 posterior probability 대신 prior probability와 likelihood probability를 통해 간접 계산
각 특징이 독립이라고 가정하여 곱연산을 통해 계산
-- Smoothing
likelihood probability가 0이 되는 경우에 대비
-- Binary NB
특징이 샘플 내에 등장했는지 여부만 확인
'AI' 카테고리의 다른 글
Multi-class Classification (0) | 2020.07.24 |
---|