Machine Learning
-
일반적으로 분류 문제에서 소수의 클래스는 다수 클래스에 비해 상대적으로 적은 샘플을 가지고 있다. 이 때문에 모델이 소수의 클래스를 정확하게 학습하기 어렵다. 이런 불균형한 데이터에서 모델의 성능을 올려보고자 제시된 방법이 대표적으로 오버 샘플링과 언더 샘플링이다. 그중 이 포스팅에서 소개할 SMOTE-NC는 오버 샘플링에서 주로 사용되는 SMOTE의 확장된 버전이다. 여기서 오버 샘플링은 불균형한 데이터셋에서 소수 클래스의 샘플을 증가시켜 균형을 맞추는 기법을 의미한다. 오버 샘플링 앞에서 이야기했듯 오버 샘플링은 소수 클래스의 샘플을 증가시켜 데이터셋의 클래스 간 균형을 조정한다. 이를 통해 모델이 소수 클래스를 더 잘 학습할 수 있다. 오버 샘플링은 소수 클래스의 샘플을 복제하거나 새로운 합성 샘플..
[ML] SMOTE와 SMOTE-NC일반적으로 분류 문제에서 소수의 클래스는 다수 클래스에 비해 상대적으로 적은 샘플을 가지고 있다. 이 때문에 모델이 소수의 클래스를 정확하게 학습하기 어렵다. 이런 불균형한 데이터에서 모델의 성능을 올려보고자 제시된 방법이 대표적으로 오버 샘플링과 언더 샘플링이다. 그중 이 포스팅에서 소개할 SMOTE-NC는 오버 샘플링에서 주로 사용되는 SMOTE의 확장된 버전이다. 여기서 오버 샘플링은 불균형한 데이터셋에서 소수 클래스의 샘플을 증가시켜 균형을 맞추는 기법을 의미한다. 오버 샘플링 앞에서 이야기했듯 오버 샘플링은 소수 클래스의 샘플을 증가시켜 데이터셋의 클래스 간 균형을 조정한다. 이를 통해 모델이 소수 클래스를 더 잘 학습할 수 있다. 오버 샘플링은 소수 클래스의 샘플을 복제하거나 새로운 합성 샘플..
2023.07.11 -
경사하강법 기반 분류 알고리즘 Logistic Regression 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계기법이다. 사건의 발생 가능성(=확률)을 예측 하기 때문에 0과 1사이로 output 값이 제한된다. 종속변수가 범주형 데이터를 대상으로 하며, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류(classification)기법이다. Logistic Regression 과정 모든 피처들의 coefficients와 intercept 을 0으로 초기화 각 속성들의 값에 coefficients 를 곱해서 log-odds를 구함 Log-odds를 sigmoid 함수에 넣어서 [0, 1] 범위의 확률을 구함 계산한 확률값과 실제 labe..
[ML] Logistic Regression(로지스틱 회귀)경사하강법 기반 분류 알고리즘 Logistic Regression 독립변수의 선형 결합을 이용하여 사건의 발생 가능성을 예측하는데 사용되는 통계기법이다. 사건의 발생 가능성(=확률)을 예측 하기 때문에 0과 1사이로 output 값이 제한된다. 종속변수가 범주형 데이터를 대상으로 하며, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 특정 분류로 나뉘기 때문에 일종의 분류(classification)기법이다. Logistic Regression 과정 모든 피처들의 coefficients와 intercept 을 0으로 초기화 각 속성들의 값에 coefficients 를 곱해서 log-odds를 구함 Log-odds를 sigmoid 함수에 넣어서 [0, 1] 범위의 확률을 구함 계산한 확률값과 실제 labe..
2023.07.03 -
머신러닝에서 분류 모델(Classification Model)은 입력 데이터를 사전에 정의된 클래스 레이블로 분류하는 작업을 수행하는 모델이다. 분류 모델은 지도학습(Supervised Learning)의 한 종류로, 입력 데이터와 해당 데이터의 클래스 레이블이 주어지는 학습 데이터를 사용하여 모델을 학습시킨다. 그리고 학습된 모델을 사용하여 새로운 입력 데이터의 클래스 레이블을 예측하거나 분류한다. 분류 모델은 다양한 알고리즘과 기법을 사용하여 구현될 수 있다. 다양한 분류 모델 경사하강법 기반 알고리즘 Logistic Regression SGD Classifier Artificial Neural Networks(ANNs): 신경망 확률 기반 알고리즘 LDA(Linear Discriminant Anal..
[ML] 분류 모델(Classification Model)머신러닝에서 분류 모델(Classification Model)은 입력 데이터를 사전에 정의된 클래스 레이블로 분류하는 작업을 수행하는 모델이다. 분류 모델은 지도학습(Supervised Learning)의 한 종류로, 입력 데이터와 해당 데이터의 클래스 레이블이 주어지는 학습 데이터를 사용하여 모델을 학습시킨다. 그리고 학습된 모델을 사용하여 새로운 입력 데이터의 클래스 레이블을 예측하거나 분류한다. 분류 모델은 다양한 알고리즘과 기법을 사용하여 구현될 수 있다. 다양한 분류 모델 경사하강법 기반 알고리즘 Logistic Regression SGD Classifier Artificial Neural Networks(ANNs): 신경망 확률 기반 알고리즘 LDA(Linear Discriminant Anal..
2023.07.03 -
Feature Select(특징 선택): 모델을 구성하기 위한 Feature을 선택하는 과정 고차원, 즉 피처가 많을 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 이 Curse of Dimensionality(차원의 저주)가 일어나는데 해당 데이터로 학습을 시켰을 때 예측에서 정확도가 떨어진다. 복잡도를 감소시켜 모델의 성능을 향상시키고 처리속도를 증가시키기 위해 하는 방법 중에 하나가 Feature Select이다. 특징 선택 알고리즘은 크게 Filter, Wrapper, Embedded 3가지로 구분한다. 이 세가지 방법론을 하나만 선택해서 사용한다기보다는 같이 사용한다. (ex. Wrapper method를 사용하기 전에 Filter method를 사용) Embedded filter m..
[ML/데이터 전처리]Feature Selection - EmbeddedFeature Select(특징 선택): 모델을 구성하기 위한 Feature을 선택하는 과정 고차원, 즉 피처가 많을 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 이 Curse of Dimensionality(차원의 저주)가 일어나는데 해당 데이터로 학습을 시켰을 때 예측에서 정확도가 떨어진다. 복잡도를 감소시켜 모델의 성능을 향상시키고 처리속도를 증가시키기 위해 하는 방법 중에 하나가 Feature Select이다. 특징 선택 알고리즘은 크게 Filter, Wrapper, Embedded 3가지로 구분한다. 이 세가지 방법론을 하나만 선택해서 사용한다기보다는 같이 사용한다. (ex. Wrapper method를 사용하기 전에 Filter method를 사용) Embedded filter m..
2023.06.30 -
Feature Select(특징 선택): 모델을 구성하기 위한 Feature을 선택하는 과정 고차원, 즉 피처가 많을 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 이 Curse of Dimensionality(차원의 저주)가 일어나는데 해당 데이터로 학습을 시켰을 때 예측에서 정확도가 떨어진다. 복잡도를 감소시켜 모델의 성능을 향상시키고 처리속도를 증가시키기 위해 하는 방법 중에 하나가 Feature Select이다. 특징 선택 알고리즘은 크게 Filter, Wrapper, Embedded 3가지로 구분한다. 이 세가지 방법론을 하나만 선택해서 사용한다기보다는 같이 사용한다. (ex. Wrapper method를 사용하기 전에 Filter method를 사용) Wrapper 예측 정확도 측면..
[ML/데이터 전처리]Feature Selection - WrapperFeature Select(특징 선택): 모델을 구성하기 위한 Feature을 선택하는 과정 고차원, 즉 피처가 많을 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 이 Curse of Dimensionality(차원의 저주)가 일어나는데 해당 데이터로 학습을 시켰을 때 예측에서 정확도가 떨어진다. 복잡도를 감소시켜 모델의 성능을 향상시키고 처리속도를 증가시키기 위해 하는 방법 중에 하나가 Feature Select이다. 특징 선택 알고리즘은 크게 Filter, Wrapper, Embedded 3가지로 구분한다. 이 세가지 방법론을 하나만 선택해서 사용한다기보다는 같이 사용한다. (ex. Wrapper method를 사용하기 전에 Filter method를 사용) Wrapper 예측 정확도 측면..
2023.06.29 -
Feature Selection(특징 선택): 모델을 구성하기 위한 Feature을 선택하는 과정 고차원, 즉 피처가 많을 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 이 Curse of Dimensionality(차원의 저주)가 일어나는데 해당 데이터로 학습을 시켰을 때 예측에서 정확도가 떨어진다. 복잡도를 감소시켜 모델의 성능을 향상시키고 처리속도를 증가시키기 위해 하는 방법 중에 하나가 Feature Select이다. 특징 선택 알고리즘은 크게 Filter, Wrapper, Embedded 3가지로 구분한다. 이 세가지 방법론을 하나만 선택해서 사용한다기보다는 같이 사용한다. (ex. Wrapper method를 사용하기 전에 Filter method를 사용) Filter 데이터 전처리..
[ML/데이터 전처리] Feature Selection - FilterFeature Selection(특징 선택): 모델을 구성하기 위한 Feature을 선택하는 과정 고차원, 즉 피처가 많을 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 이 Curse of Dimensionality(차원의 저주)가 일어나는데 해당 데이터로 학습을 시켰을 때 예측에서 정확도가 떨어진다. 복잡도를 감소시켜 모델의 성능을 향상시키고 처리속도를 증가시키기 위해 하는 방법 중에 하나가 Feature Select이다. 특징 선택 알고리즘은 크게 Filter, Wrapper, Embedded 3가지로 구분한다. 이 세가지 방법론을 하나만 선택해서 사용한다기보다는 같이 사용한다. (ex. Wrapper method를 사용하기 전에 Filter method를 사용) Filter 데이터 전처리..
2023.06.27