차원축소
-
t-SNE(t-distributed stochastic neighbor embedding) 높은 차원의 복잡한 데이터를 2차원에 차원축소하는 방법이다. 고차원 공간에서 유사한 두 벡터가 저차원에서도 유사하도록 원공간에서 점들 간의 유사도를 보존하며 차원을 축소한다. 시각화에 주로 사용하며 대표적으로 워드 임베딩을 시각화할 때 사용된다. 이전에 소개한 PCA, LDA와 달리 비선형적인 차원 축소 방법이다. t-SNE에 대해 자세히 알아보기 위해 먼저 이름의 뜻부터 살펴보도록하자. t-distributed: t-분포를 따른다. stochastic: 반복 프로세스에서 무작위로 선정 neighbor: 관심 있는 데이터 지점 근처에 위치하는 데이터 지점 embedding: 임베딩. 고차원에서 저차원으로 만든다. ..
[ML] Dimensionality Reduction #2 t-SNE, LLEt-SNE(t-distributed stochastic neighbor embedding) 높은 차원의 복잡한 데이터를 2차원에 차원축소하는 방법이다. 고차원 공간에서 유사한 두 벡터가 저차원에서도 유사하도록 원공간에서 점들 간의 유사도를 보존하며 차원을 축소한다. 시각화에 주로 사용하며 대표적으로 워드 임베딩을 시각화할 때 사용된다. 이전에 소개한 PCA, LDA와 달리 비선형적인 차원 축소 방법이다. t-SNE에 대해 자세히 알아보기 위해 먼저 이름의 뜻부터 살펴보도록하자. t-distributed: t-분포를 따른다. stochastic: 반복 프로세스에서 무작위로 선정 neighbor: 관심 있는 데이터 지점 근처에 위치하는 데이터 지점 embedding: 임베딩. 고차원에서 저차원으로 만든다. ..
2023.02.03 -
Curse of dimensionality(차원의 저주) 일반적으로 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 즉, 희소한 구조(sparse)를 가지게 되고 공간의 성김이 생기게 된다. 위 그림에서 볼 수 있다시피 1차원에서 보이는 점들의 거리가 차원이 늘어날수록 멀어지는 모습을 볼 수 있다. 이런 현상이 일어나게 될 경우, 위와 같은 데이터로 학습 시켰을 때 예측 정확도가 떨어지는 현상이 나타난다. 이런 현상은 거리기반의 모델인 KNN에서 특히 치명적이다. Dimensionality Reduction(차원 축소) 고차원, 즉 데이터의 피처가 많으면 차원의 저주 뿐만 아니라 개별 피처 간에 상관관계가 높기 때문에 선형 모델(대표적으로 linear regression)에서 다중..
[ML] Dimensionality Reduction #1 PCA, LDACurse of dimensionality(차원의 저주) 일반적으로 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어진다. 즉, 희소한 구조(sparse)를 가지게 되고 공간의 성김이 생기게 된다. 위 그림에서 볼 수 있다시피 1차원에서 보이는 점들의 거리가 차원이 늘어날수록 멀어지는 모습을 볼 수 있다. 이런 현상이 일어나게 될 경우, 위와 같은 데이터로 학습 시켰을 때 예측 정확도가 떨어지는 현상이 나타난다. 이런 현상은 거리기반의 모델인 KNN에서 특히 치명적이다. Dimensionality Reduction(차원 축소) 고차원, 즉 데이터의 피처가 많으면 차원의 저주 뿐만 아니라 개별 피처 간에 상관관계가 높기 때문에 선형 모델(대표적으로 linear regression)에서 다중..
2023.02.03