Deep Learning
-
손실 함수를 정의하는 기준에는 뭐가 있을까? 모델이 오차를 최소화하도록 정의한다. 모델이 추정하는 관측 데이터의 확률이 최대화되도록 최대우도추정 방식으로 정의한다. 오차 최소화 예측 데이터와 target 데이터의 차이가 작아지도록 학습하는 것을 오차 최소화 관점이라고 한다. 직관적인 방법이며 어떤 방식으로 오차의 크기를 측정할지를 정하면 된다. 대표적인 오차 추정 방식에는 평균제곱오차(MSE), 평균절대오차(MAE)가 있다. 최대우도추정(Maximum Likelihood Estimator) MLE라고 부르기도 하며 먼저 우도(Likelihood)에 대해서 알아야 이해가 간다. 가능도라고 하기도 하며, 간단히 설명하자면 일어날 가능성이 얼마나 되느냐이다. 그러면 최대우도추정이란 이 가능성을 최대로 하는 방..
[DL] 손실 함수 정의 기준손실 함수를 정의하는 기준에는 뭐가 있을까? 모델이 오차를 최소화하도록 정의한다. 모델이 추정하는 관측 데이터의 확률이 최대화되도록 최대우도추정 방식으로 정의한다. 오차 최소화 예측 데이터와 target 데이터의 차이가 작아지도록 학습하는 것을 오차 최소화 관점이라고 한다. 직관적인 방법이며 어떤 방식으로 오차의 크기를 측정할지를 정하면 된다. 대표적인 오차 추정 방식에는 평균제곱오차(MSE), 평균절대오차(MAE)가 있다. 최대우도추정(Maximum Likelihood Estimator) MLE라고 부르기도 하며 먼저 우도(Likelihood)에 대해서 알아야 이해가 간다. 가능도라고 하기도 하며, 간단히 설명하자면 일어날 가능성이 얼마나 되느냐이다. 그러면 최대우도추정이란 이 가능성을 최대로 하는 방..
2023.08.02 -
자코비안 행렬이란 야코비안이나 야코비라고도 불리운다. 이 포스팅에서는 가장 대중적으로 사용되는 자코비안 행렬이라고 칭하겠다. 자코비안 행렬이란 간단히 이야기하면 $f: \mathbb{R}^n \longrightarrow \mathbb{R}^m $ 형태의 벡터 함수 미분을 의미한다. 입력값이 n차원 벡터이고 함수값이 m차원의 벡터인 경우, 입력의 차원별로 함수값의 각 차원을 편미분해서 정의한 행렬이다. $m \times n$의 행렬 형태로 값이 나오며 이를 통해 미소 영역에서 ‘비선형 변환’을 ‘선형 변환으로 근사’ 시킬 수 있다. $$\mathbf{J f} = \left( \begin{array}{ccc} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}..
[선형대수학] 자코비안 행렬(Jacobian matrix)자코비안 행렬이란 야코비안이나 야코비라고도 불리운다. 이 포스팅에서는 가장 대중적으로 사용되는 자코비안 행렬이라고 칭하겠다. 자코비안 행렬이란 간단히 이야기하면 $f: \mathbb{R}^n \longrightarrow \mathbb{R}^m $ 형태의 벡터 함수 미분을 의미한다. 입력값이 n차원 벡터이고 함수값이 m차원의 벡터인 경우, 입력의 차원별로 함수값의 각 차원을 편미분해서 정의한 행렬이다. $m \times n$의 행렬 형태로 값이 나오며 이를 통해 미소 영역에서 ‘비선형 변환’을 ‘선형 변환으로 근사’ 시킬 수 있다. $$\mathbf{J f} = \left( \begin{array}{ccc} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}..
2023.08.01 -
이 단어를 영어 사전에 검색하며 기상학에서 사용되는 뜻이 나온다. 하지만 영영 사전으로 검색하게 되면 다음과 같은 뜻이 나온다. Information acquired by direct observation rather than by inference. 즉, Ground Truth는 추론에 의해 제공되는 정보가 아닌 직접 관찰 및 측정에 의해 제공되는 실제 또는 사실로 알려진 정보를 의미한다. 조금 더 쉽게 설명하자면 이미지의 label 데이터를 말한다. 주로 vision 분야에서 자주 사용되는 단어로, 성능 평가와 모델의 품질에 직접적으로 영향을 미친다.
[DL/AI] ground-truth이 단어를 영어 사전에 검색하며 기상학에서 사용되는 뜻이 나온다. 하지만 영영 사전으로 검색하게 되면 다음과 같은 뜻이 나온다. Information acquired by direct observation rather than by inference. 즉, Ground Truth는 추론에 의해 제공되는 정보가 아닌 직접 관찰 및 측정에 의해 제공되는 실제 또는 사실로 알려진 정보를 의미한다. 조금 더 쉽게 설명하자면 이미지의 label 데이터를 말한다. 주로 vision 분야에서 자주 사용되는 단어로, 성능 평가와 모델의 품질에 직접적으로 영향을 미친다.
2023.07.18 -
Fine-grained를 네이터 영어사전에 검색하면 '결이 고운'이라고 나온다. fine-grained classification, fine-grained context 등 딥러닝 논문들에서 쓰이는 단어들을 보면 결이 고운이라는 말로는 어떤 느낌으로 쓰인 건지 어렴풋하게 느껴질 뿐 와닿지는 않는다. 소프트웨어 공학에서 fine-grained는 coarse-grained와 비교되며 전자는 세밀하게 프로그래밍을 나누어서 고려한다는 의미이며, 후자는 큰 덩어리로 나누어서 고려한다는 의미이다. 그렇다면 딥러닝에서는 어떤 의미일까. 객체나 데이터의 세부적인 클래스 또는 속성을 구분하는 작업을 가리킨다. 객체 또는 데이터가 미세한 차이를 가지고 있는 경우, 더 세부적인 수준에서 클래스 또는 속성을 분류하고 인식하는..
[DL] Fine-grainedFine-grained를 네이터 영어사전에 검색하면 '결이 고운'이라고 나온다. fine-grained classification, fine-grained context 등 딥러닝 논문들에서 쓰이는 단어들을 보면 결이 고운이라는 말로는 어떤 느낌으로 쓰인 건지 어렴풋하게 느껴질 뿐 와닿지는 않는다. 소프트웨어 공학에서 fine-grained는 coarse-grained와 비교되며 전자는 세밀하게 프로그래밍을 나누어서 고려한다는 의미이며, 후자는 큰 덩어리로 나누어서 고려한다는 의미이다. 그렇다면 딥러닝에서는 어떤 의미일까. 객체나 데이터의 세부적인 클래스 또는 속성을 구분하는 작업을 가리킨다. 객체 또는 데이터가 미세한 차이를 가지고 있는 경우, 더 세부적인 수준에서 클래스 또는 속성을 분류하고 인식하는..
2023.07.17 -
논문을 읽다가 모르는 용어가 나오면 찾아서 정리하는 편인데 이번에 알아볼 용어는 Ablation Study이다. Ablation Study란 머신러닝 또는 딥러닝 모델의 구성 요소의 중요성을 평가하기 위해 실험적으로 해당 요소를 제거하는 기법을 말한다. 즉, 제안한 요소가 모델에 어떠한 영향을 미치는지 확인하고 싶을 때, 이 요소를 포함한 모델과 포함하지 않은 모델을 비교하는 것이다. 이를 통해 모델의 성능에 미치는 영향을 평가하고, 모델의 구성을 더 잘 이해하고 개선하는 데 도움을 준다. 이때 구성 요소는 모델의 아키텍처가 될 수도 있고, 손실함수가 될 수도 있으며, 하이퍼 파라미터 증 다양한 것들이 가능하다. Ablation Study를 이용할 경우 다음과 같은 몇 가지 이점이 있다. Ablation..
[DL] Ablation Study논문을 읽다가 모르는 용어가 나오면 찾아서 정리하는 편인데 이번에 알아볼 용어는 Ablation Study이다. Ablation Study란 머신러닝 또는 딥러닝 모델의 구성 요소의 중요성을 평가하기 위해 실험적으로 해당 요소를 제거하는 기법을 말한다. 즉, 제안한 요소가 모델에 어떠한 영향을 미치는지 확인하고 싶을 때, 이 요소를 포함한 모델과 포함하지 않은 모델을 비교하는 것이다. 이를 통해 모델의 성능에 미치는 영향을 평가하고, 모델의 구성을 더 잘 이해하고 개선하는 데 도움을 준다. 이때 구성 요소는 모델의 아키텍처가 될 수도 있고, 손실함수가 될 수도 있으며, 하이퍼 파라미터 증 다양한 것들이 가능하다. Ablation Study를 이용할 경우 다음과 같은 몇 가지 이점이 있다. Ablation..
2023.07.10 -
Few-shot prompting method는 주어진 작업에서 몇 가지 샘플만을 사용하여 학습 및 일반화하는 기법이다. 이 방법은 대규모 데이터셋이나 추가적인 레이블이 제한적인 상황에서 사용할 수 있다.Few-shot prompting은 일반적으로 LLM인 GPT (Generative Pre-trained Transformer)과 같은 모델을 기반으로 한다. 이러한 모델은 주어진 문맥에서 다음 단어를 생성하거나 예측하는 등의 작업에 사용될 수 있다.Few-shot prompting에서는 작업을 수행하기 위해 모델에 일부 입력 문장, 즉 "prompt"를 제공한다. 이 prompt에는 예시 문장이 포함되며, 모델은 이를 기반으로 일반화된 결과를 생성한다. prompt에 포함된 문장은 일부 문맥이 제공되어..
[NLP/prompt] few shot prompting methodFew-shot prompting method는 주어진 작업에서 몇 가지 샘플만을 사용하여 학습 및 일반화하는 기법이다. 이 방법은 대규모 데이터셋이나 추가적인 레이블이 제한적인 상황에서 사용할 수 있다.Few-shot prompting은 일반적으로 LLM인 GPT (Generative Pre-trained Transformer)과 같은 모델을 기반으로 한다. 이러한 모델은 주어진 문맥에서 다음 단어를 생성하거나 예측하는 등의 작업에 사용될 수 있다.Few-shot prompting에서는 작업을 수행하기 위해 모델에 일부 입력 문장, 즉 "prompt"를 제공한다. 이 prompt에는 예시 문장이 포함되며, 모델은 이를 기반으로 일반화된 결과를 생성한다. prompt에 포함된 문장은 일부 문맥이 제공되어..
2023.07.07