새소식

통계

[통계] 중심 극한 정리 Central Limit Theorem(CLT)

  • -
728x90

머신러닝과 딥러닝을 공부하다보면 중요한 통계 개념들이 있다. 그 중 하나가 중심극한정리(Central Limit Theorem; CLT)이다.

중심 극한 정리란 무엇일까?

모집단이 평균이 $\mu$이고, 표준편차가 $\sigma $인 임의의 분포를 이룬다고 할 때, 이 모집단으로부터 추출된 표본의 크기(n)가 충분히 크다면 표본 평균들이 이루는 분포는 평균이  $\mu$이고 표준편차가 $\sigma  \sqrt{n}$인 정규분포에 근접한다.

중심 극한 정리는 즉 동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 이 정의는 샘플을 많이 뽑는다면 확률 분포가 가우시안으로 수렴한다고 생각할 수 있게 하는데, 실제로 이 세상 모든 사건들이 가우시안 분포를 따르는 것은 아니다. 그렇다면 이 개념은 무엇일까? 중요한 부분은 평균의 분포가 가우시안 분포를 따른다는 것이다. 

이때 이야기하는 평균이란 샘플들의 평균이다. 예를 들어 설명하자면 모집단으로 한 클래스(35명)의 체중을 조사해둔 자료가 있다고 하자.

여기서 크기가 5인 샘플을 추출 후 그 값의 평균을 내 히스토그램으로 그린다고 해보자. 

7번 반복하면 다음과 같은 그래프가 나온다.

7번 시행했을 경우

그리고 이 작업을 30번 반복하게 되면 

30번 반복한 그래프

100번 반복하게 되면

100번 반복

1000번 반복하게 된다면

1000번 반복

값이 횟수가 많아질 수록 정규분포를 닮아가는 것을 확인할 수 있다.

import random

class1 = [random.randint(50, 90) for _ in range(35)]

plt.hist(class1, bins=10, edgecolor='black')
plt.xlabel('Weight')
plt.ylabel('Frequency')
plt.title('Distribution of Class 1 Weight')
plt.show()

sample_means = []
num_samples = 7
sample_size = 5

for _ in range(num_samples):
    samples = random.sample(class1, sample_size)
    sample_mean = sum(samples) / sample_size
    sample_means.append(sample_mean)

plt.hist(sample_means, bins=10, edgecolor='black')
plt.xlabel('Sample Means')
plt.ylabel('Frequency')
plt.title('Distribution of Sample Means')
plt.show()

그렇다면 이 CLT는 왜 중요한 것일까? 

  1. 통계적 추론: 인공지능 분야에서 데이터 분석과 통계적 추론은 핵심적인 역할을 한다. CLT는 작은 규모의 샘플에서도 중심극한정리를 통해 표본 평균의 분포가 정규 분포에 근사함을 보여준다. 이를 통해 통계적 추론 방법을 적용할 수 있으며, 표본 통계량을 이용한 신뢰 구간 추정과 가설 검정 등의 작업에 CLT를 활용할 수 있다.
  2. 머신러닝 모델 가정: 많은 머신러닝 알고리즘은 입력 데이터의 분포에 대한 가정을 기반으로 동작한다. CLT는 독립적인 확률 변수들의 평균이 정규 분포에 근사적으로 따른다는 것을 보여준다. 따라서 데이터의 특성을 파악하고 전처리 과정에서 정규성 가정을 검증하는 데에 활용될 수 있다.
  3. 통계적 모델링: CLT는 통계적 모델링에서 중요한 가정 중 하나이다. 많은 통계 모델은 오차 항(잔차)의 분포를 가정하는데, CLT에 따라 오차 항은 독립적이고 정규 분포를 따른다고 가정할 수 있다. 이를 통해 최적화 기법이나 모델 평가 등에 활용할 수 있다.
  4. 대규모 데이터 분석: 인공지능 분야에서는 대규모 데이터셋을 다루는 경우가 많다. CLT는 독립적인 확률 변수들의 평균이 정규 분포에 근사적으로 따른다는 것을 의미하므로, 대규모 데이터의 평균이 정규 분포를 따르는 경향을 보인다. 이를 통해 대규모 데이터셋에서의 통계적 분석과 추론을 보다 안정적으로 수행할 수 있다.

참고

https://drhongdatanote.tistory.com/57

 

[개념 통계 17] 중심극한 정리는 무엇이고 왜 중요한가?

안녕하세요. 홍박사입니다. 정말 오랜만에 포스팅을 합니다. 바쁘다는 핑계로 계속 포스팅을 미뤄오다가 마음을 다잡고 짧은 호흡으로라도 포스팅을 하는 것이 좋을 것 같다는 생각이 들었습니

drhongdatanote.tistory.com

https://recipesds.tistory.com/entry/%EC%A4%91%EC%8B%AC%EA%B7%B9%ED%95%9C%EC%A0%95%EB%A6%AC%EC%97%90-%EB%8C%80%ED%95%9C-%EC%98%A4%ED%95%B4-%EB%A7%8E%EC%9C%BC%EB%A9%B4-%EB%AC%B4%EC%A1%B0%EA%B1%B4-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC-OK

 

중심극한정리에 대한 오해, 많으면 무조건 정규분포 OK???

내 주변에는 어찌된 일인지 중심극한정리를 다음과 같이 이해하고 있는 사람이 많이 있습니다. 어떤 분포이던지, 샘플을 아주 많이 뽑으면 확률분포가 가우시안으로 수렴한다.고 중심극한정리

recipesds.tistory.com

 

728x90

'통계' 카테고리의 다른 글

[통계] 확률 밀도 함수 Probability Density Function  (1) 2023.07.13
[가설검정] 오류  (0) 2023.07.05
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.