인공지능을 위한 통계학 기초
확률과 확률 분포
최 수빈
2025. 2. 21. 03:29
확률
특정 사건이 발생할 가능성
0에서 1 사이의 값을 가짐
확률 값의 의미
- 0: 불가능한 사건
- 1: 반드시 발생하는 사건
확률의 기본 법칙
덧셈 법칙
P(A or B) = P(A) + P(B) - P(A and B)
곱셈 법칙
P(A and B) = P(A) * P(B|A)
확률의 활용
- 사건 발생 가능성 계산
- 리스크 분석 및 의사결정 트리 구성
확률 분포
데이터가 특정 확률에 따라 분포하는 형태를 의미
이항분포(Binomial Distribution)
성공/실패와 같은 두 가지 결과를 가지는 실험을 n번 독립적으로 수행하는 확률 분포
- 각 시행에서 성공 확률 p가 일정함
- 성공 횟수를 X라 할 때, X는 이항분포를 따름: X ~B(n, p)
- 평균: np, 분산: np(1-p)
예
동전 던지기
제품의 불량 개수 예측
정규분포(Normal Distribution)
종형 곡선을 가지며, 연속 확률 분포 중 하나
자연현상과 사회현상을 모델링하는 데 주로 사용됨
- 평균(μ)과 표준편차(σ)로 정의
- 68-95-99.7 법칙: 데이터의 약 68%는 μ±σ, 95%는 μ±2σ, 99.7%는 μ±3σ 내에 위치
예
키, 몸무게, IQ 점수
측정 오차 분석
표준 정규분포(Standard Normal Distribution)
평균이 0, 표준편차가 1인 정규분포: N(0,1)
- 모든 정규분포는 z-점수 변환을 통해 표준 정규분포로 변환 가능
*z-점수 공식
z = (x - μ) / σ
x: 원래 값
μ: 평균
σ: 표준편차
- 표준 정규분포표를 이용해 확률 계산 가능
활용
- 서로 다른 척도의 데이터 비교 (== 확률 계산을 단순화)
- 이상치 탐지 (z-점수가 ±3 이상인 경우)
- 가설 검정 및 신뢰 구간 계산
조건부 확률과 베이즈 정리
조건부 확률 (Conditional Probability)
사건 B가 일어난 조건에서 사건 A가 일어날 확률
P(A|B) = P(A and B) / P(B)
베이즈 정리 (Bayes' Theorem)
사전 확률을 사후 확률로 업데이트하는 공식
P(A|B) = P(B|A) * P(A) / P(B)
활용
- 의학 진단 (병이 있을 확률)
- 스팸 필터링 (이메일이 스팸일 확률)
- 기계 학습에서 확률적 추론
중심 극한 정리 (Central Limit Theorem, CLT)
표본의 크기가 충분히 크면 표본 평균의 분포가 정규분포에 근사한다는 정리
- 모집단의 분포와 관계없이 표본 크기가 30 이상이면 정규분포로 근사 가능
- 통계적 추론의 핵심 원리
활용
- 신뢰구간 및 가설 검정
- 여론조사 및 품질 관리
- 금융 리스크 분석
정규분포를 시뮬레이션하는 Python 코드 예제
import numpy as np
import matplotlib.pyplot as plt
# 평균 0, 표준편차 0.1인 정규분포에서 1000개의 샘플 생성
mu, sigma = 0, 0.1
s = np.random.normal(mu, sigma, 1000)
# 히스토그램으로 시각화
plt.hist(s, bins=30, density=True, alpha=0.6, color='g')
plt.title('정규분포 히스토그램')
plt.xlabel('값')
plt.ylabel('확률 밀도')
plt.show()
확률 개념의 응용
- 머신러닝: 나이브 베이즈 분류기에서 조건부 확률 활용
- 딥러닝: 변분 오토인코더(VAE)에서 정규분포 가정
- 통계 분석: 실험 데이터 분석, 가설 검정, 신뢰구간 계산
- 금융: 포트폴리오 리스크 평가 및 옵션 가격 예측