데이터 산포도
데이터가 중심 경향치로부터 얼마나 퍼져 있는지를 나타내는 지표
데이터의 분포와 변동성을 파악하는데 중요한 역학을 함
분산과 표준편차
분산(Variance)
데이터가 평균으로부터 얼마나 퍼져있는지를 나타내는 지표
σ² = Σ(x - x̄)² / N
또는
각 데이터 포인트와 평균의 차이를 제곱한 값들의 평균
- 장점 : 모든 데이터 포인트를 고려하여 변동성을 정확히 측정 가능
- 단점 : 원래 데이터 단위와 다른 단위(제곱된 단위)를 가지므로 해석이 어려울 수 있음
활용 예 : 금융 리스크 분석, 품질 관리, 데이터 변동성 평가
분산식에서 제곱이 갖는 의미
편차의 방향성 제거
데이터 포인트와 평균의 차이(편차)를 단순히 더하면 양수와 음수가 상쇄되어 0이 됨
→ 제곱을 통해 모든 편차를 양수로 만들어 양수와 음수의 합이 0이 되는 문제를 방지
큰 편차 강조
제곱은 큰 값을 더 크게, 작은 값을 상대적으로 더 작게 만듦 : 극단적인 값의 영향을 더 크게 반영
→ 평균에서 많이 벗어난 데이터 포인트에 더 큰 가중치 부여
수학적 편의성
미분이 용이하여 최적화 및 통계 분석에서 활용 가능
유클리드 거리와의 연관성
다차원 공간에서 거리 측정과 연결됨 (유클리드 기하학의 거리 개념)
정규분포와의 관계
확률밀도함수에서 제곱 항이 포함됨
→ 분산의 제곱과 연결
표본의 크기가 분산에 미치는 영향
- 분산 추정의 안정성
작은 표본은 분산 추정이 불안정
표본 크기가 증가하면 통계적 검정력이 증가
→ 실제 차이를 탐지할 가능성이 높아짐을 의미 (표본 크기가 증가할수록 분산 추정의 정확도와 안전성이 향상) - 분산 분석의 정밀도
표본의 크기가 증가할수록 분산 추정치의 신뢰구간이 좁아짐
→ 분산 분석(ANOVA)의 신뢰도가 향상됨
실험 단위당 표본의 크기가 클수록 극단값이 전체 분산에 미치는 영향이 줄어듦 (분산 분석 결과의 신뢰성이 높아짐)
표준 편차(Standard Deviation)
분산의 제곱근
원래 데이터와 같은 단위를 가짐
또는
원래 데이터와 같은 단위를 가져 해석 용이
정규분포에서 중요한 역할 : 68-95-99.7 규칙 적용 가능
*정규분포(Normal Distribution)의 68-95-99.7 규칙 (Empirical Rule)
정규분포에서 평균을 중심으로 한 표준 편차 범위 내에 데이터가 포함될 확률을 나타내는 경험적 법칙
확률 분포에서 데이터가 포함될 확률
• 평균(μ) ± 1σ 범위 → 약 68%
• 평균(μ) ± 2σ 범위 → 약 95%
• 평균(μ) ± 3σ 범위 → 약 99.7%
데이터의 99.7%는 평균에서 ±3 표준편차 내에 존재한다는 것을 의미
활용 예 : 경제 변동성 분석, 실험 데이터 변동성 평가, 이상치 탐지
표준 편차가 높은 데이터셋의 특징
- 데이터 분산이 크며 데이터 포인트들이 평균으로부터 넓게 퍼져 있어 변동성이 높음
- 극단적인 값이 존재할 가능성이 높음
- 평균값만으로는 데이터 특성을 설명하기 어려움
데이터의 분포가 넓기 때문에 평균값이 데이터셋을 대표하지 못할 수 있음 - 예측의 불확실성이 높아짐
- 위험성이나 변동성을 나타내는 지표로 활용 가능
예 : 주식 가격의 높은 표준편차는 해당 주식의 변동성가 위험이 높다는 것을 의미 - 데이터의 다양성과 이질성이 클 가능성이 높음
예 : 팀 선수들의 키에 대한 높은 표준편차는 다양한 신장의 선수들이 있음을 의미
표준 편차가 높은 데이터셋 분석 방법
- 비모수적 방법 : 중앙값, 사분위수 활용
데이터의 분포가 정규분포를 따르지 않을 가능성이 높으므로 - 로버스트 통계 기법 : 이상치의 영향을 줄이기 위한 방법
극단값에 덜 민감한 로버스트 통계 기법을 사용, 데이터의 중심 경향과 퍼짐을 분석 - 데이터 변환 : 로그 변환, Box-Cox 변환 등
데이터의 분포를 정규화하여 분석 - 이상치 탐지 : Z-score, IQR 방법 활용
높은 표준편차는 이상치의 존재를 암시할 수 있음, 이상치 탐지 기법을 적용하는 것이 중요 - 데이터 시각화 : 히스토그램, 상자 그림(Box Plot) 사용
데이터의 분포를 시각적으로 분석 - 군집 분석 : 데이터 내에서 다른 패턴을 식별
데이터가 여러 하위 그룹으로 나뉘어 있을 가능성이 있음, 군집 분석을 통해 이를 파악
범위와 사분위수
범위(Range)
데이터의 최대값과 최소값의 차이
- 계산이 간단하고 직관적
- 극단값에 매우 민감함
활용 예 : 기온 변동 범위, 제품 크기 분석
사분위수 (Quartiles)
데이터를 4등분하는 값
- Q1 (제1사분위수, 25%)
- Q2 (제2사분위수, 중앙값, 50%)
- Q3 (제3사분위수, 75%)
사분위수 범위(IQR)
IQR = Q3 - Q1
극단값의 영향을 덜 받음
활용 예 : 박스플롯을 이용한 데이터 시각화, 이상치 탐지
코드 예제(Python)
import numpy as np
data = [12, 15, 18, 22, 25, 28, 30]
print("분산:", np.var(data))
print("표준편차:", np.std(data))
print("범위:", np.ptp(data))
# 사분위수 계산
q1, q2, q3 = np.percentile(data, [25, 50, 75])
print("제1사분위수 (Q1):", q1)
print("제2사분위수 (중앙값):", q2)
print("제3사분위수 (Q3):", q3)
print("사분위수 범위 (IQR):", q3 - q1)
"""
분산: 38.816326530612244
표준편차: 6.230274996387578
범위: 18
제1사분위수 (Q1): 16.5
제2사분위수 (중앙값): 22.0
제3사분위수 (Q3): 26.5
사분위수 범위 (IQR): 10.0
"""
활용 분야와 사례
머신 러닝
이상치 탐지 : 표준편차를 이용한 Z-score 방법
데이터 정규화 : Min-Max Scaling, Standardization
딥러닝
가중치 초기화 : Xavier 초기화, He 초기화
데이터 전처리 : 정규화 및 이상치 제거
금융 및 경제
투자 리스크 평가 : 변동성이 높은 자산 식별
주식 시장 분석 : 가격 변동성 평가
실험 데이터 분석
실험 결과의 변동성 평가
품질 관리에서 제품의 일관성 확인
데이터의 산포도를 이해하는 것은 데이터 분석의 기본 요소 중 하나이며, 다양한 분야에서 활용됨
분산과 표준편차는 데이터 변동성을 평가하는 데 중요한 역할을 하며,
사분위수와 범위는 극단값의 영향을 최소화한 데이터 분포 분석을 가능하게 함
데이터의 산포도 이해를 통해 데이터의 신뢰성과 패턴을 효과적으로 파악할 수 있음
'인공지능을 위한 통계학 기초' 카테고리의 다른 글
데이터 중심 지표- 평균(산술평균, 기하평균), 중앙값, 최빈값 (0) | 2025.02.02 |
---|---|
데이터 종류의 이해 (0) | 2025.01.19 |
통계학과 데이터 분석 (1) | 2025.01.15 |