데이터 상관관계
두 변수 간의 관계의 강도와 방향을 나타냄
→ 연구 가설을 형성하는 데 도움을 줄 수 있음
상관관계 분석과 데이터 분산의 이해
분산의 영향 이해
데이터의 분산이 크면 상관관계의 강도에 영향을 줄 수 있음
예 : 공부 시간과 시험 점수 간의 관계 → 공부 시간의 분산이 크면 상관관계가 약해질 수 있음
시각화 활용
산점도를 통해 데이터의 분포와 분산을 시각적으로 확인하여 변수 간의 관계와 데이터의 퍼짐 정도를 파악할 수 있음
표준화 고려
변수들의 척도가 다를 경우, 데이터를 표준화하여 분산의 영향을 줄일 수 있음
표준화를 통해 변수 간 비교를 더 공정하게 할 수 있음
적절한 상관계수 선택
데이터의 특성에 따라 피어슨 상관계수와 스피어만 상관계수 중 적절한 것을 선택
비선형 관계나 정규성 가정이 충족되지 않는 경우 : 스피어만 상관계수가 더 적합할 수 있음
이상치 고려
분산에 큰 영향을 미칠 수 있는 이상치를 식별하고 적절히 처리하는 것이 중요
표본 크기 고려
표본 크기가 작으면 분산 추정이 불안정할 수 있으므로, 충분한 표본 크기를 확보해야 함
다른 통계량과 함께 해석
상관계수뿐만 아니라 평균, 중앙값 등 다양한 통계량과 함께 종합적으로 데이터를 해석해야 함
상관계수
피어슨 상관계수
두 연속형 변수 간의 선형 관계를 측정하는 대표적인 상관계수
- -1에서 1 사이의 값을 가짐
- 1에 가까울수록 강한 양의 상관관계
- -1에 가까울수록 강한 음의 상관관계
- 0에 가까울수록 선형 관계가 약함
장점
널리 사용되며 해석이 용이
단점
비선형 관계를 포착하지 못함
이상치에 민감
예
키와 몸무게의 관계
광고 지출과 매출의 관계
피어슨 상관계수가 선형 관계를 가정하는 이유
- 선형성 측정 : 두 변수 간의 직선적인 관계를 가장 잘 포착
피어슨 상관계수는 두 연속성 변수 간의 선형 관계의 강도와 방향을 정량화하기 위해 설계됨 - 해석의 용이성 : 선형 관계는 직관적으로 해석 가능
한 변수가 증가할 때 다른 변수가 일정한 비율로 증가하거나 감소하는 관계를 명확하게 표현 가능 - 수학적 편의성 : 다루기 쉽고 다양한 모델링에 활용 가능
- 표준화된 측정 : -1에서 1 사이의 값으로 상관계수의 강도를 표현 가능
스피어만 상관계수
순위를 기반으로 한 상관계수
비선형 관계에도 사용 가능
- -1에서 1 사이의 값을 가짐
- 데이터를 순위로 변환한 후 피어슨 상관계수를 계산
장점
비선형 관계도 포착 가능
이상치에 덜 민감
단점
정보의 일부 손실 가능성 (순위로 변환하므로)
예
교육 수준과 소득의 관계
고객 만족도와 재구매율의 관계
활용
변수 간 선형 관계 강도 측성
다중공선성 진단
특성 선택 및 차원 축소
상관관계 해석
상관계수의 크기와 부호를 해석하여 변수 간의 관계를 이해할 수 있음
상관계수 범위 | 관계 해석 |
0.7 ~ 1.0 | 강한 양의 상관관계 (한 변수가 증가하면 다른 변수도 강하게 증가) |
0.3 ~ 0.7 | 중간 정도의 양의 상관관계 (한 변수가 증가하면 다른 변수도 어느 정도 증가) |
0.0 ~ 0.3 | 약한 양의 상관관계 (한 변수가 증가하면 다른 변수도 약간 증가) |
-0.3 ~ 0.0 | 약한 음의 상관관계 (한 변수가 증가하면 다른 변수는 약간 감소) |
-0.7 ~ -0.3 | 중간 정도의 음의 상관관계 (한 변수가 증가하면 다른 변수는 어느 정도 감소) |
-1.0 ~ -0.7 | 강한 음의 상관관계 (한 변수가 증가하면 다른 변수는 강하게 감소) |
상관관계 ≠ 인과관계 : 상관관계가 있다고 해서 반드시 한 변수가 다른 변수의 원인은 아님
허위 상관관계 가능성 : 제3의 변수에 의해 발생하는 경우 고려 필요
비선형 관계 고려 : 피어슨 상관계수는 비선형 관계를 포착하지 못할 수 있으므로, 산점도를 활용한 시각적 확인이 중요
활용
인과관계 가설 수립
교란 변수 식별
상관관계 행렬 시각화
코드 예제
import numpy as np
import pandas as pd
df = pd.DataFrame({
'x': [1, 2, 3, 4, 5],
'y': [2, 4, 5, 4, 5]
})
correlation = df['x'].corr(df['y'])
print("상관 계수:", correlation)
"""
상관 계수: 0.7745966692414834
"""
머신러닝과 딥러닝에서의 활용
머신러닝
특성 선택 : 상관계수를 이용하여 다중공선성이 높은 변수를 제거하여 성능 향상
딥러닝
어텐션 매커니즘 : 쿼리와 키 사이의 상관관계를 계산하여 중요한 정보를 강조
상관관계 분석은 변수 간의 관계를 이해하는 기법
→ 올바른 해석과 적절한 방법을 적용해야 함
상관계수를 활용하여 데이터의 패턴을 파악하고, 연구 및 분석에 효과적으로 활용할 수 있음
'인공지능을 위한 통계학 기초' 카테고리의 다른 글
확률과 확률 분포 (0) | 2025.02.21 |
---|---|
데이터 산포도 (1) | 2025.02.10 |
데이터 중심 지표- 평균(산술평균, 기하평균), 중앙값, 최빈값 (0) | 2025.02.02 |
데이터 종류의 이해 (0) | 2025.01.19 |
통계학과 데이터 분석 (1) | 2025.01.15 |