인공지능을 위한 통계학 기초

데이터 상관관계

최 수빈 2025. 2. 16. 23:33

 

 

데이터 상관관계

 

두 변수 간의 관계의 강도와 방향을 나타냄

→ 연구 가설을 형성하는 데 도움을 줄 수 있음

 

상관관계 분석과 데이터 분산의 이해

분산의 영향 이해

데이터의 분산이 크면 상관관계의 강도에 영향을 줄 수 있음

예 : 공부 시간과 시험 점수 간의 관계 → 공부 시간의 분산이 크면 상관관계가 약해질 수 있음

 

시각화 활용

산점도를 통해 데이터의 분포와 분산을 시각적으로 확인하여 변수 간의 관계와 데이터의 퍼짐 정도를 파악할 수 있음

 

표준화 고려

변수들의 척도가 다를 경우, 데이터를 표준화하여 분산의 영향을 줄일 수 있음

표준화를 통해 변수 간 비교를 더 공정하게 할 수 있음

 

적절한 상관계수 선택

데이터의 특성에 따라 피어슨 상관계수와 스피어만 상관계수 중 적절한 것을 선택

비선형 관계나 정규성 가정이 충족되지 않는 경우 : 스피어만 상관계수가 더 적합할 수 있음

 

이상치 고려

분산에 큰 영향을 미칠 수 있는 이상치를 식별하고 적절히 처리하는 것이 중요

 

표본 크기 고려

표본 크기가 작으면 분산 추정이 불안정할 수 있으므로, 충분한 표본 크기를 확보해야 함

 

다른 통계량과 함께 해석

상관계수뿐만 아니라 평균, 중앙값 등 다양한 통계량과 함께 종합적으로 데이터를 해석해야 함

 

 

 

상관계수

 

피어슨 상관계수

두 연속형 변수 간의 선형 관계를 측정하는 대표적인 상관계수

 

$$ r = \frac{\sum{(x - \mu_x)(y - \mu_y)}}{\sigma_x \cdot \sigma_y} $$
$$ \sigma^2 = \bar{x^2} - \bar{x}^2 $$
  • -1에서 1 사이의 값을 가짐
  • 1에 가까울수록 강한 양의 상관관계
  • -1에 가까울수록 강한 음의 상관관계
  • 0에 가까울수록 선형 관계가 약함

장점

널리 사용되며 해석이 용이

 

단점

비선형 관계를 포착하지 못함

이상치에 민감

 

키와 몸무게의 관계

광고 지출과 매출의 관계

 

 

피어슨 상관계수가 선형 관계를 가정하는 이유

  • 선형성 측정 : 두 변수 간의 직선적인 관계를 가장 잘 포착
    피어슨 상관계수는 두 연속성 변수 간의 선형 관계의 강도와 방향을 정량화하기 위해 설계됨
  • 해석의 용이성 : 선형 관계는 직관적으로 해석 가능
    한 변수가 증가할 때 다른 변수가 일정한 비율로 증가하거나 감소하는 관계를 명확하게 표현 가능
  • 수학적 편의성 : 다루기 쉽고 다양한 모델링에 활용 가능
  • 표준화된 측정 : -1에서 1 사이의 값으로 상관계수의 강도를 표현 가능

 

스피어만 상관계수

 

순위를 기반으로 한 상관계수

비선형 관계에도 사용 가능

  • -1에서 1 사이의 값을 가짐
  • 데이터를 순위로 변환한 후 피어슨 상관계수를 계산

 

장점

비선형 관계도 포착 가능

이상치에 덜 민감

 

단점

정보의 일부 손실 가능성 (순위로 변환하므로)

 

교육 수준과 소득의 관계

고객 만족도와 재구매율의 관계

 

활용

변수 간 선형 관계 강도 측성

다중공선성 진단

특성 선택 및 차원 축소

 

 

상관관계 해석

상관계수의 크기와 부호를 해석하여 변수 간의 관계를 이해할 수 있음

상관계수 범위 관계 해석
0.7 ~ 1.0 강한 양의 상관관계 (한 변수가 증가하면 다른 변수도 강하게 증가)
0.3 ~ 0.7 중간 정도의 양의 상관관계 (한 변수가 증가하면 다른 변수도 어느 정도 증가)
0.0 ~ 0.3 약한 양의 상관관계 (한 변수가 증가하면 다른 변수도 약간 증가)
-0.3 ~ 0.0 약한 음의 상관관계 (한 변수가 증가하면 다른 변수는 약간 감소)
-0.7 ~ -0.3 중간 정도의 음의 상관관계 (한 변수가 증가하면 다른 변수는 어느 정도 감소)
-1.0 ~ -0.7 강한 음의 상관관계 (한 변수가 증가하면 다른 변수는 강하게 감소)

상관관계 ≠ 인과관계 : 상관관계가 있다고 해서 반드시 한 변수가 다른 변수의 원인은 아님
허위 상관관계 가능성 : 제3의 변수에 의해 발생하는 경우 고려 필요
비선형 관계 고려 : 피어슨 상관계수는 비선형 관계를 포착하지 못할 수 있으므로, 산점도를 활용한 시각적 확인이 중요

활용
인과관계 가설 수립
교란 변수 식별
상관관계 행렬 시각화

 

코드 예제

import numpy as np
import pandas as pd

df = pd.DataFrame({
    'x': [1, 2, 3, 4, 5],
    'y': [2, 4, 5, 4, 5]
})

correlation = df['x'].corr(df['y'])
print("상관 계수:", correlation)

"""
상관 계수: 0.7745966692414834
"""




머신러닝과 딥러닝에서의 활용

 

머신러닝

 

특성 선택 : 상관계수를 이용하여 다중공선성이 높은 변수를 제거하여 성능 향상

 

 

딥러닝

 

어텐션 매커니즘 : 쿼리와 키 사이의 상관관계를 계산하여 중요한 정보를 강조



상관관계 분석은 변수 간의 관계를 이해하는 기법

→ 올바른 해석과 적절한 방법을 적용해야 함

 

상관계수를 활용하여 데이터의 패턴을 파악하고, 연구 및 분석에 효과적으로 활용할 수 있음