데이터 상관관계

인공지능을 위한 통계학 기초

데이터 상관관계

최 수빈 2025. 2. 16. 23:33

데이터 상관관계

두 변수 간의 관계의 강도와 방향을 나타냄

→ 연구 가설을 형성하는 데 도움을 줄 수 있음

상관관계 분석과 데이터 분산의 이해

분산의 영향 이해

데이터의 분산이 크면 상관관계의 강도에 영향을 줄 수 있음

예 : 공부 시간과 시험 점수 간의 관계 → 공부 시간의 분산이 크면 상관관계가 약해질 수 있음

시각화 활용

산점도를 통해 데이터의 분포와 분산을 시각적으로 확인하여 변수 간의 관계와 데이터의 퍼짐 정도를 파악할 수 있음

표준화 고려

변수들의 척도가 다를 경우, 데이터를 표준화하여 분산의 영향을 줄일 수 있음

표준화를 통해 변수 간 비교를 더 공정하게 할 수 있음

적절한 상관계수 선택

데이터의 특성에 따라 피어슨 상관계수와 스피어만 상관계수 중 적절한 것을 선택

비선형 관계나 정규성 가정이 충족되지 않는 경우 : 스피어만 상관계수가 더 적합할 수 있음

이상치 고려

분산에 큰 영향을 미칠 수 있는 이상치를 식별하고 적절히 처리하는 것이 중요

표본 크기 고려

표본 크기가 작으면 분산 추정이 불안정할 수 있으므로, 충분한 표본 크기를 확보해야 함

다른 통계량과 함께 해석

상관계수뿐만 아니라 평균, 중앙값 등 다양한 통계량과 함께 종합적으로 데이터를 해석해야 함

상관계수

피어슨 상관계수

두 연속형 변수 간의 선형 관계를 측정하는 대표적인 상관계수

$$ r = \frac{\sum{(x - \mu_x)(y - \mu_y)}}{\sigma_x \cdot \sigma_y} $$

$$ \sigma^2 = \bar{x^2} - \bar{x}^2 $$

-1에서 1 사이의 값을 가짐
1에 가까울수록 강한 양의 상관관계
-1에 가까울수록 강한 음의 상관관계
0에 가까울수록 선형 관계가 약함

장점

널리 사용되며 해석이 용이

단점

비선형 관계를 포착하지 못함

이상치에 민감

예

키와 몸무게의 관계

광고 지출과 매출의 관계

피어슨 상관계수가 선형 관계를 가정하는 이유

선형성 측정 : 두 변수 간의 직선적인 관계를 가장 잘 포착
피어슨 상관계수는 두 연속성 변수 간의 선형 관계의 강도와 방향을 정량화하기 위해 설계됨
해석의 용이성 : 선형 관계는 직관적으로 해석 가능
한 변수가 증가할 때 다른 변수가 일정한 비율로 증가하거나 감소하는 관계를 명확하게 표현 가능
수학적 편의성 : 다루기 쉽고 다양한 모델링에 활용 가능
표준화된 측정 : -1에서 1 사이의 값으로 상관계수의 강도를 표현 가능

스피어만 상관계수

순위를 기반으로 한 상관계수

비선형 관계에도 사용 가능

-1에서 1 사이의 값을 가짐
데이터를 순위로 변환한 후 피어슨 상관계수를 계산

장점

비선형 관계도 포착 가능

이상치에 덜 민감

단점

정보의 일부 손실 가능성 (순위로 변환하므로)

예

교육 수준과 소득의 관계

고객 만족도와 재구매율의 관계

활용

변수 간 선형 관계 강도 측성

다중공선성 진단

특성 선택 및 차원 축소

상관관계 해석

상관계수의 크기와 부호를 해석하여 변수 간의 관계를 이해할 수 있음

상관계수 범위	관계 해석
0.7 ~ 1.0	강한 양의 상관관계 (한 변수가 증가하면 다른 변수도 강하게 증가)
0.3 ~ 0.7	중간 정도의 양의 상관관계 (한 변수가 증가하면 다른 변수도 어느 정도 증가)
0.0 ~ 0.3	약한 양의 상관관계 (한 변수가 증가하면 다른 변수도 약간 증가)
-0.3 ~ 0.0	약한 음의 상관관계 (한 변수가 증가하면 다른 변수는 약간 감소)
-0.7 ~ -0.3	중간 정도의 음의 상관관계 (한 변수가 증가하면 다른 변수는 어느 정도 감소)
-1.0 ~ -0.7	강한 음의 상관관계 (한 변수가 증가하면 다른 변수는 강하게 감소)

상관관계 ≠ 인과관계 : 상관관계가 있다고 해서 반드시 한 변수가 다른 변수의 원인은 아님
허위 상관관계 가능성 : 제3의 변수에 의해 발생하는 경우 고려 필요
비선형 관계 고려 : 피어슨 상관계수는 비선형 관계를 포착하지 못할 수 있으므로, 산점도를 활용한 시각적 확인이 중요

활용
인과관계 가설 수립
교란 변수 식별
상관관계 행렬 시각화

코드 예제

import numpy as np
import pandas as pd

df = pd.DataFrame({
    'x': [1, 2, 3, 4, 5],
    'y': [2, 4, 5, 4, 5]
})

correlation = df['x'].corr(df['y'])
print("상관 계수:", correlation)

"""
상관 계수: 0.7745966692414834
"""

머신러닝과 딥러닝에서의 활용

머신러닝

특성 선택 : 상관계수를 이용하여 다중공선성이 높은 변수를 제거하여 성능 향상

딥러닝

어텐션 매커니즘 : 쿼리와 키 사이의 상관관계를 계산하여 중요한 정보를 강조

상관관계 분석은 변수 간의 관계를 이해하는 기법

→ 올바른 해석과 적절한 방법을 적용해야 함

상관계수를 활용하여 데이터의 패턴을 파악하고, 연구 및 분석에 효과적으로 활용할 수 있음

저작자표시 비영리 변경금지 (새창열림)

'인공지능을 위한 통계학 기초' 카테고리의 다른 글

통계적 추론과 가설 검증 (0)	2025.02.22
확률과 확률 분포 (0)	2025.02.21
데이터 산포도 (1)	2025.02.10
데이터 중심 지표- 평균(산술평균, 기하평균), 중앙값, 최빈값 (0)	2025.02.02
데이터 종류의 이해 (0)	2025.01.19

현재글데이터 상관관계

if(life){code();}

life: Compiling… Please Wait

250x250

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

if(life){code();}

데이터 상관관계

데이터 상관관계

상관관계 분석과 데이터 분산의 이해

상관계수

피어슨 상관계수

스피어만 상관계수

머신러닝과 딥러닝에서의 활용

'인공지능을 위한 통계학 기초' 카테고리의 다른 글

'인공지능을 위한 통계학 기초'의 다른글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

데이터 상관관계

데이터 상관관계

상관관계 분석과 데이터 분산의 이해

상관계수

피어슨 상관계수

스피어만 상관계수

머신러닝과 딥러닝에서의 활용

'인공지능을 위한 통계학 기초' 카테고리의 다른 글

'인공지능을 위한 통계학 기초'의 다른글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역