인공지능을 위한 통계학 기초

데이터 종류의 이해

최 수빈 2025. 1. 19. 15:30

 

데이터의 종류

 

데이터의 종류는 분석 및 해석의 기본이 되는 요소로, 데이터의 특성에 따라 적용할 수 있는 기법과 해석 방법이 달라짐

 

 

 

• 정성적 데이터 (질적 데이터)

 

수치가 아닌 범주형 데이터로, 주로 특성이나 속성을 나타냄

 

명목형 데이터 (Nominal Scale)

순서와 크기가 없는 범주로 구분된 데이터 - 명목 척도, 단순 분류

 

성별: 남/여

혈액형: A, B, AB, O

직업군: 교사, 의사, 엔지니어

 

주요 분석 기법

최빈값 (Mode): 가장 자주 등장하는 범주 확인

빈도 분석: 범주별 데이터 빈도 계산

카이제곱 검정: 범주형 변수 간의 관계 분석

 

서열형 데이터 (Ordinal Scale)

순서가 있지만, 간격의 크기가 일정하지 않은 데이터 - 서열 척도

 

만족도 조사: 매우 만족, 만족, 보통, 불만족, 매우 불만족

학점: A, B, C, D

순위: 1위, 2위, 3위

 

주요 분석 기법

중앙값 (Median): 데이터의 중앙값 확인

사분위수 분석: 데이터의 분포 및 변동성 파악

스피어만 상관 분석: 두 서열형 데이터 간 관계 강도 측정

 

 

 

정량적 데이터 (양적 데이터)

 

수치로 표현되며 측정이나 계산을 통해 얻어지는 데이터

 

이산형 데이터 (Discrete Data)

셀 수 있는 값으로 구성된 데이터

 

자녀 수: 1명, 2명, 3명

사고 횟수: 0회, 1회, 2회

 

주요 분석 기법

빈도 분석: 각 값의 출현 빈도 확인

카이제곱 검정: 범주형 데이터와의 관계 분석

포아송 회귀분석: 특정 시간 동안 발생한 사건 수 예측

 

 

연속형 데이터 (Continuous Data)

연속적인 값을 가지며 측정 단위가 일정함

 

 

등간 척도 (Interval Scale)

간격이 일정하지만 절대적 0점이 없음 (예: 섭씨 온도)

 

비율 척도 (Ratio Scale)

간격이 일정하고 절대적 0점이 존재 (예: 키, 몸무게, 소득)

 

 

주요 분석 기법

선형 회귀분석: 연속형 변수 간의 관계 모델링

t-검정: 두 그룹 간 평균 차이 비교

상관 분석: 두 연속형 변수 간의 관계 강도 측정 (예: Pearson 상관계수)

 

 

 

 

데이터 분석 및 적용

 

1. 데이터프레임 생성 및 데이터 유형 확인

import pandas as pd

# 데이터 생성
df = pd.DataFrame({
    '이름': ['김철수', '이영희', '박민수'],
    '나이': [25, 30, 28],  # 연속형 데이터 (비율 척도)
    '성별': ['남', '여', '남'],  # 명목형 데이터
    '점수': [85.5, 92.0, 78.5]  # 연속형 데이터 (비율 척도)
})

# 데이터 유형 확인
print(df.dtypes)

"""
이름     object
나이      int64
성별     object
점수    float64
dtype: object
"""

 

 

2. 데이터 유형에 따른 머신러닝 활용

 

명목형 데이터

분류 알고리즘 적용 (예: 결정 트리, 로지스틱 회귀)

타겟 변수를 원-핫 인코딩 처리

 

연속형 데이터

회귀 알고리즘 (예: 선형 회귀, 랜덤 포레스트 회귀)

정규화 또는 표준화 전처리

 

 

3. 딥러닝에서의 데이터 유형 처리

 

이미지 분류: 픽셀 값을 연속형 데이터로 처리

텍스트 분류: 텍스트를 명목형 데이터로 변환 후 임베딩 처리

 

 

 

추가 고려사항

데이터 전처리: 분석 전에 결측값 처리 및 이상치 제거 필요

데이터 시각화: 각 데이터 유형에 맞는 적절한 시각화 방법 사용

  • 명목형 데이터: 막대그래프, 파이차트
  • 연속형 데이터: 히스토그램, 박스플롯

상관 분석 유의점: 서열형 데이터에는 스피어만 상관 분석, 연속형 데이터에는 피어슨 상관 분석을 사용