데이터의 종류
데이터의 종류는 분석 및 해석의 기본이 되는 요소로, 데이터의 특성에 따라 적용할 수 있는 기법과 해석 방법이 달라짐
• 정성적 데이터 (질적 데이터)
수치가 아닌 범주형 데이터로, 주로 특성이나 속성을 나타냄
명목형 데이터 (Nominal Scale)
순서와 크기가 없는 범주로 구분된 데이터 - 명목 척도, 단순 분류
성별: 남/여
혈액형: A, B, AB, O
직업군: 교사, 의사, 엔지니어
주요 분석 기법
• 최빈값 (Mode): 가장 자주 등장하는 범주 확인
• 빈도 분석: 범주별 데이터 빈도 계산
• 카이제곱 검정: 범주형 변수 간의 관계 분석
서열형 데이터 (Ordinal Scale)
순서가 있지만, 간격의 크기가 일정하지 않은 데이터 - 서열 척도
만족도 조사: 매우 만족, 만족, 보통, 불만족, 매우 불만족
학점: A, B, C, D
순위: 1위, 2위, 3위
주요 분석 기법
• 중앙값 (Median): 데이터의 중앙값 확인
• 사분위수 분석: 데이터의 분포 및 변동성 파악
• 스피어만 상관 분석: 두 서열형 데이터 간 관계 강도 측정
• 정량적 데이터 (양적 데이터)
수치로 표현되며 측정이나 계산을 통해 얻어지는 데이터
이산형 데이터 (Discrete Data)
셀 수 있는 값으로 구성된 데이터
자녀 수: 1명, 2명, 3명
사고 횟수: 0회, 1회, 2회
주요 분석 기법
• 빈도 분석: 각 값의 출현 빈도 확인
• 카이제곱 검정: 범주형 데이터와의 관계 분석
• 포아송 회귀분석: 특정 시간 동안 발생한 사건 수 예측
연속형 데이터 (Continuous Data)
연속적인 값을 가지며 측정 단위가 일정함
등간 척도 (Interval Scale)
간격이 일정하지만 절대적 0점이 없음 (예: 섭씨 온도)
비율 척도 (Ratio Scale)
간격이 일정하고 절대적 0점이 존재 (예: 키, 몸무게, 소득)
주요 분석 기법
• 선형 회귀분석: 연속형 변수 간의 관계 모델링
• t-검정: 두 그룹 간 평균 차이 비교
• 상관 분석: 두 연속형 변수 간의 관계 강도 측정 (예: Pearson 상관계수)
데이터 분석 및 적용
1. 데이터프레임 생성 및 데이터 유형 확인
import pandas as pd
# 데이터 생성
df = pd.DataFrame({
'이름': ['김철수', '이영희', '박민수'],
'나이': [25, 30, 28], # 연속형 데이터 (비율 척도)
'성별': ['남', '여', '남'], # 명목형 데이터
'점수': [85.5, 92.0, 78.5] # 연속형 데이터 (비율 척도)
})
# 데이터 유형 확인
print(df.dtypes)
"""
이름 object
나이 int64
성별 object
점수 float64
dtype: object
"""
2. 데이터 유형에 따른 머신러닝 활용
명목형 데이터
• 분류 알고리즘 적용 (예: 결정 트리, 로지스틱 회귀)
• 타겟 변수를 원-핫 인코딩 처리
연속형 데이터
• 회귀 알고리즘 (예: 선형 회귀, 랜덤 포레스트 회귀)
• 정규화 또는 표준화 전처리
3. 딥러닝에서의 데이터 유형 처리
• 이미지 분류: 픽셀 값을 연속형 데이터로 처리
• 텍스트 분류: 텍스트를 명목형 데이터로 변환 후 임베딩 처리
추가 고려사항
데이터 전처리: 분석 전에 결측값 처리 및 이상치 제거 필요
데이터 시각화: 각 데이터 유형에 맞는 적절한 시각화 방법 사용
- 명목형 데이터: 막대그래프, 파이차트
- 연속형 데이터: 히스토그램, 박스플롯
상관 분석 유의점: 서열형 데이터에는 스피어만 상관 분석, 연속형 데이터에는 피어슨 상관 분석을 사용
'인공지능을 위한 통계학 기초' 카테고리의 다른 글
데이터 중심 지표- 평균(산술평균, 기하평균), 중앙값, 최빈값 (0) | 2025.02.02 |
---|---|
통계학과 데이터 분석 (1) | 2025.01.15 |