iQR 2

데이터 산포도

데이터 산포도 데이터가 중심 경향치로부터 얼마나 퍼져 있는지를 나타내는 지표데이터의 분포와 변동성을 파악하는데 중요한 역학을 함  분산과 표준편차 분산(Variance)데이터가 평균으로부터 얼마나 퍼져있는지를 나타내는 지표    σ² = Σ(x - x̄)² / N 또는   $$ \sigma^2 = \bar{x^2} - \bar{x}^2 $$">$$ \sigma^2 = \bar{x^2} - \bar{x}^2 $$각 데이터 포인트와 평균의 차이를 제곱한 값들의 평균 장점 : 모든 데이터 포인트를 고려하여 변동성을 정확히 측정 가능단점 : 원래 데이터 단위와 다른 단위(제곱된 단위)를 가지므로 해석이 어려울 수 있음활용 예 : 금융 리스크 분석, 품질 관리, 데이터 변동성 평가   분산식에서 제곱이 갖는 의..

Python - Pandas(데이터 전처리 : 이상치 탐지 및 처리)

이상치(Outlier) 데이터의 일반적인 패턴에서 벗어난 값을 의미=> 데이터 분석에 부정적인 영향을 미칠 수 있기 때문에, 탐지하고 적절히 처리하는 것이 중요  이상치 탐지 방법기술 통계 기반 이상치 탐지  describe()함수 사용, 데이터의 기본 통계량 확인, 이상치 의심import pandas as pd#에시 데이터프레임 생성data = { '이름' : ['철수','영희','민수','지수','상수'], '나이' : [25,30,22,35,120] #120은 이상치로 의심됨 '점수' : [90,85,95,80,88] }df = pd.DataFrame(data)#기술 통계량 확인df['나이'].describe()평균(mean)과 표준편차(std)가 큰 차이를 보이는 경우, 또는..

Python to AI 2024.12.10
728x90