데이터분석 5

데이터 중심 지표- 평균(산술평균, 기하평균), 중앙값, 최빈값

데이터 중심 지표는 데이터셋의 전반적인 특성을 요약하고, 데이터의 패턴을 이해하는 데 사용됨 평균(Mean) 데이터의 중심 경향을 나타내는 대표적 지표일반적으로 데이터의 대표값으로 사용됨 산술평균(Arithmetic Mean) 모든 값을 더한 후 값의 개수로 나눈 값가장 일반적인 평균의 개념 x̄ = (x₁ + x₂ + ... + xₙ) / n 계산이 간단하고 직관적데이터 전체를 고려하여 대표값을 제시극단값(이상치, outlier)에 민감사용 예 : 학생들의 평균 점수, 평균소득, 평균 온도 등  기하평균(Geomertic Mean) 모든 값을 곱한 후 값의 개수만큼 제곱근을 취한 값주로 비율이나 변화율이 포함된 데이터에서 사용 G = ⁿ√(x₁ ∙ x₂ ∙ ... ∙ xₙ) 극단값의 영향을 줄일 수 있..

데이터 종류의 이해

데이터의 종류 데이터의 종류는 분석 및 해석의 기본이 되는 요소로, 데이터의 특성에 따라 적용할 수 있는 기법과 해석 방법이 달라짐   • 정성적 데이터 (질적 데이터) 수치가 아닌 범주형 데이터로, 주로 특성이나 속성을 나타냄 명목형 데이터 (Nominal Scale)순서와 크기가 없는 범주로 구분된 데이터 - 명목 척도, 단순 분류 성별: 남/여혈액형: A, B, AB, O직업군: 교사, 의사, 엔지니어 주요 분석 기법• 최빈값 (Mode): 가장 자주 등장하는 범주 확인 • 빈도 분석: 범주별 데이터 빈도 계산 • 카이제곱 검정: 범주형 변수 간의 관계 분석 서열형 데이터 (Ordinal Scale)순서가 있지만, 간격의 크기가 일정하지 않은 데이터 - 서열 척도 만족도 조사: 매우 만족, 만족, ..

통계학과 데이터 분석

인공지능과 통계학의 관계 인공지능(AI)과 통계학은 밀접하게 연결되어 있으며, AI의 발전은 통계학적 개념과 방법론을 기반으로 이루어진 경우가 많음   통계학 : AI의 이론적 기반 AI 시스템이 데이터를 처리하고 불확실성을 다루는 데 필요한 이론적 토대를 제공예 : 확률론은 데이터의 불확실성을 모델링하거나 결과를 예측하는 데 필수적→ 통계학에서 유래된 머신러닝 알고리즘→ 많은 머신러닝 알고리즘이 통계적 모델에서 발전선형 회귀 : 데이터를 직선으로 표현하여 관계를 설명로지스틱 회귀 : 이진 분류 문제에서 데이터의 확률적 분포를 모델링나이브 베이즈 분류기 : 조건부 확률에 기반한 분류 모델 *AI에서 선형대수와 통계학의 역할 비교 선형대수통계학데이터 표현벡터와 행렬로 데이터를 표현하고 계산데이터를 통계적 ..

암호화폐 데이터의 특성

캔들차트     특정 기간 동안의 시가, 종가, 저가, 고가 정보를 담아 가격 변화와 추세를 확인하는 데 사용되는 차트이를 기반으로 투자자는 미래의 가격 변동을 예측, 매수 또는 매도 시점을 결정 캔들  모양이 양초를 닮아 ‘캔들’이라 부르며, ‘봉’이라고도 함특정 기간 동안의 시가(Open), 종가(Close), 저가(Low), 고가(High) 정보를 포함  캔들의 주기  흔히 1분, 5분, 30분, 60분, 240분, 1일, 7일, 한 달, 1년 등의 주기를 가짐 • 예를 들어, 1일 주기를 선택하면 하루 동안의 비트코인 거래 데이터를 묶어 시가, 종가, 저가, 고가 정보를 제공 * 시가, 종가, 저가, 고가의 의미 • 시가(Open): 캔들 기간 내 처음 이루어진 거래 가격 • 종가(Close): ..

Z.PROJ 2025.01.08

Python - Pandas

Pandas; Python에서 데이터를 쉽게 다룰 수 있게 해주는 데이터 분석 라이브러리   데이터를 표(테이블) 형식으로 생성, 가공, 다양한 데이터 조작(필터링, 그룹화, 병합 등) 기능 제공데이터를 정리하고 분석하는 데 강력한 도구데이터 불러오기 및 저장 - CSV, EXCEL, SQL 등 다양한 형식의 데이터를 불러오고 저장    데이터프레임(DataFrame)판다스의 핵심 자료 구조, 엑셀의 스프레드시트처럼 행(row)과 열(column)로 구성된 2차원 데이터 구조 시리즈(Series)단일 열을 나타내는 1차원 데이터 구조, 데이터프레임의 구성 요소 중 하나. => 판다스를 이용하면 데이터의 필터링, 정렬, 집계 등 다양한 작업을 간단한 코드로 수행가능      Pandas 활용 분야 데이터 ..

Python to AI 2024.11.25
728x90