인공지능을 위한 통계학 기초 8

베이지안 통계

베이즈 정리와 사전/사후 확률 베이즈 정리는 기존의 사전 확률을 새로운 증거를 바탕으로 갱신하여 사후 확률을 계산하는 방법을 제공→ 통계적 추론, 머신러닝, 의학적 진단 등 다양한 분야에서 활용 베이즈 정리P(A|B) = P(B|A) * P(A) / {P(B) 사전 확률 (Prior Probability, (P(A))): 새로운 정보를 얻기 전 특정 사건 (A) 가 발생할 확률우도 (Likelihood, (P(B|A))): 사건 (A) 가 발생했을 때 증거 (B) 가 나타날 확률사후 확률 (Posterior Probability, (P(A|B))): 증거 (B) 가 주어졌을 때 사건 (A) 가 발생할 확률증거 (Evidence, (P(B))): 증거 (B) 가 발생할 전체 확률 활용 사례조건부 확률 계산..

통계적 추론과 가설 검증

통계적 추론과 가설 검증 머신러닝 및 딥러닝 모델 평가에서 정확한 데이터 분석과 실험 결과 해석을 가능하게 하는 필수적인 도구 표본 분포와 중심극한정리 표본 분포(sample distribution) 표본 통계량(예: 표본 평균)의 분포중심극한정리(Central Limit Theorem, CLT)에 따르면 표본 크기가 충분히 크면 표본 평균의 분포는 정규분포에 근사하게 됨  표본 평균의 분포 N(μ, σ²/n) μ : 모평균 (population mean)σ² : 모분산 (population variance)n : 표본 크기 (sample size) 표준 오차(Standard Error, SE) 표본 통계량의 표준편차→ 추정의 정확도를 나타냄  적용신뢰구간 추청가설 검정부트스트랩 방법 적용분석표본 크기 ..

확률과 확률 분포

확률 특정 사건이 발생할 가능성0에서 1 사이의 값을 가짐  확률 값의 의미0: 불가능한 사건1: 반드시 발생하는 사건 확률의 기본 법칙 덧셈 법칙P(A or B) = P(A) + P(B) - P(A and B) 곱셈 법칙P(A and B) = P(A) * P(B|A)  확률의 활용사건 발생 가능성 계산리스크 분석 및 의사결정 트리 구성  확률 분포 데이터가 특정 확률에 따라 분포하는 형태를 의미 이항분포(Binomial Distribution) 성공/실패와 같은 두 가지 결과를 가지는 실험을 n번 독립적으로 수행하는 확률 분포 각 시행에서 성공 확률 p가 일정함성공 횟수를 X라 할 때, X는 이항분포를 따름: X ~B(n, p)평균: np, 분산: np(1-p)예동전 던지기제품의 불량 개수 예측 정규분..

데이터 상관관계

데이터 상관관계 두 변수 간의 관계의 강도와 방향을 나타냄→ 연구 가설을 형성하는 데 도움을 줄 수 있음 상관관계 분석과 데이터 분산의 이해분산의 영향 이해데이터의 분산이 크면 상관관계의 강도에 영향을 줄 수 있음예 : 공부 시간과 시험 점수 간의 관계 → 공부 시간의 분산이 크면 상관관계가 약해질 수 있음 시각화 활용산점도를 통해 데이터의 분포와 분산을 시각적으로 확인하여 변수 간의 관계와 데이터의 퍼짐 정도를 파악할 수 있음 표준화 고려변수들의 척도가 다를 경우, 데이터를 표준화하여 분산의 영향을 줄일 수 있음표준화를 통해 변수 간 비교를 더 공정하게 할 수 있음 적절한 상관계수 선택데이터의 특성에 따라 피어슨 상관계수와 스피어만 상관계수 중 적절한 것을 선택비선형 관계나 정규성 가정이 충족되지 않는..

데이터 산포도

데이터 산포도 데이터가 중심 경향치로부터 얼마나 퍼져 있는지를 나타내는 지표데이터의 분포와 변동성을 파악하는데 중요한 역학을 함  분산과 표준편차 분산(Variance)데이터가 평균으로부터 얼마나 퍼져있는지를 나타내는 지표    σ² = Σ(x - x̄)² / N 또는   $$ \sigma^2 = \bar{x^2} - \bar{x}^2 $$">$$ \sigma^2 = \bar{x^2} - \bar{x}^2 $$각 데이터 포인트와 평균의 차이를 제곱한 값들의 평균 장점 : 모든 데이터 포인트를 고려하여 변동성을 정확히 측정 가능단점 : 원래 데이터 단위와 다른 단위(제곱된 단위)를 가지므로 해석이 어려울 수 있음활용 예 : 금융 리스크 분석, 품질 관리, 데이터 변동성 평가   분산식에서 제곱이 갖는 의..

데이터 중심 지표- 평균(산술평균, 기하평균), 중앙값, 최빈값

데이터 중심 지표는 데이터셋의 전반적인 특성을 요약하고, 데이터의 패턴을 이해하는 데 사용됨 평균(Mean) 데이터의 중심 경향을 나타내는 대표적 지표일반적으로 데이터의 대표값으로 사용됨 산술평균(Arithmetic Mean) 모든 값을 더한 후 값의 개수로 나눈 값가장 일반적인 평균의 개념 x̄ = (x₁ + x₂ + ... + xₙ) / n 계산이 간단하고 직관적데이터 전체를 고려하여 대표값을 제시극단값(이상치, outlier)에 민감사용 예 : 학생들의 평균 점수, 평균소득, 평균 온도 등  기하평균(Geomertic Mean) 모든 값을 곱한 후 값의 개수만큼 제곱근을 취한 값주로 비율이나 변화율이 포함된 데이터에서 사용 G = ⁿ√(x₁ ∙ x₂ ∙ ... ∙ xₙ) 극단값의 영향을 줄일 수 있..

데이터 종류의 이해

데이터의 종류 데이터의 종류는 분석 및 해석의 기본이 되는 요소로, 데이터의 특성에 따라 적용할 수 있는 기법과 해석 방법이 달라짐   • 정성적 데이터 (질적 데이터) 수치가 아닌 범주형 데이터로, 주로 특성이나 속성을 나타냄 명목형 데이터 (Nominal Scale)순서와 크기가 없는 범주로 구분된 데이터 - 명목 척도, 단순 분류 성별: 남/여혈액형: A, B, AB, O직업군: 교사, 의사, 엔지니어 주요 분석 기법• 최빈값 (Mode): 가장 자주 등장하는 범주 확인 • 빈도 분석: 범주별 데이터 빈도 계산 • 카이제곱 검정: 범주형 변수 간의 관계 분석 서열형 데이터 (Ordinal Scale)순서가 있지만, 간격의 크기가 일정하지 않은 데이터 - 서열 척도 만족도 조사: 매우 만족, 만족, ..

통계학과 데이터 분석

인공지능과 통계학의 관계 인공지능(AI)과 통계학은 밀접하게 연결되어 있으며, AI의 발전은 통계학적 개념과 방법론을 기반으로 이루어진 경우가 많음   통계학 : AI의 이론적 기반 AI 시스템이 데이터를 처리하고 불확실성을 다루는 데 필요한 이론적 토대를 제공예 : 확률론은 데이터의 불확실성을 모델링하거나 결과를 예측하는 데 필수적→ 통계학에서 유래된 머신러닝 알고리즘→ 많은 머신러닝 알고리즘이 통계적 모델에서 발전선형 회귀 : 데이터를 직선으로 표현하여 관계를 설명로지스틱 회귀 : 이진 분류 문제에서 데이터의 확률적 분포를 모델링나이브 베이즈 분류기 : 조건부 확률에 기반한 분류 모델 *AI에서 선형대수와 통계학의 역할 비교 선형대수통계학데이터 표현벡터와 행렬로 데이터를 표현하고 계산데이터를 통계적 ..

728x90