인공지능을 위한 통계학 기초

통계학과 데이터 분석

최 수빈 2025. 1. 15. 22:51

 

 

인공지능과 통계학의 관계

 

인공지능(AI)과 통계학은 밀접하게 연결되어 있으며, AI의 발전은 통계학적 개념과 방법론을 기반으로 이루어진 경우가 많음

 

 

 

통계학 : AI의 이론적 기반

 

AI 시스템이 데이터를 처리하고 불확실성을 다루는 데 필요한 이론적 토대를 제공


예 : 확률론은 데이터의 불확실성을 모델링하거나 결과를 예측하는 데 필수적

→ 통계학에서 유래된 머신러닝 알고리즘

→ 많은 머신러닝 알고리즘이 통계적 모델에서 발전

  • 선형 회귀 : 데이터를 직선으로 표현하여 관계를 설명
  • 로지스틱 회귀 : 이진 분류 문제에서 데이터의 확률적 분포를 모델링
  • 나이브 베이즈 분류기 : 조건부 확률에 기반한 분류 모델

 

*AI에서 선형대수와 통계학의 역할 비교

  선형대수 통계학
데이터 표현 벡터와 행렬로 데이터를 표현하고 계산 데이터를 통계적 분포로 모델링
계산 효율성 행렬 연산을 통해 다차원 데이터를 효율적으로 처리 계산 결과를 해석하고 확률 기반으로 예측
모델 학습 경사 하강법 등 최적화 알고리즘의 수학적 기반 제공 데이터의 불확실성을 모델링하고 과적합 방지
활용 예 PCA, 신경망 가중치 계산, 차원 축소 선형 회귀, 로지스틱 회귀, 베이즈 추론

 선형 회귀나 로지스틱 회귀 등은 통계학적 개념에 기반, 선형대수적 계산을 활용해서 구현되고 해석되는 통계학+선형대수 결합 모델

 

 

 

AI 개발 과정에서의 통계적 기법 활용

 

데이터 전처리, 특성 선택, 모델 평가 등 다양한 과정에서 통계학이 필요

  • P-값 : 변수의 유의성을 판단하여 중요 특성을 선택
  • 교차 검증(Cross Validation) : 모델의 성능을 일반화하여 평가

 

확률적 AI 모델

  • 베이지안 추론 : 불확실성을 다루는 AI모델의 핵심
  • 베이지안 네트워크 : 확률적 의존 관계를 시각화한 모델
  • 은닉 마르코프 모델(HMM) : 연속적인 데이터를 모델링하는 데 사용

 

통계학 지식의 AI 적용

 

AI 응용 분야, 데이터 분석 및 모델링에 활용

 

 

자연어 처리(NLP)

 

텍스트 데이터의 단어 빈도를 분석하여 언어 모델을 구축

  • 단어 빈도 분석
    텍스트 데이터를 분석하여 언어 모델 구축
  • TF-IDF(Term Frequency-Inverse Document Frequency)
    단어의 중요도를 평가하여 정보 검색 및 텍스트 분류에 사용
    텍스트 요약 및 문서 분류에서 활용
  • 임베딩 기법
    Word2Vec, GloVe와 같은 기법에 통계적 연산 포함

 

컴퓨터 비전

 

이미지 데이터의 분석 및 특징 추출에 통계학 사용

  • 히스토그램 분석
    이미지 데이터의 히스토그램을 통해 특징 추출
  • 신뢰도 구간 추정
    객체 탐지 결과의 신뢰성 평가
  • 픽셀 값 분포 정규화
    이미지 분류 모델에서 정규화를 통해 학습 효과 개선
  • 통계적 모델 활용
    얼굴 인식에서 Gaussian Mixture Models 사용

 

추천 시스템

 

사용자 행동 데이터를 분석, 선호도를 예측, 추천 항목 선정

  • 통계적 데이터 분석
    사용자 행동 데이터를 기반으로 선호도 예측
  • 협업 필터링
    유사도 측정을 통해 추천 항목 선정
    -유사도 계산 기법 : 코사인 유사도, 피어슨 상관계수
  • 실제 사례
    Netflix 추천 시스템에서 통계 기반 유사도 계산 활동

 

강화학습

 

확률적 접근 방식을 통해 최적의 행동 정책 설계

  • 탐색-활용 트레이드오프(Explortion-Exploitation) 해결
    ε-greedy 알고리즘: 확률적으로 새로운 행동을 시도
    Thompson Sampling : 베이지안 추론으로 행동 선택 확률 계산

 

이상 탐지

 

데이터 분포를 분석하여 이상치 감지

  • 통계적 경계 설정
    평균과 표준편차를 이용한 이상치 감지
  • 응용 사례
    금융 데이터에서 사기 거래 탐지
    네트워크 트래픽 분석에서 비정상적인 활동 탐지

 

모델 해석

 

모델 예측에 기여한 변수 분석 및 결과 해석 지원

  • 특성 중요도 분석
    회귀 계수 또는 p-값을 사용, 모델 기여 변수 분석
  • 신뢰 구간 추정
    모델 예측의 신뢰 구간 통계적 계산
    예측 결과의 해석 가능성을 높임
  • 응용 사례
    랜덤 포레스트에서 특성 중요도를 분석, 의사결정 지원
    신뢰 구간을 제공, 결과의 신뢰성 강화

 

 

 

데이터 분석

 

비즈니스 목표를 달성하기 위해 체계적인 과정을 통해 데이터를 탐색, 통찰을 도출하는 작업

 

 

일반적인 데이터 분석 과정의 단계

 

문제 정의 - 데이터 로드 및 탐색 - 데이터 전처리 - 탐색적 데이터 분석(EDA) - 특성 공학 - 모델 선택 및 학습 - 모델 평가 및 해석 - 결과 시각화 및 보고

 

 

1. 문제 정의

목표 명확화

  •  데이터 분석을 통해 해결하고자 하는 구체적인 비즈니스 목표를 명확히 설정
    예 : 고객 이탈을 줄이는 방법, 제품 추천 정확도 향상
  • 분석 질문 도출
    데이터를 기반으로 답을 구해야 할 구체적인 질문 설정
    예 : 이탈 고객의 주요 특징, 특정 제품군의 매출을 증가시키는 요인
  • 성과 지표 정의
    분석 결과 평가 기준 정의
    정확도(Accuracy), RMSE, ROI등
  • 비즈니스 컨텍스트 이해
    문제를 해결하기 위해 데이터의 출처와 관련 프로세스를 이해, 제약 사항 식별

 

2. 데이터 로드 및 탐색

데이터 로드

  • 데이터를 파일(csv, Excel), 데이터베이스, 또는 API에서 로드

데이터 탐색

  • 데이터 구조 확인
    데이터의 기본적인 구조(행과 열, 변수 타입 등)을 확인
    pandas활용- .info() .describe()를 통해 데이터 요약
  • 기본 통계 정보 확인
    평균, 중앙값, 분산 등 기본적 통계량을 분석, 데이터의 전반적인 특성 파악

 

3. 데이터 전처리

 

  • 결측치 처리
    결측 데이터를 제거하거나 평균, 중위수 대체 또는 모델 기반 예측으로 처리
  • 이상치 탐지 및 제거
    Box Plot, IQR 등을 사용, 이상치 탐지, 필요시 제거하거나 조정
  • 데이터 변환
    정규화, 표준화 및 범주형 데이터 인코딩(One-Hot Encoding, Label Encoding) 수행
  • 중복 데이터 제거
    데이터셋 내 중복된 데이터를 확인하고 제거

 

4. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA)

 

데이터의 분포, 패턴, 이상치(outlier) 등을 식별, 데이터를 깊게 이해

  • 기술 통계
    평균, 중앙값, 분산, 표준편차 등의 요약 통계 확인
  • 결측치(NaN) 확인
    결측 데이터의 개수, 분포 확인
  • 데이터 시각화
    분포, 관계, 패턴을 시각적으로 탐색 - 히스토그램, 박스플롯, 산점도, 상관행렬 등을 활용
  • 변수 간 상관관계 분석
    데이터셋의 변수 간 관계 분석
  • 가설 검정
    데이터에 대한 가설을 설정하고 통계적 검정을 통해 확인 (t-test, chi-square test)

 

5. 특성 공학

  • 스케일링 및 정규화
    데이터를 정규화(MinMaxScaler)하거나 표준화(StandardScaler)하여 모델링에 적합한 형태로 변환
  • 특성 선택 및 차원 축소
    분석 목표에 부합하지 않는 특성을 제거하거나, PCA와 같은 기법으로 차원 축소
  • 새로운 특성 생성
    기존 데이터를 변환하거나 결합하여 새로운 변수 생성
    예 : 날짜 데이터를 기반으로 요일 또는 계절 변수 추가

 

6. 모델 선택 및 학습

  • 모델 선택
    문제의 특성에 따라 적합한 알고리즘 선택
    예 : 분류 문제 - Random Forest, XGBoost / 회귀 문제 - 선형 회귀, Lasso
  • 데이터 분리
    데이터를 훈련 세트와 테스트 세트로 나누어 모델 성능 평가
  • 교차 검증
    K-Fold Cross Validation 등을 통해 모델의 일반화 성능 검증
  • 하이퍼 파라미터 튜닝
    Grid Search, Random Search를 통해 모델의 최적 성능 도출

 

7. 모델 평가

  • 성능 평가 지표 계산
    분류 문제 : 정확도(Accuracy), F1 Score, 재현율(Recall)등 
    회귀 문제 : RMSE, MAE,  
  • 테스트 데이터 평가
    학습되지 않은 데이터로 모델의 최종 성능 확인
  • 시각적 평가
    혼동 행렬, ROC 곡선, 잔차 플롯 등을 통해 모델의 성능을 직관적으로 확인

 

8. 결과 시각화 및 보고

  • 발견 사항 요약
    분석 결과를 비즈니스 맥락에 맞게 요약
  • 결과 시각화
    대시보드, 차트 등을 사용하여 모델 성능 요약, 결과를 명확히 전달
  • 개선 방향 제안
    추가 데이터 수집, 새로운 변수 생성 등 주요 인사이트 제시, 향후 연구 방향 제안

 

 


 

통계학은 데이터 분석 과정 전반에 걸쳐 

데이터의 패턴을 이해하고, 데이터 기반의 의사결정, 신뢰성 있는 결론 도출을 위해 필수적