Python to AI

Machine learning

최 수빈 2024. 12. 16. 22:43

머신러닝 개요


0. 데이터의 힘

  1. 존 스노우의 지도
    • 콜레라 사망자의 위치를 지도에 표시하여, 우물 주변에서 집중 발생하는 패턴을 발견 → 사망 원인 분석
  2. 나이팅게일의 로즈 다이어그램
    • 부상, 질병, 기타 사망 원인을 시각화하여 위생 불량이 주요 사망 원인임을 강조

1. 데이터

1-1. 데이터의 특징

데이터의 특징에 따라 적절한 embedding 기법 활용

1-2. 데이터는 AI의 밥

데이터는 AI의 성능과 직결되는 핵심 요소로, AI 모델의 학습과 예측력을 결정
AI는 데이터를 통해 세상을 이해하고 학습함

  1. AI는 데이터를 통해 학습: 데이터가 충분하지 않거나 품질이 낮으면 학습 효과가 떨어짐
  2. 모델의 성능 향상: 데이터의 양과 질이 높을수록 AI 모델의 정확도 증가
  3. 다양한 데이터 활용: 정형, 반정형, 비정형 데이터를 활용해 다양한 문제 해결 가능

1-3. 데이터 종류

  • 정형 데이터: 엑셀, 데이터베이스 등 구조화된 데이터
  • 반정형 데이터: HTML, JSON, CSV 등 일부 구조화된 데이터
  • 비정형 데이터: 블로그, SNS 글, 그림 등 비구조화된 데이터

1-4. 데이터 활용 방법

  1. 주제 결정(목표 설정)
  2. 데이터 수집
  3. 데이터 전처리
  4. 모델 구축
    • 예: 로지스틱 회귀, 결정 트리, 랜덤 포레스트 등
  5. 분석 및 활용

1-5. 데이터 전처리의 중요성

  1. 데이터 정제(Cleaning)
    • 결측값 처리
    • 이상치 제거
  2. 데이터 변환(Transformation)
    • 데이터 포맷 통일
    • 범주형 데이터 변환
  3. 데이터 표준화(Standardization) & 정규화(Normalization)

1-6. 데이터 활용 사례

  1. DVD 대여 서비스 초기
    • 데이터 수집: 고객 대여 기록 데이터를 기반으로 단순한 대여 이력을 관리
    • 목표: 고객의 대여 패턴을 파악해 기본적인 서비스 개선에 활용
  2. 첫 번째 추천 시스템 도입
    • 데이터 활용: 대여 기록과 평점 데이터를 분석해 고객 취향을 파악
    • 결과: 비슷한 취향의 고객이 선호하는 영화를 추천하는 방식으로 초기 추천 시스템 구축
  3. 스트리밍 시대로의 전환
    • 데이터 폭증: 고객이 "언제, 무엇을, 얼마나" 시청했는지 등 세밀한 행동 데이터를 수집
    • 변화: DVD 대여 서비스와 달리, 실시간 스트리밍 환경에서 더 다양한 데이터가 쌓이며 분석 가능성이 대폭 증가
  4. 개인화 추천 시스템의 고도화
    • 머신러닝 활용: 고객의 행동 데이터와 머신러닝 알고리즘을 결합해 고객별 맞춤 콘텐츠를 제공
    • 결과: 고객 만족도 상승, 넷플릭스의 글로벌 성장 가속화

2. 머신러닝 이해

2-1. 머신러닝은 마법이 아니다

  • 머신러닝은 세상을 이해하거나 미래를 예측하는 수학적 도구일 뿐, 마법처럼 모든 것을 해결해 주는 기술이 아님
  • 머신러닝 모델의 성능은 주어진 데이터의 품질과 양, 그리고 모델 선택 및 튜닝 과정에 크게 의존함
  • 올바른 문제 정의와 데이터를 기반으로 적절한 모델을 선택하고 학습시키는 과정이 필수

2-2. 머신러닝의 핵심 수학

  • 가설식: 머신러닝은 세상의 모든 현상을 수식으로 설명하려는 시도
    • H: 가설
    • : 설명 변수
    • : 가중치(변수의 중요성)
    • : 편향(전체 데이터의 치우침)

  • 목표: 최적의 w,b 조합을 찾아 정답에 근접

2-3. 경사하강법

  • 손실 비용(Cost): 현재 가설식의 오차 정도
  • 기울기(Gradient): 변화율. 미분값이 0이면 손실 비용 최소화
    → 최적의 가중치를 찾는 방법

2-4. 다항 선형회귀

  • 단순 선형회귀의 확장으로 비선형 데이터도 모델링 가능

3. 데이터 활용의 진화

과거의 데이터 활용

  • 통계 중심: 가설 설정 → 데이터를 통해 검증

현재의 데이터 활용

  • 패턴 발견 중심: 데이터를 통해 숨겨진 관계 및 패턴을 발견 → 가설 생성과 검증

가설 검증 vs 패턴 발견

가설 검증 패턴 발견
특정 가설을 세우고 검증 데이터를 분석해 가설을 생성 및 발견
예: 약물의 효과 확인  예: 특정 요일 쇼핑 패턴 발견

 


4. 데이터리터러시

  • 데이터를 읽고 쓰며, 데이터를 기반으로 의사결정을 내리는 능력
  • 현재=> 데이터 중심으로 의사결정을 내리는 시대