머신러닝 개요
0. 데이터의 힘
- 존 스노우의 지도
- 콜레라 사망자의 위치를 지도에 표시하여, 우물 주변에서 집중 발생하는 패턴을 발견 → 사망 원인 분석
- 나이팅게일의 로즈 다이어그램
- 부상, 질병, 기타 사망 원인을 시각화하여 위생 불량이 주요 사망 원인임을 강조
1. 데이터
1-1. 데이터의 특징
데이터의 특징에 따라 적절한 embedding 기법 활용
1-2. 데이터는 AI의 밥
데이터는 AI의 성능과 직결되는 핵심 요소로, AI 모델의 학습과 예측력을 결정
AI는 데이터를 통해 세상을 이해하고 학습함
- AI는 데이터를 통해 학습: 데이터가 충분하지 않거나 품질이 낮으면 학습 효과가 떨어짐
- 모델의 성능 향상: 데이터의 양과 질이 높을수록 AI 모델의 정확도 증가
- 다양한 데이터 활용: 정형, 반정형, 비정형 데이터를 활용해 다양한 문제 해결 가능
1-3. 데이터 종류
- 정형 데이터: 엑셀, 데이터베이스 등 구조화된 데이터
- 반정형 데이터: HTML, JSON, CSV 등 일부 구조화된 데이터
- 비정형 데이터: 블로그, SNS 글, 그림 등 비구조화된 데이터
1-4. 데이터 활용 방법
- 주제 결정(목표 설정)
- 데이터 수집
- 데이터 전처리
- 모델 구축
- 예: 로지스틱 회귀, 결정 트리, 랜덤 포레스트 등
- 분석 및 활용
1-5. 데이터 전처리의 중요성
- 데이터 정제(Cleaning)
- 결측값 처리
- 이상치 제거
- 데이터 변환(Transformation)
- 데이터 포맷 통일
- 범주형 데이터 변환
- 데이터 표준화(Standardization) & 정규화(Normalization)
1-6. 데이터 활용 사례
- DVD 대여 서비스 초기
- 데이터 수집: 고객 대여 기록 데이터를 기반으로 단순한 대여 이력을 관리
- 목표: 고객의 대여 패턴을 파악해 기본적인 서비스 개선에 활용
- 첫 번째 추천 시스템 도입
- 데이터 활용: 대여 기록과 평점 데이터를 분석해 고객 취향을 파악
- 결과: 비슷한 취향의 고객이 선호하는 영화를 추천하는 방식으로 초기 추천 시스템 구축
- 스트리밍 시대로의 전환
- 데이터 폭증: 고객이 "언제, 무엇을, 얼마나" 시청했는지 등 세밀한 행동 데이터를 수집
- 변화: DVD 대여 서비스와 달리, 실시간 스트리밍 환경에서 더 다양한 데이터가 쌓이며 분석 가능성이 대폭 증가
- 개인화 추천 시스템의 고도화
- 머신러닝 활용: 고객의 행동 데이터와 머신러닝 알고리즘을 결합해 고객별 맞춤 콘텐츠를 제공
- 결과: 고객 만족도 상승, 넷플릭스의 글로벌 성장 가속화
2. 머신러닝 이해
2-1. 머신러닝은 마법이 아니다
- 머신러닝은 세상을 이해하거나 미래를 예측하는 수학적 도구일 뿐, 마법처럼 모든 것을 해결해 주는 기술이 아님
- 머신러닝 모델의 성능은 주어진 데이터의 품질과 양, 그리고 모델 선택 및 튜닝 과정에 크게 의존함
- 올바른 문제 정의와 데이터를 기반으로 적절한 모델을 선택하고 학습시키는 과정이 필수
2-2. 머신러닝의 핵심 수학
- 가설식: 머신러닝은 세상의 모든 현상을 수식으로 설명하려는 시도
- H: 가설
- : 설명 변수
- : 가중치(변수의 중요성)
- : 편향(전체 데이터의 치우침)
- 목표: 최적의 w,b 조합을 찾아 정답에 근접
2-3. 경사하강법
- 손실 비용(Cost): 현재 가설식의 오차 정도
- 기울기(Gradient): 변화율. 미분값이 0이면 손실 비용 최소화
→ 최적의 가중치를 찾는 방법
2-4. 다항 선형회귀
- 단순 선형회귀의 확장으로 비선형 데이터도 모델링 가능
3. 데이터 활용의 진화
과거의 데이터 활용
- 통계 중심: 가설 설정 → 데이터를 통해 검증
현재의 데이터 활용
- 패턴 발견 중심: 데이터를 통해 숨겨진 관계 및 패턴을 발견 → 가설 생성과 검증
가설 검증 vs 패턴 발견
가설 검증 | 패턴 발견 |
특정 가설을 세우고 검증 | 데이터를 분석해 가설을 생성 및 발견 |
예: 약물의 효과 확인 | 예: 특정 요일 쇼핑 패턴 발견 |
4. 데이터리터러시
- 데이터를 읽고 쓰며, 데이터를 기반으로 의사결정을 내리는 능력
- 현재=> 데이터 중심으로 의사결정을 내리는 시대
'Python to AI' 카테고리의 다른 글
Machine learning Vol.2 (7) | 2024.12.17 |
---|---|
Python - Pandas(다차원데이터관리 : MultiIndex) (4) | 2024.12.17 |
Python - 객체 탐색과 속성 관리 (4) | 2024.12.15 |
Python - Pandas(데이터 전처리: Encoding, Embedding) (4) | 2024.12.13 |
Python - 함수의 기본적 개념과 사용법 (6) | 2024.12.12 |