Machine learning

Python to AI

Machine learning

최 수빈 2024. 12. 16. 22:43

머신러닝 개요

0. 데이터의 힘

존 스노우의 지도
- 콜레라 사망자의 위치를 지도에 표시하여, 우물 주변에서 집중 발생하는 패턴을 발견 → 사망 원인 분석
나이팅게일의 로즈 다이어그램
- 부상, 질병, 기타 사망 원인을 시각화하여 위생 불량이 주요 사망 원인임을 강조

1. 데이터

1-1. 데이터의 특징

데이터의 특징에 따라 적절한 embedding 기법 활용

1-2. 데이터는 AI의 밥

데이터는 AI의 성능과 직결되는 핵심 요소로, AI 모델의 학습과 예측력을 결정
AI는 데이터를 통해 세상을 이해하고 학습함

AI는 데이터를 통해 학습: 데이터가 충분하지 않거나 품질이 낮으면 학습 효과가 떨어짐
모델의 성능 향상: 데이터의 양과 질이 높을수록 AI 모델의 정확도 증가
다양한 데이터 활용: 정형, 반정형, 비정형 데이터를 활용해 다양한 문제 해결 가능

1-3. 데이터 종류

정형 데이터: 엑셀, 데이터베이스 등 구조화된 데이터
반정형 데이터: HTML, JSON, CSV 등 일부 구조화된 데이터
비정형 데이터: 블로그, SNS 글, 그림 등 비구조화된 데이터

1-4. 데이터 활용 방법

주제 결정(목표 설정)
데이터 수집
데이터 전처리
모델 구축
- 예: 로지스틱 회귀, 결정 트리, 랜덤 포레스트 등
분석 및 활용

1-5. 데이터 전처리의 중요성

데이터 정제(Cleaning)
- 결측값 처리
- 이상치 제거
데이터 변환(Transformation)
- 데이터 포맷 통일
- 범주형 데이터 변환
데이터 표준화(Standardization) & 정규화(Normalization)

1-6. 데이터 활용 사례

DVD 대여 서비스 초기
- 데이터 수집: 고객 대여 기록 데이터를 기반으로 단순한 대여 이력을 관리
- 목표: 고객의 대여 패턴을 파악해 기본적인 서비스 개선에 활용
첫 번째 추천 시스템 도입
- 데이터 활용: 대여 기록과 평점 데이터를 분석해 고객 취향을 파악
- 결과: 비슷한 취향의 고객이 선호하는 영화를 추천하는 방식으로 초기 추천 시스템 구축
스트리밍 시대로의 전환
- 데이터 폭증: 고객이 "언제, 무엇을, 얼마나" 시청했는지 등 세밀한 행동 데이터를 수집
- 변화: DVD 대여 서비스와 달리, 실시간 스트리밍 환경에서 더 다양한 데이터가 쌓이며 분석 가능성이 대폭 증가
개인화 추천 시스템의 고도화
- 머신러닝 활용: 고객의 행동 데이터와 머신러닝 알고리즘을 결합해 고객별 맞춤 콘텐츠를 제공
- 결과: 고객 만족도 상승, 넷플릭스의 글로벌 성장 가속화

2. 머신러닝 이해

2-1. 머신러닝은 마법이 아니다

머신러닝은 세상을 이해하거나 미래를 예측하는 수학적 도구일 뿐, 마법처럼 모든 것을 해결해 주는 기술이 아님
머신러닝 모델의 성능은 주어진 데이터의 품질과 양, 그리고 모델 선택 및 튜닝 과정에 크게 의존함
올바른 문제 정의와 데이터를 기반으로 적절한 모델을 선택하고 학습시키는 과정이 필수

2-2. 머신러닝의 핵심 수학

가설식: 머신러닝은 세상의 모든 현상을 수식으로 설명하려는 시도
- H: 가설
- : 설명 변수
- : 가중치(변수의 중요성)
- : 편향(전체 데이터의 치우침)

목표: 최적의 w,b 조합을 찾아 정답에 근접

2-3. 경사하강법

손실 비용(Cost): 현재 가설식의 오차 정도
기울기(Gradient): 변화율. 미분값이 0이면 손실 비용 최소화
→ 최적의 가중치를 찾는 방법

2-4. 다항 선형회귀

단순 선형회귀의 확장으로 비선형 데이터도 모델링 가능

3. 데이터 활용의 진화

과거의 데이터 활용

통계 중심: 가설 설정 → 데이터를 통해 검증

현재의 데이터 활용

패턴 발견 중심: 데이터를 통해 숨겨진 관계 및 패턴을 발견 → 가설 생성과 검증

가설 검증 vs 패턴 발견

가설 검증	패턴 발견
특정 가설을 세우고 검증	데이터를 분석해 가설을 생성 및 발견
예: 약물의 효과 확인	예: 특정 요일 쇼핑 패턴 발견

4. 데이터리터러시

데이터를 읽고 쓰며, 데이터를 기반으로 의사결정을 내리는 능력
현재=> 데이터 중심으로 의사결정을 내리는 시대

저작자표시 비영리 변경금지

'Python to AI' 카테고리의 다른 글

Machine learning Vol.2 (7)	2024.12.17
Python - Pandas(다차원데이터관리 : MultiIndex) (4)	2024.12.17
Python - 객체 탐색과 속성 관리 (4)	2024.12.15
Python - Pandas(데이터 전처리: Encoding, Embedding) (4)	2024.12.13
Python - 함수의 기본적 개념과 사용법 (6)	2024.12.12

현재글Machine learning

if(life){code();}

life: Compiling… Please Wait

250x250

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

if(life){code();}

Machine learning

머신러닝 개요

0. 데이터의 힘

1. 데이터

2. 머신러닝 이해

3. 데이터 활용의 진화

4. 데이터리터러시

'Python to AI' 카테고리의 다른 글

'Python to AI'의 다른글

티스토리툴바

Machine learning

머신러닝 개요

0. 데이터의 힘

1. 데이터

2. 머신러닝 이해

H(x)=wx+b

3. 데이터 활용의 진화

4. 데이터리터러시

'Python to AI' 카테고리의 다른 글

'Python to AI'의 다른글

관련글

티스토리툴바