⊢MachineLearning 11

Kaggle과 Kaggle 데이터셋 다운로드

캐글(Kaggle) 및 데이터셋 다운로드 캐글(Kaggle) 데이터 과학 및 머신러닝 경진대회 플랫폼데이터 사이언티스트 및 머신러닝 엔지니어들이 다양한 문제를 해결하고 데이터 분석 수행모델 개발을 위한 데이터셋과 도구 제공경진대회: 다양한 데이터 과학 및 머신러닝 문제를 해결하는 대회 개최데이터셋: 다양한 주제의 데이터셋 무료 제공커뮤니티: 데이터 과학자와 머신러닝 엔지니어들이 지식을 공유하고 협업 가능커널(Kernels): Jupyter 노트북과 유사한 웹 기반 코드 실행 환경 제공 캐글 데이터셋 다운로드  캐글 API 설치pip install kaggle  캐글 API 키 설정캐글 계정에서 API 키 생성 후 로컬 환경에 저장API 키는 ~/.kaggle/kaggle.json 파일에 저장됨 데이터셋 ..

⊢MachineLearning 2025.02.17

혼동행렬을 활용한 분류 성능 지표

혼동행렬 (Confusion Matrix) 예측 클래스(Predicted Class) 양성 (Positive)음성 (Negative)실제 클래스 (Actual Class)양성 (Positive)참 양성 (TP, True Positive)거짓 음성 (FN, False Negative)제 2종 오류 (Type Ⅱ Error)민감도 (Sensitivity)TP/(TP+FN)음성 (Negative)거짓 양성 (FP, False Positive)제1종 오류 (Type Ⅰ Error)참 음성 (TN, True Negative)특이도 (Specificity)TN/(TN+FP) 정밀도 (Precision)TP/(TP+FP)음성 예측도 (Negative Predictive)TN/(TN+FN)정확도 (Accuracy)TP..

⊢MachineLearning 2025.02.02

Iris 데이터셋과 결정 트리(Decision Tree) 모델 : 평가 방법 비교 및 교차 검증 실습

Iris 데이터셋을 사용하여 결정 트리(Decision Tree) 모델의 성능을 다양한 방법을 평가각각의 방법론에 따라 과적합 여부를 판단, 교차 검증 등을 통해 일반화 성능을 측정 from sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.metrics import accuracy_scorefrom sklearn.model_selection import train_test_split, KFold, StratifiedKFold, cross_val_scoreimport numpy as npdataset = load_iris()model = DecisionTreeClassifier() #결정 ..

⊢MachineLearning 2025.01.24

Scikit-Learn과 Estimator

Estimator데이터 모델링을 위한 기본 인터페이스를 제공하는 객체머신러닝 워크플로우의 중심이 되는 객체머신러닝 알고리즘을 캡슐화한 툴→ 데이터를 학습하여 모델을 생성, 학습된 모델을 사용해 새로운 데이터에 대해 예측을 수행할 수 있음  알고리즘 : 데이터를 학습하고 처리하는 방법Estimator : 알고리즘을 사용가능하게 만든 도구(객체), 데이터를 학습해서 예측을 수행할 수 있도록 도와주는 도구메서드(fit, predict, score) : Estimator가 제공하는 기능   dir()함수로 Estimator가 제공하는 기능(메서드와 속성)목록 확인from sklearn.tree import DecisionTreeClassifiermodel = DecisionTreeClassifier()print..

⊢MachineLearning 2025.01.21

Perceptron(퍼셉트론)

Perceptron(퍼셉트론)  인공 신경망의 가장 단순한 형태로, 인공 뉴런 모델 중 하나이진 분류 문제를 해결하기 위해 설계된 알고리즘으로, 입력 데이터를 받아 두 개의 클래스 중 하나에 속하는지 판단 1957년 프랭크 로젠블랫(Frank Rosenblatt)에 의해 소개되었으며, 초기 지도 학습 알고리즘 중 하나로 간주됨   퍼셉트론의 동작 원리 여러 입력 신호를 받아 각각 가중치를 곱한 뒤, 이를 모두 합산하고, 합산된 값을 활성화 함수(주로 계단 함수)에 통과시켜 단일 이진 출력을 생성  퍼셉트론의 동작: 1. 입력 값(x₁,x₂,x₃,,x_n)을 받아 가중치(w₁,w₂,w₃,,w_n)와 곱함 2. 각 가중치가 곱해진 입력 값을 합산하고, 바이어스(b)를 더함 3. 합산된 값을 활성화 함수 f에..

⊢MachineLearning 2025.01.14

Scikit-learn

Scikit-learn Python 기반의 강력한 머신러닝 라이브러리 Python으로 작성되었으며, NumPy, SciPy, Matplotlib와 같은 라이브러리와 잘 통합되어 있음설치와 사용이 간단, 사용자 친화적인 API를 제공해 초보자도 쉽게 접근 가능   Scikit-learn이 지원하는 다양한 머신러닝 알고리즘회귀 분석 : 선형 회귀, 리지 회귀, 라쏘 회귀 등분류 : 로지스틱 회귀, SVM, 랜덤 포레스트, KNN 등군집화 : K-means, DBSCAN, 계층적 군집화 등차원 축소 : PCA, t-SNE, LDA 등효율성과 확장성Scikit-learn 대규모 데이터셋 처리와 효율적인 모델 학습을 위해 C와 Cython으로 최적화된 코드를 사용해 속도가 빠름병렬 처리를 지원하는 알고리즘(예: ..

⊢MachineLearning 2024.12.26

Anaconda

Anaconda 주로 데이터 과학, 머신러닝, 그리고 과학 계산 작업을 위한 Python/R 배포판 및 통합 환경 데이터를 분석하고 모델링하는 작업에 필요한 여러 도구와 라이브러리를 한 번에 설치하고 관리할 수 있게 해줌초보자부터 전문가까지 쉽게 사용할 수 있는 환경을 제공   Anaconda의 주요 특징 포함된 라이브러리와 도구  NumPy, Pandas, Matplotlib, SciPy, Scikit-learn, TensorFlow 등 데이터 분석과 머신러닝에 필요한 필수적인 라이브러리가 기본적으로 포함Jupyter Notebook, Spyder 같은 개발 도구도 함께 제공 환경 관리 가상 환경을 쉽게 만들고 관리할 수 있음 => 프로젝트별로 다른 패키지와 Python 버전 사용 가능• 예: cond..

⊢MachineLearning 2024.12.26

Machine learning Vol.2

이중 분류와 다중 분류1. 이중 분류 (Binary Classification)두 개의 클래스로 분류하는 문제확률값에 따라 구분됨핵심 원리확률이 0.5 이상: 특정 클래스 (예: 긍정)확률이 0.5 미만: 다른 클래스 (예: 부정)이중 분류 활용 사례스팸 분류: 스팸인지 아닌지의료 진단: 당뇨병인지 아닌지대출 평가: 대출을 해줄까 말까2. 다중 분류 (Multiclass Classification)세 개 이상의 클래스로 분류하는 문제활용 사례메일 분류: 스팸, 광고, 일반, 업무교통 체증 분류: 원활, 지체, 정체뉴스 카테고리 분류: 경제, 정치, 에세이음악 장르 분류: 재즈, 힙합, 인디다중 분류 원리입력 데이터가 여러 클래스 중 하나에 속하도록 예측하는 문제클래스별 확률의 합이 1이 되도록 조정해야 ..

⊢MachineLearning 2024.12.17
728x90