MachineLearning 22

Deep Learning

딥러닝(Deep Learning) 인공신경망(Artificial Neural Networks, ANN)을 기반으로 한 기계 학습(Machine Learning)의 한 분야 여러 층(layer)으로 구성된 신경망을 통해 데이터에서 중요한 특징을 자동으로 학습하고, 합습을 바탕으로 예측, 분류, 생성 등의 다양한 작업을 수행기존 머신러닝과 달리 특징 공학(feature engineering)과정이 필요 없이, 데이터로부터 직접 패턴을 학습 비선형 추론 가능 : 다층 구조를 활용해 복잡한 데이터의 패턴 학습 가능자동 특징 추출 : 별도의 특징 엔지니어링 없이도 데이터에서 유의미한 특징을 찾아낼 수 있음대용량 데이터 학습 : GPU연산을 활용하여 대량의 데이터를 빠르게 처리하고 학습 가능다양한 응용 가능 : 이..

⊢ DeepLearning 2025.03.18

앙상블 학습 - XGBoost(eXtreme Gradient Boosting)

XGBoost (eXtreme Gradient Boosting) 그래디언트 부스팅(Gradient Boosting) 알고리즘을 기반으로 한 고성능 앙상블 학습 기법 빠른 학습 속도, 높은 예측 성능, 과적합 방지 기능 등을 제공병렬 처리, 조기 종료(Early Stopping), L1 & L2 정규화 등의 기능을 지원효율성, 유연성, 이식성을 목표로 설계됨캐글(Kaggle) 등 머신러닝 경진대회에서 널리사용됨  동작 원리초기 모델 학습첫 번째 결정 트리를 학습하여 기본 모델을 생성잔여 오차(Residual) 계산초기 모델의 예측값과 실제값 간의 차이(오차)를 계산잔여 오차를 예측하는 새로운 트리 학습이전 모델이 학습하지 못한 부분(잔여 오차)을 보완하는 트리를 추가모델 업데이트기존 모델에 새롭게 학습된 ..

⊢MachineLearning 2025.03.18

앙상블 학습 - 그래디언트 부스팅 머신(Gradient Boosting Machine, GBM)

그래디언트 부스팅 머신(Gradient Boosting Machine, GBM) 여러 개의 약한 학습기(weak learner)를 순차적으로 학습시키고, 그 예측 결과를 결합하여 강한 학습기(strong learner)를 만드는 앙상블 학습 기법 중 하나 이전 모델이 잘못 예측한 데이터 포인트에 가중치를 부여하여, 다음 모델이 이를 더 잘 학습하도록 함 (각 단계에서 잔여 오차를 줄이도록 설계되어 있음)GBM은 과적합을 방지하면서도 높은 예측 성능을 제공하는 강력한 알고리즘다양한 하이퍼파라미터 튜닝을 통해 성능 최적화 가능 GBM의 구조여러 개의 결정 트리(Desicion Tree)로 구성됨각 결정 트리는 이전 트리의 예측 오류를 보완하는 방식으로 학습최종 예측 값은 개별 트리의 예측을 가중합하여 계산 ..

⊢MachineLearning 2025.03.18

앙상블 학습 : 랜덤 포레스트(Random Forest)

랜덤 포레스트(Random Forest) 배깅(Bagging) 기법을 기반으로 한 앙상블 학습 모델 여러 개의 결정 트리(Decision Tree)를 학습시킨 후, 각 트리의 예측 결과를 결합하여 최종 예측 수행개별 트리들이 독립적으로 학습되므로 과적합 방지, 일반화 성능 향상 가능  랜덤 포레스트의 구조여러 개의 결정 트리로 구성됨각 결정 트리는 원본 데이터에서 부트스트랩 샘플링(Bootstrap Sampling)된 데이터로 학습됨예측 시, 회귀 문제에서는 평균값, 분류 문제에서는 다수결 투표 방식을 사용 랜덤 포레스트의 원리부트스트랩 샘플링: 원본 데이터에서 중복을 허용하여 무작위 샘플 생성결정 트리 학습: 각 부트스트랩 샘플을 사용하여 결정 트리를 학습각 노드에서 무작위로 선택된 특성의 일부만 사용..

⊢MachineLearning 2025.03.18

앙상블 학습 : 배깅(Bagging)과 부스팅(Boosting)

앙상블 학습(Ensemble Learning) 여러 개의 개별 학습 모델을 조합하여 단일 모델보다 더 높은 예측 성능을 얻는 기법 개별 모델의 예측을 평균 또는 다수결 방식으로 결합하여 일반화 성능을 향상주요 기법 : 배깅(Bagging)과 부스팅(Boosting)  배깅(Bagging: Bootstrap Aggregating) 여러 개의 모델을 병렬로 학습하여 예측을 평균 또는 다수결로 결합하는 방식 원본 데이터셋에서 중복을 허용한 샘플링(부트스트래핑, Bootstrap)기법을 사용하여 다수의 학습 데이터를 생성각 모델이 서로 다른 샘플을 학습하여 모델 간 상관성을 줄임 과적합 방지 : 다수의 모델을 결합함으로써 개별 모델의 과적합을 줄일 수 있음안정성 향상 : 데이터 변동에 대한 민감도가 낮아짐병렬 ..

⊢MachineLearning 2025.03.17

비지도학습 : 차원축소 - LDA(Linear Discriminant Analysis)

LDA (Linear Discriminant Analysis, 선형 판별 분석) 차원 축소와 분류를 동시에 수행하는 기법 클래스 간 분산을 최대화하고, 클래스 내 분산을 최소화하여 데이터를 변환저차원 공간에서 데이터의 구조를 유지하면서 분류 성능 향상 가능  작동 원리클래스별 평균 벡터 계산 : 각 클래스의 평균 벡터를 구함클래스 내 분산 행렬 계산 : 각 클래스 내부의 데이터 분산 계산클래스 간 분산 행렬 계산 : 클래스 평균 벡터 간의 분산을 구함고유값 및 고유벡터 계산 : 클래스 내 분산 행렬의 역행렬과 클래스 간 분산 행렬의 곱을 사용하여 고유값과 고유벡터 계산선형 판별 축 선택 : 고유값이 큰 순서대로 고유벡터를 정렬하여 주요한 선형 판별 축을 선택데이터 변환 : 선택된 판별 축을 사용하여 데이..

⊢MachineLearning 2025.03.17

비지도학습 : 차원축소 - t-SNE(t-Distributed Stochastic Neighbor Embedding)

t-SNE(t-Distributed Stochastic Neighbor Embedding) 고차원 데이터를 저차원(2D 또는 3D)으로 변환하여 시각화하는 차원 축소 기법 데이터 간 유사성을 보존하면서 고차원 데이터를 저차원으로 변환하여 데이터의 패턴을 효과적으로 시각화하는 데 활용주로 비지도 학습에서 데이터의 구조를 이해하는 데 사용 비선형 구조 탐지 가능 → 데이터의 복잡한 구조도 효과적으로 표현클러스터 시각화 → 데이터 내 잠지적 그룹(클러스터)을 명확히 구별할 수 있음고차원 데이터  시각화 → 2차원 또는 3차원으로 변환하여 인간이 직관적으로 이해할 수 있도록 함 시간 복잡도가 높음 → 대규모 데이터셋에서는 계산이 느릴 수 있음매번 다른 결과를 생성 → 초깃값(random_state)에 따라 결과..

⊢MachineLearning 2025.03.17

비지도학습 : 차원축소 - PCA(Principal Component Analysis, 주성분 분석)

PCA(Principal Component Analysis, 주성분 분석) 고차원 데이터를 저차원으로 변환하는 차원 축소 기법 데이터의 분산을 최대한 보존하면서 주요 특징을 추출해 저차원 공간으로 변환이미지 압축 : 고차원 픽셀 데이터를 저차원으로 축소하여 공간 절약노이즈 제거 : PCA를 통해 데이터의 주요 특징만 남겨 노이즈 제거데이터 시각화 : 다차원 데이터를 2D 또는 3D로 변환하여 분석 작동 원리데이터 표준화(Standardization)각 특성의 평균을 0, 분산을 1로 맞춤공분산 행렬(Covariance Matrix) 계산데이터의 특성 간 관계 파악고유값(Eigenvalue) 및 고유벡터(Eigenvector) 계산공분산 행렬을 분해하여 주성분(Principal Component) 추출주성..

⊢MachineLearning 2025.03.17

비지도학습 : 군집화 모델 - DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise) 밀도 기반 군집화 알고리즘데이터 밀도가 높은 영역을 군집으로 간주하고, 밀도가 낮은 영역을 노이즈로 처리 비구형 군집 탐지 가능 : 원형이 아닌 군집도 효과적으로 탐색 가능노이즈 처리 가능 : 밀도가 낮은 데이터 포인트를 자동으로 노이즈로 분류군집 수 자동 결정 : 군집 개수를 미리 설정할 필요 없음 주요 매개변수eps : 두 데이터 포인트가 같은 군집에 속하기 위한 최대 거리min_samples : 한 군집을 형성하기 위해 필요한 최소 데이터 포인트 수 작동원리임의의 데이터 포인트 선택선택한 데이터 포인트의 eps 반경 내에 있는 모든 데이터 포인트를 찾음eps 반경 내 데이터 수가..

⊢MachineLearning 2025.03.17

비지도학습 : 군집화 모델 - 계층적 군집화

계층적 군집화(Hierarchical Clustering) 데이터 포인트들을 계층 구조로 그룹화하는 군집화 방법 데이터 포인트를 점진적으로 병합하거나 분할하여 군집을 형성계층적 구조를 시각화할 수 있는 덴드로그램(Dendrogram) 생성 계층적 군집화의 방식 병합 군집화(Agglomerative Clustering)각 데이터 포인트를 개별 군집으로 시작가장 가까운 군집을 반복적으로 병합분할 군집화(Divisive Clusterting)모든 데이터 포인트를 하나의 군집으로 시작반복적으로 가장 멀리 떨어진 군집을 분할 계층적 군집화의 작동 원리 거리 행렬 계산각 데이터 포인트 간의 거리를 계산하여 거리 행렬을 생성대표적인 거리 계산 방법 : 유클리드 거리(Euclidean distance)군집 병합/분할병..

⊢MachineLearning 2025.03.17
728x90