DeepLearning 15

PyTorch 문법 정리

모델 구축 및 학습 (Model Building & Training) 신경망 기본 구조torch.nn.Module: 모든 신경망 모델의 기본 클래스import torch.nn as nnclass MyModel(nn.Module): def __init__(self): super().__init__() self.layer = nn.Linear(10, 20) def forward(self, x): return self.layer(x) 손실 함수 (Loss Function)분류CrossEntropyLossloss = nn.CrossEntropyLoss()회귀MSELossloss = nn.MSELoss()  최적화 알고리즘 (Optimizers)optimizer =..

⊢ DeepLearning 2025.03.22

모델평가와 검증

교차검증 (Cross-Validation) 데이터를 반복적으로 나누어 모델의 일반화 성능을 평가하는 기법과적합을 방지하고 새로운 데이터에 대한 예측 능력을 검증 가능 과적합 방지: 모델이 특정 데이터셋에 의존하는 것을 막음일반화 성능 측정: 새 데이터에 대한 예측 능력 평가데이터 효율성: 적은 데이터로도 학습과 평가가 가능*과적합(Overfitting): 학습 데이터에는 성능이 좋지만, 새로운 데이터에는 성능이 낮은 경우   K-Fold 교차검증전체 데이터를 K개의 폴드(fold)로 나눔각 Fold가 한번씩 검증용으로 사용되고 나머지는 학습용으로 사용총 K번 학습 및 평가를 수행 후, 그 평균을 최종 성능으로 평가 K-Fold 교차검증의 평균 정확도 𝔄 = (A₁ + A₂ + … + Aₖ) / K 𝔄..

⊢ DeepLearning 2025.03.22

하이퍼파라미터 튜닝

하이퍼파라미터(Hyperparameter) 모델 학습 이전에 사용자가 직접 설정해야 하는 값모델 구조나 학습 과정에 관여하여 모델 성능에 직접적인 영향을 미치는 요소로, 적절한 값의 설정이 중요 *파라미터(Parameter)학습을 통해 자동결정되는 값예: 가중치, 편향 등  주요 하이퍼파라미터 학습률 (Learning Rate)손실 함수의 기울기를 얼마나 반영할지를 결정하는 계수 (모델의 가중치를 업데이트하는 속도 결정)학습률이 너무 크면 발산할 수 있고, 너무 작으면 수렴이 느려짐→ 학습률이 너무 크면 불안정, 너무 작으면 학습이 느려짐 wₜ₊₁ = wₜ - η · ∇L(wₜ) η (eta): 학습률추천 값: 0.1, 0.01, 0.001 등 배치 크기 (Batch Size) 한 번의 가중치 업데이트에..

⊢ DeepLearning 2025.03.22

과적합(Overfitting) 방지 기법

과적합 방지 기법 과적합 모델이 훈련 데이터에 너무 과하게 적합(overfit)되어, 새로운 데이터(검증/테스트 데이터)에 대해 일반화 성능이 낮아지는 현상→ 훈련 데이터에선 높은 정확도를 보이지만, 실제 사용 환경에서는 성능이 떨어지는 문제가 발생   정규화와 드롭아웃 정규화 (Normalization) 데이터 분포를 일정한 범위로 조정, 학습 안정성과 수렴 속도를 향상시키고 과적합을 방지 배치 정규화 (Batch Normalization)→ 각 미니배치에 대해 평균과 분산을 정규화→ 학습 속도를 높이고, 과적합을 방지하는 데 도움레이어 정규화 (Layer Normalization)→ 각 레이어별로 정규화 수행 (RNN 등 순차 모델에서 자주 사용) 드롭아웃 (Dropout) 학습 중 임의로 일부 뉴런..

⊢ DeepLearning 2025.03.22

전이학습(Transfer Learning)

전이학습 (Transfer Learning) 기존에 학습된 모델의 지식(가중치 등)을 새로운 문제에 적용하는 머신러닝 기법 대량의 데이터를 활용해 학습한 모델을 기반으로, 새로운 작업에 적은 데이터로도 좋은 성능을 낼 수 있도록 도와줌 전이학습이 필요한 이유데이터 부족새롭게 풀고자 하는 문제에 대한 학습 데이터가 적을 때, 사전 학습된 모델을 활용해 일반화 성능을 끌어올릴 수 있음학습 시간 단축처음부터 모델을 학습하는 것보다 빠르게 수렴성능 향상ImageNet, COCO 등 대규모 데이터셋에서 학습된 모델은 일반적인 시각적 특징을 잘 추출하므로, 특정 도메인에서도 높은 성능을 보일 수 있음 전이학습의 원리 전이학습은 크게 두 가지 방식으로 구분됨특징 추출기(Feature Extractor)미세 조정(Fi..

⊢ DeepLearning 2025.03.22

이미지 처리 모델

CNN 기반 이미지 분류 주요 CNN 아키텍처ResNet(Residual Network)VGGInception (GoogLeNet) ResNet (Residual Network) 깊은 신경망에서 발생하는 기울기 소실 문제(Gradient Vanishing를 해결하기 위해 잔차 연결(Residual Connection) 도입) y = F(x) + x → 입력을 직접 다음 층에 더해주는 구조 대표 모델: ResNet-18, ResNet-50, ResNet-101, ResNet-152   VGG 필터 크기를 3x3으로 고정해 단순하고 일관된 구조를 갖춤깊이가 깊어질수록 파라미터 수는 많지만 구조적 이해가 쉬움 대표 모델: VCG16, VCG19 Inception (GoogLeNet) 다양한 크기의 필터(1x1..

⊢ DeepLearning 2025.03.21

ResNet(Residual Network)

ResNet(Residual Network) 깊은 신경망을 효과적으로 학습하기 위해 개발된 모델 잔차 학습(Residual Learning) 개념을 도입하여 기울기 소실(Vanishing Gradient)문제를 해결2015년 Microsoft Research에서 개발었으며, ImageNet 챌린지(ILSVRC) 2015에서 우승    신경망의 깊이가 깊어질수록 더 복잡한 패턴을 학습 할 수 있지만, 오차 역전파 시 기울기가 매우 작아지거나 커져 가중치 업데이트가 제대로 이루어지지 않는 기울기 소실(Vanishing Gradient) 또는 기울기 폭발(Exploding Gradient) 문제로 인해 학습이 어려워 짐→ 네트워크를 깊게 쌓을수록 성능이 오히려 저하되는 문제 발생 잔차 학습(Residual L..

⊢ DeepLearning 2025.03.21

자연어 처리(Natural Language Processing, NLP) 모델

자연어 처리(NLP) 모델 워드 임베딩과 시퀀스 모델링 워드 임베딩(Word Embedding) 기법 단어를 고정된 크기의 벡터로 변환하는 기법단어 간의 의미적 유사성을 반영하여 벡터 공간에서 가까운 위치에 배치벡터 간의 연산을 통해 이미적 관계(예: '왕 - 남자 + 여자 ≈ 여왕')을 파악할 수 있음 → 단어의 의미적 관계를 벡터로 변환하는 핵심 기술 대표적 워드 임베딩 기법Word2Vec (CBOW, Skip-gram)GloVeFastTextELMo (문맥을 반영한 임베딩)  Word2Vec 신경망을 이용해 단어를 벡터로 변환하는 모델로 두 가지 학습 방식 제공 CBOW(Continuous Bag of Words)주변 단어 (Context)로 중심 단어(Target)을 예측하는 방식학습이 빠르고 데..

⊢ DeepLearning 2025.03.20

어텐션(Attention) 메커니즘

Attention 메커니즘 시퀀스 데이터에서 중요한 부분에 더 많은 가중치를 할당하여 정보를 효율적으로 처리하는 기법주로 자연어 처리(NLP) 및 시계열 데이터에서 사용되며, 기계 번역, 요약, 질의응답 시스템 등에 적용됨  동작 방식 기본 개념입력 시퀀스의 각 요소에 대해 중요도를 계산하여 가중치를 부여불필요한 정보를 무시하고 중요한 정보 강조 주요 구성 요소 : Query(Q), Key(K), Value(V)  1. Attention 스코어 계산 Query와 Key 간의 유사도를 측정하여 중요도를 계산일반적으로 내적(dot product) 연산을 사용하여 유사도를 계산함𝓢(Q, K) = Q · K^T  2. Softmax를 통한 가중치 계산 Attention 스코어를 Softmax 함수로 정규화하여..

⊢ DeepLearning 2025.03.20

합성곱 신경망(Convolutional Neural Network, CNN)

합성곱 신경망(CNN) 이미지 데이터를 효과적으로 처리할 수 있도록 설계된 신경망합성곱 (Convolution)과 풀링(Pooling)을 활용하여 주요 특징을 추출  CNN의 기본 구성 요소합성곱 층(Convolutional Layer)입력 이미지에 필터(커널)를 적용하여 특징 맵(feature map)을 생성필터는 이미지의 국소적인 패턴(에지, 코너, 텍스처 등)을 학습풀링 층(Pooling Layer)특징 맵의 크기를 줄이고, 중요한 특징을 추출주로 Max Pooling과 Average Pooling이 사용됨완전 연결 층(Fully Connected Layer, FC Layer)추출된 특징을 바탕으로 최종 예측을 수행 대표적인 CNN 아키텍처 LeNet-5(1998년) 최초의 CNN 모델 중 하나손글..

⊢ DeepLearning 2025.03.20
728x90