하이퍼파라미터(Hyperparameter)
모델 학습 이전에 사용자가 직접 설정해야 하는 값
모델 구조나 학습 과정에 관여하여 모델 성능에 직접적인 영향을 미치는 요소로, 적절한 값의 설정이 중요
*파라미터(Parameter)
학습을 통해 자동결정되는 값
예: 가중치, 편향 등
주요 하이퍼파라미터
학습률 (Learning Rate)
손실 함수의 기울기를 얼마나 반영할지를 결정하는 계수 (모델의 가중치를 업데이트하는 속도 결정)
학습률이 너무 크면 발산할 수 있고, 너무 작으면 수렴이 느려짐
→ 학습률이 너무 크면 불안정, 너무 작으면 학습이 느려짐
η (eta): 학습률
추천 값: 0.1, 0.01, 0.001 등
배치 크기 (Batch Size)
한 번의 가중치 업데이트에 사용하는 데이터 샘플의 개수
작은 배치 → 학습은 느리지만 더 자주 업데이트됨 (일반화에 좋을 수 있음)
큰 배치 → 학습 속도 빠름, 하지만 메모리 소모가 큼
일반적인 값: 32, 64, 128
에포크 수 (Number of Epochs)
전체 데이터셋을 몇 번 반복 학습할지를 나타냄
너무 많으면 과적합(overfitting), 너무 적으면 과소적합(underfitting)
해결책: 조기 종료(Early Stopping) 기법 사용
→ 검증 손실이 더 이상 개선되지 않으면 학습을 중단
모멘텀 (Momentum)
이전 기울기의 관성을 반영하여 진동을 줄이고 더 빠르게 수렴하게 함
γ: 모멘텀 계수
일반적으로 0.9 또는 0.99
가중치 초기화 (Weight Initialization)
신경망의 각 층 가중치를 학습 시작 전에 어떤 값으로 초기화할지 결정하는 방법
예:
Xavier 초기화: tanh/선형 활성화 함수에 적합
He 초기화: ReLU 계열 활성화 함수에 적합
하이퍼파라미터 자동 튜닝 기법
Grid Search
하이퍼파라미터의 모든 조합을 체계적으로 탐색
→ 최적의 조합을 보장
→ 조합 수가 많아질수록 계산량이 기하급수적으로 증가 (비효율적)
Random Search
지정된 범위 내에서 무작위로 조합을 선택
→ 계산 비용이 적고, 높은 차원의 공간에서도 효율적
실제 연구 결과에서 Grid Search보다 좋은 성능을 보이는 경우도 있음
Bayesian Optimization
확률 모델을 활용하여, 다음 탐색할 하이퍼파라미터 조합을 예측적으로 선택
보통 Gaussian Process를 사용
이전의 결과를 바탕으로 학습 → 효율적인 탐색 가능
대표 라이브러리: Optuna, Hyperopt, Spearmint, BayesOpt
하이퍼파라미터 | 의미 | 추천 값 또는 기법 |
학습률 (Learning Rate) | 가중치 업데이트 속도 | 0.1, 0.01, 0.001 |
배치 크기 (Batch Size) | 한 번에 학습할 샘플 수 | 32, 64, 128 |
에포크 수 (Epochs) | 전체 데이터 반복 횟수 | 조기 종료 사용 권장 |
모멘텀 (Momentum) | 기울기 반영 속도 보정 | 0.9, 0.99 |
가중치 초기화 | 초기 가중치 설정 방식 | Xavier, He |
튜닝 기법 | 자동화된 탐색 방법 | Grid, Random, Bayesian |
'⊢ DeepLearning' 카테고리의 다른 글
PyTorch 문법 정리 (0) | 2025.03.22 |
---|---|
모델평가와 검증 (0) | 2025.03.22 |
과적합(Overfitting) 방지 기법 (0) | 2025.03.22 |
전이학습(Transfer Learning) (0) | 2025.03.22 |
생성형 모델(Generative Models) (0) | 2025.03.22 |