2025/03 127

과적합(Overfitting) 방지 기법

과적합 방지 기법 과적합 모델이 훈련 데이터에 너무 과하게 적합(overfit)되어, 새로운 데이터(검증/테스트 데이터)에 대해 일반화 성능이 낮아지는 현상→ 훈련 데이터에선 높은 정확도를 보이지만, 실제 사용 환경에서는 성능이 떨어지는 문제가 발생   정규화와 드롭아웃 정규화 (Normalization) 데이터 분포를 일정한 범위로 조정, 학습 안정성과 수렴 속도를 향상시키고 과적합을 방지 배치 정규화 (Batch Normalization)→ 각 미니배치에 대해 평균과 분산을 정규화→ 학습 속도를 높이고, 과적합을 방지하는 데 도움레이어 정규화 (Layer Normalization)→ 각 레이어별로 정규화 수행 (RNN 등 순차 모델에서 자주 사용) 드롭아웃 (Dropout) 학습 중 임의로 일부 뉴런..

⊢ DeepLearning 2025.03.22

전이학습(Transfer Learning)

전이학습 (Transfer Learning) 기존에 학습된 모델의 지식(가중치 등)을 새로운 문제에 적용하는 머신러닝 기법 대량의 데이터를 활용해 학습한 모델을 기반으로, 새로운 작업에 적은 데이터로도 좋은 성능을 낼 수 있도록 도와줌 전이학습이 필요한 이유데이터 부족새롭게 풀고자 하는 문제에 대한 학습 데이터가 적을 때, 사전 학습된 모델을 활용해 일반화 성능을 끌어올릴 수 있음학습 시간 단축처음부터 모델을 학습하는 것보다 빠르게 수렴성능 향상ImageNet, COCO 등 대규모 데이터셋에서 학습된 모델은 일반적인 시각적 특징을 잘 추출하므로, 특정 도메인에서도 높은 성능을 보일 수 있음 전이학습의 원리 전이학습은 크게 두 가지 방식으로 구분됨특징 추출기(Feature Extractor)미세 조정(Fi..

⊢ DeepLearning 2025.03.22

생성형 모델(Generative Models)

생성형 모델 (Generative Models) 기존 데이터의 분포를 학습하여 새로운 데이터를 생성하는 모델이미지 생성, 텍스트 생성, 음성 합성 등 다양한 분야에서 사용됨  GAN (Generative Adversarial Network) 2014년 Ian Goodfellow 등에 의해 제안된 생성형 신경망 모델 두 개의 신경망, 생성자(Generator)와 판별자(Discriminator)로 구성됨생성자: 가짜 데이터를 생성판별자: 진짜/가짜를 판별두 모델은 적대적으로 경쟁하며 함께 학습함  동작 원리 생성자 (Generator) 입력: 랜덤 노이즈 벡터 z (보통 정규분포에서 샘플링)출력: 가짜 데이터 G(z) 생성 목표: 판별자를 속일 정도로 진짜 같은 데이터 생성 판별자 (Discriminato..

⊢ DeepLearning 2025.03.22

2025.03.21

행복하다~쿠키랑 이브는 격일로 양치를 하기 싫어한다.나는 요새 격일꼴로 샤워를 한다.04:00 취침 08:59 기상ResNet-18구축하고 CIFAR-10 데이터셋을 학습시켰는데 CPU로만 학습시키니까 7시간이 걸린다...MPS로 돌리니까 40분만에 끝난다.어이없다...MPS로 돌렸을 때 성능이 약 1%정도 떨어지긴해도 학습속도 면에서 압도적이다.seed도 랜덤이고 작은 데이터셋에 작은 모델이라 비교는 어렵지만 정확도가 아주 중요한 경우 아니고서야 이미지처리는 MPS로 할 것 같다. 오빠는 오늘 고기가 땡겼는지 저녁에 치킨이랑 불족발이랑 오리고기를 차렸다.덕분에 요새 잘먹는다.ㄴ샤워ㄴ요가 물 한컵 마셨다. 뭔가 생산적인일을 하고 싶다가도 아직 부족한 것 같으면서도 아리까리하다.

2025/미정 2025.03.22

오토인코더(Autoencoder)

오토인코더 (Autoencoder) 입력 데이터를 압축(인코딩)하고, 다시 복원(디코딩)하는 비지도 학습 모델 입력값을 출력값과 가깝게 만드는 방향으로 학습하며, 입력 데이터를 효율적으로 표현하는 잠재 벡터(latent vector)를 학습함  주요 활용 분야차원 축소 (Dimensionality Reduction)노이즈 제거 (Denoising)이상 탐지 (Anomaly Detection)생성 모델 기반 (VAE, GAN 등) 동작 원리 인코더 (Encoder) 입력 데이터를 저차원 잠재 공간으로 압축입력 x 를 잠재 변수 z로 변환𝑥 = f(𝑥) = σ(Wₑ 𝑥 + bₑ) → 중요한 특징을 추출하고, 입력 데이터를 압축  디코더 (Decoder) 잠재 변수 z를 원래의 입력과 유사한 데이터 x̂..

⊢ DeepLearning 2025.03.21

이미지 처리 모델

CNN 기반 이미지 분류 주요 CNN 아키텍처ResNet(Residual Network)VGGInception (GoogLeNet) ResNet (Residual Network) 깊은 신경망에서 발생하는 기울기 소실 문제(Gradient Vanishing를 해결하기 위해 잔차 연결(Residual Connection) 도입) y = F(x) + x → 입력을 직접 다음 층에 더해주는 구조 대표 모델: ResNet-18, ResNet-50, ResNet-101, ResNet-152   VGG 필터 크기를 3x3으로 고정해 단순하고 일관된 구조를 갖춤깊이가 깊어질수록 파라미터 수는 많지만 구조적 이해가 쉬움 대표 모델: VCG16, VCG19 Inception (GoogLeNet) 다양한 크기의 필터(1x1..

⊢ DeepLearning 2025.03.21

AI 활용에 대한 이해: 연구와 활용의 차이

AI 연구 vs.  AI 활용  AI 연구AI 활용목적새로운 알고리즘, 모델 개발기존 AI를 활용한 문제 해결필요 역량수학, 이론, 모델, 구조에 대한 깊은 이해모델 사용법, 실용적 적용 능력예시새로운 음성 인식 알고리즘 개발음성 비서를 만드는 앱 개발→ 연구 : AI의 '뿌리'를 만드는 일, 활용 : AI 연구의 '열매'를 가져다 쓰는 일  AI 활용 도구: API, 사전 학습 모델 API (Application Programming Interface) 복잡한 AI 기능을 인터페이스 형태로 제공직접 모델을 만들지 않아도, AI 기능을 바로 사용 가능 Google Vision API → 이미지를 분석해 객체 인식 가능OpenAI GPT API → 입력한 문장을 바탕으로 자연어 생성https://s2bib..

ResNet(Residual Network)

ResNet(Residual Network) 깊은 신경망을 효과적으로 학습하기 위해 개발된 모델 잔차 학습(Residual Learning) 개념을 도입하여 기울기 소실(Vanishing Gradient)문제를 해결2015년 Microsoft Research에서 개발었으며, ImageNet 챌린지(ILSVRC) 2015에서 우승    신경망의 깊이가 깊어질수록 더 복잡한 패턴을 학습 할 수 있지만, 오차 역전파 시 기울기가 매우 작아지거나 커져 가중치 업데이트가 제대로 이루어지지 않는 기울기 소실(Vanishing Gradient) 또는 기울기 폭발(Exploding Gradient) 문제로 인해 학습이 어려워 짐→ 네트워크를 깊게 쌓을수록 성능이 오히려 저하되는 문제 발생 잔차 학습(Residual L..

⊢ DeepLearning 2025.03.21

2025.03.20

행복하다02:25 취침 10:30 기상잠이 왜이렇게 많아졌지하지만 샤워도하고 요가도 했다. 수리야나마스카라조졌다. 기본이지만 기본이 어렵다.쿠키랑 이브랑 많이 못놀았다.딥러닝 부셔버리고싶다.어텐션 매커니즘에 대해서 다뤘는데 그걸로 뭔가 해보고싶어서 문장넣고 대충 토큰화하고 랜덤리하게 임베딩해서 어텐션 가중치 시각화만 해봤다.재밌었는데 다하니까하찮아서 귀찮다.......알 수 없다......기본이지만 기본이 어렵다.내가 더 똑똑했으면 좋겠다.

2025/미정 2025.03.21

자연어 처리(Natural Language Processing, NLP) 모델

자연어 처리(NLP) 모델 워드 임베딩과 시퀀스 모델링 워드 임베딩(Word Embedding) 기법 단어를 고정된 크기의 벡터로 변환하는 기법단어 간의 의미적 유사성을 반영하여 벡터 공간에서 가까운 위치에 배치벡터 간의 연산을 통해 이미적 관계(예: '왕 - 남자 + 여자 ≈ 여왕')을 파악할 수 있음 → 단어의 의미적 관계를 벡터로 변환하는 핵심 기술 대표적 워드 임베딩 기법Word2Vec (CBOW, Skip-gram)GloVeFastTextELMo (문맥을 반영한 임베딩)  Word2Vec 신경망을 이용해 단어를 벡터로 변환하는 모델로 두 가지 학습 방식 제공 CBOW(Continuous Bag of Words)주변 단어 (Context)로 중심 단어(Target)을 예측하는 방식학습이 빠르고 데..

⊢ DeepLearning 2025.03.20
728x90