CNN 기반 이미지 분류
주요 CNN 아키텍처
- ResNet(Residual Network)
- VGG
- Inception (GoogLeNet)
ResNet (Residual Network)
깊은 신경망에서 발생하는 기울기 소실 문제(Gradient Vanishing를 해결하기 위해 잔차 연결(Residual Connection) 도입)
y = F(x) + x
→ 입력을 직접 다음 층에 더해주는 구조
대표 모델: ResNet-18, ResNet-50, ResNet-101, ResNet-152
VGG
필터 크기를 3x3으로 고정해 단순하고 일관된 구조를 갖춤
깊이가 깊어질수록 파라미터 수는 많지만 구조적 이해가 쉬움
대표 모델: VCG16, VCG19
Inception (GoogLeNet)
다양한 크기의 필터(1x1, 3x3, 5x5)를 병렬로 적용하는 Inception 모듈 도입
하나의 레이어에서 다양한 수준의 특징(feature)을 추출 가능
네트워크의 깊이와 너비를 동시에 확장
대표 모델: Inception v1 (GoogLeNet), Inception v2~v4
객체 탐지(Object Detection) - YOLO
YOLO (You Only Look Once)
CNN을 골라서 백본(Backbone)으로 삼고, 그 위에 Detection Head를 얹어서 객체 탐지 기능을 수행하는 구조
전체 이미지를 한 번에 처리하여 객체의 위치 + 클래스를 동시에 예측
빠른 연산 속도와 높은 정확도 보유 → 실시간 객체 탐지에 적합
작동 방식
- 이미지를 SxS 그리드로 분할
- 각 셀에서 B개의 바운딩 박스와 C개의 클래스 확률 예측
- Confidence score를 기준으로 객체 결정
YOLO 구조
CNN 기반으로 특징 맵(feature map)을 생성
Grid cell 단위로 객체 존재 유무 + 바운딩 박스 좌표 + 클래스 확률을 예측
- Backbone (특징 추출기) → Darknet-53 (CNN 아키텍처)
- Neck (중간 연결) → Feature Pyramid Network (FPN)
- Head (예측기) → 바운딩 박스 + 클래스 예측
(YOLOv3기준)
비교적 단순한 구조 + 빠른 속도 덕분에 다양한 분야에 활용됨
이미지 세그멘테이션 (Image Segmentation)
이미지의 각 픽셀을 레이블링하는 작업으로, 더욱 정밀한 분석 가능
- 시맨틱 세그멘테이션 (Semantic Segmentation)
같은 클래스의 픽셀들을 같은 라벨로 분류 - 인스턴스 세그멘테이션 (Instance Segmentation)
같은 클래스 내에서도 각 객체 개별 구분
주요 세그멘테이션 모델
FCN(Fully Convonlutional Network)
→ 전통적인 CNN에서 FC 레이어 제거
→ 모든 층을 합성곱 계층으로 구성해 픽셀 단위 예측 수행
U-Net
→ 의료 영상 분석에서 처음 도입
→ 인코더(수축)와 디코더(확장)로 구성된 U자형 구조
Mask R-CNN
→ 객체 탐지 + 인스턴스 세그멘테이션을 동시에 수행
→ Faster R-CNN에 마스크 브랜치를 추가한 구조
'⊢ DeepLearning' 카테고리의 다른 글
생성형 모델(Generative Models) (0) | 2025.03.22 |
---|---|
오토인코더(Autoencoder) (0) | 2025.03.21 |
ResNet(Residual Network) (2) | 2025.03.21 |
자연어 처리(Natural Language Processing, NLP) 모델 (0) | 2025.03.20 |
어텐션(Attention) 메커니즘 (1) | 2025.03.20 |