⊢ DeepLearning

이미지 처리 모델

최 수빈 2025. 3. 21. 21:57

 

CNN 기반 이미지 분류

 

주요 CNN 아키텍처

  • ResNet(Residual Network)
  • VGG
  • Inception (GoogLeNet)

 

ResNet (Residual Network)

 

깊은 신경망에서 발생하는 기울기 소실 문제(Gradient Vanishing를 해결하기 위해 잔차 연결(Residual Connection) 도입)

 

y = F(x) + x

 

→ 입력을 직접 다음 층에 더해주는 구조

 

대표 모델: ResNet-18, ResNet-50, ResNet-101, ResNet-152

 

 

VGG

 

필터 크기를 3x3으로 고정해 단순하고 일관된 구조를 갖춤

깊이가 깊어질수록 파라미터 수는 많지만 구조적 이해가 쉬움

 

대표 모델: VCG16, VCG19

 

Inception (GoogLeNet)

 

다양한 크기의 필터(1x1, 3x3, 5x5)를 병렬로 적용하는 Inception 모듈 도입

하나의 레이어에서 다양한 수준의 특징(feature)을 추출 가능

네트워크의 깊이와 너비를 동시에 확장

 

대표 모델: Inception v1 (GoogLeNet), Inception v2~v4

 

 

 

객체 탐지(Object Detection) - YOLO

 

YOLO (You Only Look Once)

 

CNN을 골라서 백본(Backbone)으로 삼고, 그 위에 Detection Head를 얹어서 객체 탐지 기능을 수행하는 구조

 

전체 이미지를 한 번에 처리하여 객체의 위치 + 클래스를 동시에 예측

빠른 연산 속도와 높은 정확도 보유 → 실시간 객체 탐지에 적합

 

 

작동 방식

  1. 이미지를 SxS 그리드로 분할
  2. 각 셀에서 B개의 바운딩 박스와 C개의 클래스 확률 예측
  3. Confidence score를 기준으로 객체 결정

 

YOLO 구조

 

CNN 기반으로 특징 맵(feature map)을 생성

Grid cell 단위로 객체 존재 유무 + 바운딩 박스 좌표 + 클래스 확률을 예측

 

  1. Backbone (특징 추출기) → Darknet-53 (CNN 아키텍처)
  2. Neck (중간 연결) → Feature Pyramid Network (FPN)
  3. Head (예측기) → 바운딩 박스 + 클래스 예측

(YOLOv3기준)

 

비교적 단순한 구조 + 빠른 속도 덕분에 다양한 분야에 활용됨

 

 

이미지 세그멘테이션 (Image Segmentation)

 

이미지의 각 픽셀을 레이블링하는 작업으로, 더욱 정밀한 분석 가능

 

  • 시맨틱 세그멘테이션 (Semantic Segmentation)
    같은 클래스의 픽셀들을 같은 라벨로 분류
  • 인스턴스 세그멘테이션 (Instance Segmentation)
    같은 클래스 내에서도 각 객체 개별 구분

 

주요 세그멘테이션 모델

 

FCN(Fully Convonlutional Network)

→ 전통적인 CNN에서 FC 레이어 제거

→ 모든 층을 합성곱 계층으로 구성해 픽셀 단위 예측 수행

 

U-Net

→ 의료 영상 분석에서 처음 도입

→ 인코더(수축)와 디코더(확장)로 구성된 U자형 구조

 

Mask R-CNN

 체 탐지 + 인스턴스 세그멘테이션을 동시에 수행

→ Faster R-CNN에 마스크 브랜치를 추가한 구조