⊢ DeepLearning

신경망의 기본 원리 - 퍼셉트론과 다층 퍼셉트론

최 수빈 2025. 3. 18. 19:48

 

인공신공망의 기본 단위 : 퍼셉트론

 

단일 퍼셉트론

 

https://s2bibiprincess.tistory.com/168

 

Perceptron(퍼셉트론)

Perceptron(퍼셉트론)  인공 신경망(Artificial Neural Network, ANN)의 가장 단순한 형태로, 인공 뉴런 모델 중 하나이진 분류 문제를 해결하기 위해 설계된 알고리즘으로, 입력 데이터를 받아 두 개의 클

s2bibiprincess.tistory.com

 

 

단순 퍼셉트론은 선형 분류만 가능하며, 비선형 문제(XOR 등)는 해결할 수 없음

 

 

다층 퍼셉트론(MLP)과 XOR 문제 해결

 

 

다층 퍼셉트론(MLP, Multi-Layer Perceptron, MLP)

 

은닉층이 추가되면서 신경망이 비선형성을 학습할 수 있게 되며, 단순 퍼셉트론으로 해결할 수 없는 문제도 해결 가능

 

  • 입력층(Input Layer)
    데이터의 특징(feature)들이 입력되는 층
    입력 레이어의 뉴런 수 == 입력 데이터의 특징 수
  • 은닉층(Hidden Layer)
    신경망 내부의 데이터 변환을 수행하여 복잡한 패턴을 학습하는 층
    은닉 레이어의 뉴런 수와 층 수는 모델의 복잡성과 성능에 영향을 미침
  • 출력층(Output Layer)
    최종 예측 결과를 반환하는 층
    출력 레이어의 뉴런 수는 예측하려는 클래스 수 또는 회귀 문제의 출력 차원과 동일

 

XOR(Exclusive OR, 배타적 논리합) 문제 해결

 

XOR 문제는 비선형 결정 경계를 가지는데, 단일 퍼셉트론은 선형 결정 경계만을 학습할 수 있기 때문에 XOR 문제를 해결할 수 없음

→ MLP는 은닉층을 추가하여 비선형성을 학습할 수 있으므로 XOR 문제 해결 가능

 

활성화 함수

 

뉴런이 학습할 때, 입력과 출력 사이의 관계를 비선형적으로 만들어주는 역할을 함

비선형성을 도입하지 않으면 신경망이 단순 선형 변환만 수행, 다층 구조의 의미가 없어짐

 

주요 활성화 함수

활성화 함수 수식 특징
ReLU (Rectified Linear Unit) f(x) = max(0, x) 간단한 연산, 기울기 소실 문제(vanishing gradient problem) 완화
죽은 ReLU 문제(음수 입력 시 기울기 0)가 발생할 수 있음
Sigmoid f(x) = 1 / 1 +e⁻˟ 출력 값이 0~1 사이로 제한되어 확률 표현에 적합
기울기 소실 문제 발생 가능, 출력 값이 0 또는 1에 가까워질 때 학습이 느려질 수 있음
Tanh (Hyperbolic Tangent) f(x) =e˟-e⁻˟ / e˟+e⁻˟ 출력 범위가 -1~1로 조정되어 Sigmoid보다 안정적이지만 여전히 기울기 소실 문제가 존재

 

 

손실 함수와 최적화 알고리즘

 

손실 함수(Loss Function)

 

신경망이 학습할 때, 예측값과 실제값의 차이를 정량적으로 평가

모델이 학습하는 동안 손실(loss)을 최소화하는 방향으로 가중치를 조정

 

모델의 성능을 평가하고, 최적화 알고리즘을 통해 모델을 학습시키는데 사용됨

 

주요 손실 함수

 

손실 함수 수식 특징
MSE(Mean Squared Error) MSE = (1 / N) Σ [ (ŷ - y)² ] 회귀 문제에서 주로 사용
예측 오류가 클수록 더 큰 페널티를 부여
Cross-Entropy L = - [ y log(ŷ) + (1 - y) log(1 - ŷ) ] 분류 문제에서 사용
예측 확률이 실제 값과 다를수록 손실이 커짐

 

 

최적화 알고리즘의 개념과 종류

 

최적화 알고리즘(Optimization Algorithm)의 개념

 

모델이 손실 함수를 최소화하도록 가중치와 바이어스를 조정하는 방법

손실 함수의 기울기를 계산하고, 가중치를 업데이트

 

일반적으로 경사 하강법(Gradient Descent)기반의 방법들이 사용됨

 

 

주요 최적화 알고리즘

SGD(Stochastic Gradient Descent) 데이터의 일부만 사용하여 가중치를 갱신하는 방식
속도는 빠르지만 최적점에 도달하기까지 진동이 발생할 수 있음
Adam(Adaptive Moment Estimation) SGD보다 발전된 방법으로,
학습률을 적응적으로 조정하며 빠르고 안정적인 학습 가능

 

 

 

역전파 알고리즘(Backpropagation)

 

신경망이 오차를 줄이기 위해 가중치를 조정하는 과정

출력층에서 입력층 방향으로 손실 함수를 미분하여 가중치를 갱신

 

 

역전파의 수학적 원리

 

연쇄 법칙(Chain Rule)을 사용하여 손실 함수의 기울기(Gradient)를 역전파

각 층에서의 미분 값은 이전 층의 미분 값과 현재 층의 미분 값을 곱하여 계산됨

→ 이 과정이 반복되면서 신경망의 모든 가중치가 업데이트

 

∂L/∂w = (∂L/∂y) ⋅ (∂y/∂w)

 

L : 손실 함수

w : 가중치

y : 활성화 함수의 출력

 

역전파의 핵심 과정

  1. 순전파(Forward Propagation) : 입력 데이터가 신경망을 통과하여 출력을 생성
  2. 손실 계산(Loss Calculation) : 예측 값과 실제 값의 차이를 계산
  3. 역전파(Backward Propagation) : 연쇄 법칙을 이용해 손실을 각 층으로 전달
  4. 가중치 업데이트(Weight Update) : 최적화 알고리즘을 사용해 가중치 조정

 


 

  • 퍼셉트론은 선형 분류기로 XOR같은 비선형 문제를 해결할 수 없음 → MLP(다층 퍼셉트론) 사용 필요
  • 활성화 함수는 비선형성을 추가하여 신경망이 복잡한 패턴을 학습하도록 함
  • 손실 함수는 모델의 예측 성능을 평가하는 역학을 함
  • 최적화 알고리즘을 통해 손실을 최소화하도록 가중치를 조정
  • 역전파는 출력층에서 입력층 방향으로 오차를 전파하여 신경망을 학습시킴