자연어 처리(NLP) 모델
워드 임베딩과 시퀀스 모델링
워드 임베딩(Word Embedding) 기법
단어를 고정된 크기의 벡터로 변환하는 기법
단어 간의 의미적 유사성을 반영하여 벡터 공간에서 가까운 위치에 배치
벡터 간의 연산을 통해 이미적 관계(예: '왕 - 남자 + 여자 ≈ 여왕')을 파악할 수 있음
→ 단어의 의미적 관계를 벡터로 변환하는 핵심 기술
대표적 워드 임베딩 기법
- Word2Vec (CBOW, Skip-gram)
- GloVe
- FastText
- ELMo (문맥을 반영한 임베딩)
Word2Vec
신경망을 이용해 단어를 벡터로 변환하는 모델로 두 가지 학습 방식 제공
- CBOW(Continuous Bag of Words)
주변 단어 (Context)로 중심 단어(Target)을 예측하는 방식
학습이 빠르고 데이터가 적을 때 효과적
- Skip-gram
중심 단어(Target)에서 주변 단어(Context)를 예측하는 방식
적은 데이터에서도 일반화 능력이 뛰어남
GloVe (Global Vectors for Word Representation)
전체 코퍼스에서 단어 공기행렬(Co-occurrence Matrix)을 기반으로 임베딩 학습
전역적인 통계를 활용하여 단어 간 의미적 유사성을 학습
Word2Vec보다 희귀 단어에 대한 학습이 우수한 경우가 있음
시퀀스 모델링(Sequence Modeling)
순차적인 데이터를 다루는 모델링 기법
자연어, 음성, 주가 예측, 시계열 데이터 분석 등에 사용됨
- 입력 시퀀스
시퀀스 모델링에서는 입력 데이터가 순차적인 형태로 제공됨
→ 텍스트 데이터는 단어의 시퀀스로 표현 - 은닉 상태
순환 신경망은 이전 시간 단계의 은닉 상태를 현재 시간 단계로 전달하여, 시퀀스의 패턴을 학습 - 출력 시퀀스
시퀀스 모델링의 출력은 입력 시퀀스와 동일한 길이의 시퀀스일 수도 있고, 단일 값일 수도 있음
시퀀스 모델링에 주로 사용되는 신경망과 Transformer
- RNN(Recurrent Neural Network)
- LSTM(Long Short-Term Memory)
- GRU(Gated Recurrent Unit)
- Transformer
RNN (Recurrent Neural Network)
순환 신경망으로, 이전 상태를 기억하여 시퀀스 데이터를 처리
단점으로
장기 의존성 문제(Long-Term Dependency)
기울기 소실 문제(Vanishing Gradient Problem)
가 있음
LSTM (Long Short-Term Memory)
RNN의 단점을 보완한 모델
셀 상태(Cell State)와 게이트(Gate) 구조를 활용해 장기 기억이 가능
장기 의존성을 학습하는 데 유리
GRU (Gated Recurrent Unit)
LSTM을 단순화한 구조
계산량이 적고 성능이 뛰어나 실용적으로 많이 사용됨
Transformer와 BERT
Transformer
RNN없이 시퀀스 데이터를 병렬 처리하는 모델
Self-Attention 메커니즘을 사용하여 단어 간 관계를 학습
Encoder-Decoder 구조로 구성됨
Transformer의 구조와 원리
인코더(Encoder)
입력 시퀀스를 처리하여 인코딩된 표현을 생성
각 인코더 층은 셀프 어텐션(Self-Attention)과 피드포워드 신경망(Feed-Forward Neural Network)으로 구성
디코더(Decoder)
인코딩된 표현을 바탕으로 출력 시퀀스를 생성
각 디코더 층은 셀프 어텐션, 인코더-디코더 어텐션, 피드포워드 신경망으로 구성
Self-Attention 메커니즘
https://s2bibiprincess.tistory.com/180
생성형 AI, LLM (Large Language Model), Transformer
현대 인공지능 기술의 발전은 생성형 AI, LLM, Transformer라는 세 가지 주요 개념을 중심으로 이해할 수 있다. 이들은 서로 다른 역할과 특징을 가지며, 주요 기술적 기초와 응용 사례를 통해 현대 AI
s2bibiprincess.tistory.com
Transformer의 주요 구성 요소
Self-Attention
입력 단어가 다른 단어들과 얼마나 관련 있는지 가중치를 부여
멀티 헤드 어텐션(Multi-Head Attention)
여러 개의 어텐션 메커니즘을 병렬로 적용해 정보 학습
포지셔널 인코딩(Positional Encoding)
순서 정보가 없는 Transformer에서 단어의 위치 정보를 추가
Transformer 전체 동작 과정
- 입력 문장 → 인코더
Self-Attention을 사용하여 문장의 의미를 학습
Multi-Head Attention을 통해 다양한 패턴을 학습 - 인코더의 결과 → 디코더로 전달
디코더는 인코더가 생성한 정보를 활용하여 최종적인 출력을 생성
디코더의 Multi-Head Attention에서 인코더의 정보를 활용하여 새로운 문장을 생성 - 출력 생성
번역 모델이라면 번역된 문장, 질문 응답 모델이라면 입력 질문을 바탕으로 적절한 답변 생성
BERT(Bidirectional Encoder Representations from Transformers)
Transformer 인코더만 사용한 사전 학습된 모델 (Transformer를 활용한 대표적인 모델)
문맥을 양방향(Bidirectional)으로 이해 가능
사전 학습 후 다양한 NLP 태스크에 파인튜닝 가능
BERT의 사전 학습 방법
Maked Language Model(MLM)
문장에서 일부 단어를 마스킹(masking)한 후, 이를 예측하는 방식
Next Sentence Prediction(NSP)
두 개의 문장을 주고, 두 번째 문장이 첫 번째 문장 다음에 오는지 예측
BERT의 응용 분야
- 감성 분석 (Sentiment Analysis)
- 질의응답 (Question Answering)
- 기계 번역 (Machine Translation)
- 문서 요약 (Text Summarization)
- 개체명 인식 (Named Entity Recognition, NER)
NLP에서 최신 모델들은 사전 학습(Pre-training) 후 파인튜닝(Fine-tuning)하여 다양한 태스크에 적용됨
'⊢ DeepLearning' 카테고리의 다른 글
이미지 처리 모델 (0) | 2025.03.21 |
---|---|
ResNet(Residual Network) (2) | 2025.03.21 |
어텐션(Attention) 메커니즘 (1) | 2025.03.20 |
순환 신경망(Recrurrent Neural Network, RNN) (0) | 2025.03.20 |
합성곱 신경망(Convolutional Neural Network, CNN) (5) | 2025.03.20 |