본문 바로가기
NLP

딥러닝 기반 NLP 모델들

by 아르카눔 2024. 3. 6.

Figure 1. Pretrained Language Model

 

 

Transformer 이후 이에 기반한 많은 모델들이 나왔고 LLM까지 등장했다.

LLM은 모델도 크고, 데이터도 크기 때문에 개인이나 소규모 기업들이 직접 학습시키기 어렵다.

하지만 LLM은 GLUE에서 좋은 성능을 거두는 경우도 많고, 오픈소스인 경우도 많아서

직접 모델을 학습할 수 없는 사람이나 집단은 pretrained model을 가져와서

tuning하거나 transfer learning의 방법으로 각자의 문제를 풀 수 있게 되었다.

따라서 이런 PLM (Pretrained Langauge Model)을 아는 것은 중요하다.

 

Figure 2. Types of LMs

 

기본적으로 Transformer는 Multi-head Attention과 Self-Attention, Encoder, Decoder 구조를 지니고 있다.

여기서 Encoder만 활용한 모델, Decoder만 활용한 모델 Encoder와 Decoder를 모두 활용한 모델 등으로 갈라지게 된다.

 

BERT (Bidirectional Encoder Representations from Transformers)는 대표적인 인코더 구조 모델이다.

BERT는 MLM(Masked Language Modeling)과 NSP(Next Sentence Prediction)으로 학습한 모델이다.

Encoder 모델은 양방향으로 학습하기 때문에 텍스트의 이해에 적합하다.

여러 NLP 태스크 중에서 문장분류, 클러스터링, NER, QA 등에 많이 쓰인다.

 

GPT-2 (Generative Pretrained Transformer 2)는 대표적인 디코더 구조 모델로 생성에 강하다.

GPT-2는 CLM (Causal Language Modeling)의 태스크를 이용해 학습한 모델이다.

Decoder 모델은 한쪽 방향으로 학습하며, 생성에 적합한 모델이다.

 

BART (Bidirectional Auto Regressive Transformers)는 인코더 디코더 구조 모델이다.

BERT처럼 양방향을 모두 고려하지만 GPT처럼 단방향으로 예측하는 특성도 포함하고 있다.

이 GPT처럼 학습하는 특성을 Auto Regressive라고 여기서는 명명한다.

대규모 Seq2Seq 학습 모델로, 임의로 변형된 문서를 되돌리는 denoising autoencoder 구조를 지닌다.

Encoder-Decoder 모델은 양쪽 방향 학습과 한쪽 방향 학습 모두 있기 때문에

입력과 출력 모두 중요한 Machine Translation, QA, Summarization에 쓰인다.

 

 

 

딥러닝 기반 NLP 응용분야

형태소 분석과 품사 태깅

카카오의 Khaiii

Character-Level Bidirectional LSTM-CRF

 

의미역 분석

BERT와 LSTM-CRF 동시 사용

 

개체명 인식 (NER)

Transformer 기반

RNN 기반

 

질의응답(QA)와 Machine Reading Comprehension (MRC)

Dense Passage Retrieval

Information Retrieval (IR) to Reader

Siamese Networks

Bidirectional Attention Flow QA

Compare-Aggregate Network QA

 

NMT (Neural Machine Translation, 신경망 기반 기계 번역)

Transformer

 

 

Text Extraction and Summarization

BART

KoBART

BERTSum

STEP (Sequence-To-Sequence Pre-training)

PEGASUS (Pre-training with Extracted Gap-sentences for Abstractive Summarization)

 

Diaglogue System

Task-Oriented Dialouge (TOD) vs Open-domain Dialogue (ODD)

TOD-BERT

 

Text Generation

GPT

 

 

 

References:

[업스테이지] AI 심화 학습 - NLP

https://huggingface.co/blog/long-range-transformers

https://tech.kakao.com/2018/12/13/khaiii/

https://www.letr.ai/blog/tech-20210730

https://velog.io/@changyong93/5%EA%B0%95-Passage-Retrieval-Dense-Embedding

https://www.samsungsds.com/kr/insights/techtoolkit_2021_qa.html

https://velog.io/@jeewoo1025/ACL2020-Tutorial-Open-Domain-Question-Answering-ver3

https://kicarussays.tistory.com/42

https://vaclavkosar.com/ml/Encoder-only-Decoder-only-vs-Encoder-Decoder-Transfomer

https://moon-walker.medium.com/transformer%EB%A5%BC-%EC%9D%B4%EC%9A%A9%ED%95%9C-%EB%8C%80%ED%91%9C%EC%A0%81%EC%9D%B8-nlp-%EB%AA%A8%EB%8D%B8%EC%9D%98-%EC%A2%85%EB%A5%98-%EC%A0%95%EB%A6%AC-a455810193ae

 

 

 

'NLP' 카테고리의 다른 글

GRU 모델 설명  (0) 2024.04.11
LSTM 모델 설명과 PyTorch Implementation  (0) 2024.04.09
GLUE, SuperGLUE, KLUE, Huggingface LB  (0) 2024.03.04
자연어처리 (NLP) 기초  (0) 2024.02.29
LLM Models and Applications  (0) 2024.02.23