
Background
1. 기존 연구의 한계
BERT 논문이 나타나기 이전에도 언어 모델을 사전 훈련한 후에 task에 대해서 feature-based 모델을 만들거나 fine-tuning하는 방식이 인기를 끌었다. BERT가 나타나기 이전에 나온 대표적인 모델은 GPT-1으로 많은 양의 데이터를 학습된 pre-trained model이며 fine-tuning을 통해 성능을 보장했기에 상당한 인기를 얻었다.
그러나 GPT-1과 같은 기존 모델들은 오토레그레시브(Autoregressive) 방식을 사용하는 디코더 모델이기 때문에, LSTM이나 RNN처럼 결국에는 문제를 해결하기 위해서 문장을 학습할 때에 순차적으로( LTR; Left-to-Right ) 읽을 수 밖에 없다는 문제점을 지니고 있다. (추가로 ELMo가 순방향 언어 모델과 역방향 언어 모델을 모두 사용하기 때문에 Bidirectional lanuage model이라고 생각할 수 있지만, ELMo는 각각의 단방향(순방향,역방향) 언어모델의 출력값을 concat해서 사용하기 때문에 하나의 모델 자체는 단방향이다.)
단어 임베딩의 경우 Transformer를 사용해서 Attention을 통해 관계성을 잘 파악하도록 만들어낼 수 있지만, 결국에 예측을 해야할 때는 단반향으로 읽어서 예측해야 하기에 이전 토큰을 참조해야한다는 단점이 있다. 이러한 문제는 다음 문장에 대한 예측이나 문장의 빈칸에 대한 예측을 할 때에 상당히 치명적으로 다가오게 된다.
이러한 단방향(Left-to-Right) 학습으로 인한 순차적 처리, 문맥 이해의 부족을 해결하기 위해 나온 것이 BERT 모델이다.
2. feature-based와 fine-tuning
BERT는 기본적으로 fine-tuning을 기반으로 하는 모델이다. 논문에 대한 내용을 들어가기 전에 fine - tuning과 feature-based에 대해 이해해보자.
Abstract
BERT는 Bidirectional Encoder Representations from Transformers의 약자이다. 최근의 언어 표현 모델들과 달리 BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥을 모두 조건화하여 비지도 학습된 텍스트로부터 양방향 표현을 사전 학습하도록 설계되었다.
TBD
'논문리뷰 > Language Model' 카테고리의 다른 글
개발새발라이프
hi there🙌