
RNN 계열의 논문
1. RNN : Recurrent neural network based language model (2010)
2. LSTM : Long Short Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling (2014)
cell state 도입으로 vanilla RNN의 기울기 소실등의 문제 해결 시도
3. GRU : Learning Phrase Representation using RNN Encoder-Decoder for Stistical Machine Translation (2014)
LSTM에 비해 계산량을 줄이고 간소화 시킴
4. Seq2Seq : Sequence to Sequence Learning with Neural Networks (2014)
서로 다른 길이의 입력과 출력 시퀀스를 처리할 수 있도록 인코딩-디코딩 구조를 도입
Attention Mechanism 등장, 입력 시퀀스 전체에서 정보 추출하는 방향으로 발전
5. Attention : Neural Machine Translation by Jointly Learning to Align and Translate (2015)
텐션 메커니즘을 도입하여 Seq2Seq 모델의 한계였던 고정된 컨텍스트 벡터 문제를 해결
6. Transformer : Attention is All You Need (2017)
RNN이나 CNN 없이 오직 어텐션 메커니즘만으로 작동하는 새로운 구조를 제안.
병렬 처리가 가능하여, 대규모 데이터 처리에서 뛰어난 성능
Word Embedding방식에 대한 정리
7. Word2Vec : Efficient Estimation of Word Representations in Vector Space (2013)
단어 간의 유사성을 벡터 간의 거리로 측정할 수 있도록 임베딩 방법을 제안
8. GloVe : Global Vectors for Word Representation (2014)
전역적인 통계 정보를 사용하여 단어 간의 관계를 더 정확하게 모델링
9. FastText : Enriching Word Vectors with Subword Information (2016)
FastText는 단어를 구성하는 부분 단위(서브워드) 정보를 포함시켜 드문 단어에 대해서도 더 좋은 벡터 표현을 학습할 수 있도록 임베딩
10. ELMo : Deep contextualized word representations (2018)
단어의 문맥 정보를 깊이 있게 반영한 임베딩 기법을 제안하여, 각 단어의 의미가 문맥에 따라 변화할 수 있도록 임베딩
Transformer Architecture를 Pretrained 하는 방향으로 발전
11. GPT-1 : Improving Language Understanding by Generative Pre-Training (2018)
기존 언어모델에서는 활용할 방법이 없던 Unlabeled Data를 사용한 Generative Pre-Training을 효과적으로 활용할 수 있는 방법을 고민하고, 이에 초점을 맞춰 모델을 개발
Transformer에서 Encoder는 제외하고 Decoder만을 가져와 사용
12. BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
기존 트랜스포머 기반 모델인 GPT-1은 한방향으로만 학습(Unidirectional)해야 한다는 것이 단점이라 생각하여 양방향으로 문장을 읽으며 문맥을 이해할 수 있는 모델 개발에 초점
13. GPT-2 : Language Models are Unsupervised Multitask Learners (2018)
각각의 task에 대한 train dataset을 만들고 labeling할 필요가 없는, 많은 task를 수행할 수 있는 general system을 만들고자 language modeling 부분을 개선
지도 학습 데이터의 필요성을 제거하고 파인 튜닝 없이 다양한 태스크를 수행할 수 있는 일반적인 언어 모델의 가능성을 제시
14. RoBERTa : RoBERTa: A Robustly Optimized BERT Pretraining Approach (2019)
기본적인 구조는 전부 BERT를 따라가며 기존 BERT 모델에 비해 RoBERTa에서 추가되는 부분은 다음과 같다.
(1) dynamic masking
(2) NSP 제거
(3) 더 긴 시퀀스로 학습
(4) 더 많은 데이터 사용하여 더 큰 배치로 학습
15. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations (2019)
과연 큰 NLP 모델이 반드시 좋은 성능으로 이어지는가?에 대한 의의로 시작
BERT에 parameter reduction 기법을 적용시킨 ALBERT를 제시. 모델이 사용한 두 가지 모델 축소 기술을 통해 안정성, 빠른 속도, 그리고 더 나은 성능이라는 이점을 가진 모델을 제작
16. ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators (2020)
Google Brain 팀은 새로운 사전 학습 방법론으로 ELECTRA를 제안
사전 학습에서의 효율성을 개선하여 BERT보다 빠르게 사전 학습 할 수 있으면서 downstream task에서도 높은 성능
17. XLNet : Generalized Autoregressive Pretraining for Language Understanding (2019)
AE방식의 언어모델인 BERT의 장점과 AR방식의 언어 모델인 GPT의 장점을 갖춘 Permutation language modeling을 사용하여 여러 자연어 처리 태스크에서 SOTA를 달성
objective function에 따라 pre-trained language models은 세가지 카테고리로 나눌 수 있음
unidirectional language model - Natural Language Generation - e.g. GPT
bidirectional language model - Natural Language Understand - e.g. BERT
hybrid language model - combining the first two paradigm - e.g. XLNet
18. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2019) - T5
T5는 Text-to-Text Transfer Transformer인데, T가 다섯 개나 들어가서 T5라고 네이밍
모든 NLP task는 Text-to-text 문제로 취급할 수 있다는 아이디어에서 출발
생성 뿐만 아니라 classification, regression 등의 문제도 Text-to-text로 해결하려 시도. 이렇게 모든 task들을 하나의 접근 방식으로 접근하게 된다면 다양한 downstream task에 동일한 모델, 학습 기법, 디코딩 프로세스 등을 적용할 수 있음
19. GPT-3 : Language Models are Few-Shot Learners (2020)
기존의 가장 큰 모델보다 거의 10배 많은 파라미터를 넣을 정도로 큰 모델을 사용
Zero Shot, One Shot 환경에서 여러 NLP 태스크를 높은 수준으로 수행
20. Training language models to follow instructions with human feedback (2022) - InstructGPT
GPT 계열 모델에 사람의 피드백(랭킹, 튜닝 등)을 반영하여 모델이 실제 사용자 지시나 질문에 보다 유용하고 안전하게 답변하도록 개선한 연구
대규모 언어 모델이 ‘instruction following’에 초점을 맞추도록 학습 전략을 제안하여, 상호작용형 태스크에서 모델의 활용성을 극대화
21. FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS (2022) - FLAN
다양한 태스크에 대한 지시(prompt) 및 문제 형식을 모델 학습 과정에서 미리 반영해 두면, 파인튜닝된 모델이 추가 학습 없이도(zero-shot) 여러 새로운 문제를 풀 수 있음을 보인 연구
Prompt 중심 학습 구조를 체계화함으로써, 인공지능 모델이 보유한 잠재적 제너럴리티를 극대화하는 방법론을 제시
22. LLaMA: Open and Efficient Foundation Language Models (2023) - LLaMA
Meta에서 공개한 대규모 언어 모델로, 상대적으로 적은 자원으로도 학습 및 추론이 가능하도록 설계된 효율적인 아키텍처가 특징
커뮤니티가 연구∙개발에 직접 활용할 수 있도록 모델 가중치를 공개해, LLM 연구의 개방형 생태계 발전에 기여
Llama 2: Open Foundation and Fine-Tuned Chat Models (2023)
LLaMA의 후속 버전으로 대규모 데이터와 개선된 학습 전략을 도입하여 성능을 높인 모델
GPT-4 Technical Report (2023)
OpenAI가 공개한 GPT-4의 기술 보고서로, 멀티모달(multi-modal) 입력 처리 능력과 한층 진화된 추론 능력을 소개한 문헌
언어 모델의 안전성, 해석 가능성, 그리고 추론 능력 측면에서 한 단계 도약한 결과
* Parameter-Efficient Fine Tuning (PEFT) : LLM fine-tuning하는 method 중 하나
23. LoRA: Low-Rank Adaptation of Large Language Models (2021)
대규모 언어 모델을 미세조정할 때 전체 파라미터를 업데이트하지 않고, 저차원(rank)을 활용한 방법만 업데이트함으로써 학습 비용을 크게 줄이는 방법을 제안
Parameter-Efficient Fine Tuning(PEFT)의 핵심 기법으로 자리매김하여, 다양한 규모의 모델에 손쉽게 적용 가능함을 보여주었다
24. GPT Understands, Too (2021) : Prefix Tuning
prefix 형태의 가중치만 학습하여, 모델 전체 파라미터를 건드리지 않고도 특정 태스크 적합도를 높이는 접근 방식을 제안
적은 양의 파라미터 수정만으로 성능 향상을 가능케 하여, 파인튜닝 비용 및 시간 감소에 크게 기여
+) P-Tuning: Prompt Tuning Can Be Comparable to Fine-tuning Across Scales and Tasks : P-tuning v2 논문
텍스트 앞부분(prompt)에 임베딩 형태로 학습 가능한 파라미터를 삽입하여, 모델이 태스크에 쉽게 적응하도록 하는 프롬프트 튜닝 기법을 제시
전통적인 풀 파라미터 파인튜닝과 견줄 수 있는 성능을 보여주어, 다양한 NLP 태스크에서 모델 경량화와 유연성을 동시에 확보
25. Towards a Unified View of Parameter-Efficient Transfer Learning (2022) : Adapter
모델 내부에 어댑터(adapter) 모듈을 추가해, 전체 파라미터를 재학습할 필요 없이 특정 태스크에 맞춰 성능을 높이는 기법을 정리 및 확장
파라미터 효율적 전이학습(PEFT) 분야에서 다양한 기법들의 공통점을 조망하고, 통합적인 관점에서 비교∙분석을 제시
+) LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of Large Language Models (2023)
거대한 언어 모델에 특화된 어댑터 기법들을 체계적으로 분류, 분석하고, 실제 적용 시 고려사항 및 성능 지표를 제시
LLM 연구자들이 쉽게 접목할 수 있는 다양한 어댑터 아키텍처를 제안함으로써, 모델 활용 효율성을 극대화
Quantization 논문
26. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale (2022)
대규모 트랜스포머 모델을 8비트 정밀도로 연산할 수 있도록 최적화하여, 메모리 사용량 및 추론 시간을 획기적으로 단축
고정밀 성능과 거의 유사한 성능을 유지하면서도 훨씬 적은 자원으로 대규모 모델을 다룰 수 있도록 하여, LLM 경량화 연구에 중요한 이정표가 됨
27. QLoRA: Efficient Finetuning of Quantized LLMs (2023)
LoRA와 양자화 기법을 결합하여, 이미 quantization된 모델에서도 극히 적은 양의 학습 파라미터만 수정하여 고성능을 달성할 수 있음을 보인 기법
대규모 모델의 추론 및 파인튜닝 효율성을 동시에 해결함으로써, LLM 실사용 및 배포 측면에서 높은 활용도를 기대하게 만듬
'DATA, AI' 카테고리의 다른 글
GPU의 제한된 vram 환경에서 효율적으로 모델을 학습하는 방법 (1) | 2024.11.20 |
---|---|
huggingface로 협업하기 (2) | 2024.10.29 |
입출력 형태에 따른 자연어 처리 Task의 이해 (2) | 2024.10.02 |
PyTorch: torch.bmm,matmul,mm 그리고 Attention 가중치의 계산 (0) | 2024.09.07 |
데이터의 분석 : seaborn plot의 활용 (0) | 2024.08.26 |
개발새발라이프
hi there🙌