[논문 리뷰]PERL(PE-RLHF); Parameter Efficient Reinforcement Learning from Human Feedback
논문리뷰/Language Model2025. 3. 2. 22:18[논문 리뷰]PERL(PE-RLHF); Parameter Efficient Reinforcement Learning from Human Feedback

최근 RLHF논문을 읽고, LLM Post-training 키워드를 전반적으로 정리했다.그러다 LoRA와 같은 Parameter Efficient Fine Tuning과 Preference Tuning이 목적성은 다르지만 출력을 개선하기 위해 파라미터를 업데이트 한다는 관점에서 보면 같은 방향성을 가진다고 생각했고, RLHF에 Adapter의 개념을 결합하면 효율적인 Preference Tuning이 되지 않을까? 하는 생각이 들었다. 서치 결과 Parameter Efficient Reinforcement Learning from Human Feedback; PE-RLHF라는 관련 논문이 2024년 9월에 프리프린트되어 있어 해당 논문을 리뷰한다. Abstract 해당 논문은 LORA: LOW-RANK ..

[논문리뷰] RLHF;Training language models to follow instructions with human feedback
논문리뷰/Language Model2025. 2. 23. 13:18[논문리뷰] RLHF;Training language models to follow instructions with human feedback

RLHF(Reinforcement Learning from Human Feedback)는 Pre-trained LLM이 사람의 기대나 선호도에 부합하도록 보상을 최적화하며 모델의 ‘Policy(응답 방식)’을 조정하는 방법이다. LLM Development Process Post-training 단계에 속하며, 사람의 지시(Instruction)에 따르도록 하는 명시적 의도와 편향이나 해로움을 최소화하려는 암묵적 의도 모두를 충족하도록 LM을 Alignment하는 것을 목적으로 한다. Background Reinforcement Learning의 keyword와 LLM 관점에서의 시각RLHF의 개념을 이해하기 위해 간단한 RL keyword를 정리한다.강화학습이란, agent가 Environment와 상..

SoundStream: An End-to-End Neural Audio Codec
논문리뷰/etc.2025. 1. 20. 13:02SoundStream: An End-to-End Neural Audio Codec

SoundStream이라는 새로운 신경망 기반 오디오 코덱을 제안한다. SoundStream은 Google이 개발한 오디오 처리 기술로, 딥러닝 기반의 신경망 오디오 코덱(neural audio codec)이다. SoundStream은 데이터를 압축하고 디코딩하는 압축 코덱의 역할을 한다. AbstractSoundStream은 fully convolutional 인코더/디코더와 Residual Vector Quantizer(RVQ)로 구성된 모델 아키텍처로,엔드-투-엔드 방식으로 학습된다.학습은 적대적 손실(adversarial loss)과 복원 손실(reconstruction loss)을 결합하여 양자화된 임베딩(quantized embeddings)으로부터 고품질 오디오 콘텐츠를 생성할 수 있도록 ..

GPT-1 : Improving Language Understanding by Generative Pre-Training
논문리뷰/Language Model2024. 10. 21. 21:54GPT-1 : Improving Language Understanding by Generative Pre-Training

자연어 처리(NLP)는 최근 몇 년 동안 놀라운 발전을 이루었고, 그 중심에는 GPT-1 같은 주춧돌이 되는 모델이 있습니다. 이번 글에서는 GPT-1의 구조와 기능, 그리고 자연어 처리 작업에서의 뛰어난 성능을 살펴보겠습니다. 첫 번째 섹션에서는 기존 NLP 방법들이 가진 주요 문제점들을 다룹니다. 문맥 이해의 한계, 복잡한 작업 처리의 어려움 등 기존 모델들의 문제는 GPT-1 같은 새로운 접근법의 필요성을 높였습니다.두 번째 섹션에서는 GPT-1의 모델 구성과 학습 방식을 소개합니다. GPT-1은 다음 단어를 예측하는 방식을 통해 학습하며, 이를 통해 다양한 NLP 작업에 적용될 수 있습니다. 이 섹션은 GPT-1의 작동 원리를 이해하는 데 중요한 내용을 담고 있습니다.세 번째와 네 번째 섹션에서는..

BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding
논문리뷰/Language Model2024. 10. 2. 08:04BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

Background1. 기존 연구의 한계BERT 논문이 나타나기 이전에도 언어 모델을 사전 훈련한 후에 task에 대해서 feature-based 모델을 만들거나 fine-tuning하는 방식이 인기를 끌었다. BERT가 나타나기 이전에 나온 대표적인 모델은 GPT-1으로 많은 양의 데이터를 학습된 pre-trained model이며 fine-tuning을 통해 성능을 보장했기에 상당한 인기를 얻었다.그러나 GPT-1과 같은 기존 모델들은 오토레그레시브(Autoregressive) 방식을 사용하는 디코더 모델이기 때문에, LSTM이나 RNN처럼 결국에는 문제를 해결하기 위해서 문장을 학습할 때에 순차적으로( LTR; Left-to-Right ) 읽을 수 밖에 없다는 문제점을 지니고 있다. (추가로 ELM..

Attention Is All You Need(2017) : Transformer 등장
논문리뷰/Language Model2024. 9. 27. 17:28Attention Is All You Need(2017) : Transformer 등장

이 논문은 트랜스포머 모델을 제안한 논문으로, 자연어 처리에서 RNN이나 CNN 없이도 주목 메커니즘(Attention)을 활용해 더 효율적이고 병렬 처리 가능한 방식으로 시퀀스를 처리한다는 내용을 담고 있다. 현대 대형 언어 모델(LLM)의 핵심적인 구조로, GPT나 BERT 같은 모델들의 근간이 되었다.   저자 TMIAshish Vaswani : 인도출신 구글 브레인 연구팀 소속이였다. 이후 3저자 Niki Parmar와 함께 Adept AI 창업후 새로운 스타트업 창업한 상태이다. 최근 Adept AI에서 80억개의 파라미터를 갖는 LLM인 Persimmon 8B모델을 오픈소스로 공개했다.Łukasz Kaiser : 현재 OpenAI로 이직Noam Shazeer : character.ai; 버추얼..

Transformer 이전까지의 DeepLearning Skimming(Not paper)
논문리뷰/etc.2024. 9. 27. 16:24Transformer 이전까지의 DeepLearning Skimming(Not paper)

딥러닝이란?인공지능(AI)의 한 분야인 머신러닝의 하위 영역으로, 인공신경망(특히 다층 신경망)을 활용하여 데이터를 학습하고 패턴을 인식하는 기술이다. 머신러닝은 데이터로부터 학습하여 예측이나 결정을 내리는 알고리즘을 연구하는 분야이고, 딥러닝은 그중에서도 인간의 두뇌 구조를 모방한 신경망을 깊게 쌓아 복잡한 문제를 해결하는 방법이다.간단하고 명확히 이야기 하면, 딥러닝 모델은 숫자 형태의 데이터를 입력받고, 추론 결과를 숫자로 출력하는 블랙박스 모델로 볼 수 있다. 간단하게 CV Task와 NLP Task로 예를 들어보자.짧게 우선 요약하면 아래와 같다. 두 Task 모두 결론적으로는 숫자를 입력받고, 숫자로 추론결과를 반환한다는 대전제를 따른다.이미지와 글자의 특성을 고려하여 Image를 처리할 때에..

image