[발표요약]what is transformer?
DATA, AI2025. 4. 8. 10:12[발표요약]what is transformer?

4월 7일 발표한 transformer 관련 내용을 녹화하여 lilys ai(영상 자동요약 ai)로 요약한 내용입니다.오탈자나 오류로 잘못 요약된 부분이 있을 수 있습니다.

[논문 리뷰]PERL(PE-RLHF); Parameter Efficient Reinforcement Learning from Human Feedback
Insights/Language Model2025. 3. 2. 22:18[논문 리뷰]PERL(PE-RLHF); Parameter Efficient Reinforcement Learning from Human Feedback

최근 RLHF논문을 읽고, LLM Post-training 키워드를 전반적으로 정리했다.그러다 LoRA와 같은 Parameter Efficient Fine Tuning과 Preference Tuning이 목적성은 다르지만 출력을 개선하기 위해 파라미터를 업데이트 한다는 관점에서 보면 같은 방향성을 가진다고 생각했고, RLHF에 Adapter의 개념을 결합하면 효율적인 Preference Tuning이 되지 않을까? 하는 생각이 들었다. 서치 결과 Parameter Efficient Reinforcement Learning from Human Feedback; PE-RLHF라는 관련 논문이 2024년 9월에 프리프린트되어 있어 해당 논문을 리뷰한다. Abstract 해당 논문은 LORA: LOW-RANK ..

Reinforcement Learning : Understanding Fundamentals – From Key Concepts to Policy Gradient Methods
DATA, AI2025. 3. 1. 22:40Reinforcement Learning : Understanding Fundamentals – From Key Concepts to Policy Gradient Methods

강화학습(Reinforcement Learning)은 기계학습의 한 분야로, 에이전트(Agent)가 환경(Environment)과 상호작용하면서 시행착오를 통해 최적의 행동 전략을 학습하는 방법이다. supervised learning처럼 정답 레이블에 의존하지 않고, 에이전트가 보상(Reward)을 최대화하는 방향으로 스스로 학습한다는 점이 특징이다. 이번 글에서는 강화학습의 기본 개념들을 정리하고, 정책 경사 방법의 일종인 REINFORCE 알고리즘을 정리한다.강화학습의 Key componentsAgent는 시점 $t$에서 관측 $O_t$을 받아 행동 $A_t$를 취하고, 환경은 다음 시점 $t+1$의 관측 $O_{t+1}$과 보상 $R_{t|t+1}$을 반환한다. 에이전트 내부의 정책(policy)..

[논문리뷰] RLHF;Training language models to follow instructions with human feedback
Insights/Language Model2025. 2. 23. 13:18[논문리뷰] RLHF;Training language models to follow instructions with human feedback

RLHF(Reinforcement Learning from Human Feedback)는 Pre-trained LLM이 사람의 기대나 선호도에 부합하도록 보상을 최적화하며 모델의 ‘Policy(응답 방식)’을 조정하는 방법이다. LLM Development Process Post-training 단계에 속하며, 사람의 지시(Instruction)에 따르도록 하는 명시적 의도와 편향이나 해로움을 최소화하려는 암묵적 의도 모두를 충족하도록 LM을 Alignment하는 것을 목적으로 한다. Background Reinforcement Learning의 keyword와 LLM 관점에서의 시각RLHF의 개념을 이해하기 위해 간단한 RL keyword를 정리한다.강화학습이란, agent가 Environment와 상..

우분투 환경에서 deepseek-r1 로컬 설치하기(open-webui, docker)
DATA, AI2025. 1. 30. 20:50우분투 환경에서 deepseek-r1 로컬 설치하기(open-webui, docker)

최근 발표된 DeepSeek-R1을 로컬 환경에서 실행한다면, Open WebUI 기반의 웹 인터페이스를 사용하면 더욱 편리하게 활용 가능하다. 이 글에서는 Ubuntu에서 Docker를 활용하여 Open WebUI를 설치하고, DeepSeek-R1 모델을 실행하는 방법을 정리한다. 들어가기 앞서,DeepSeek-R1은 크게 두 가지 버전으로 제공된다.원본 모델(DeepSeek-R1 671B): 671B(6,710억) 개의 파라미터를 가진 대형 모델로, 실행하려면 최소 400GB 이상의 VRAM이 필요하며, 현실적으로 로컬 환경에서 실행하는 것은 어렵다.Distilled Models: 원본 모델의 학습된 추론 능력을 비교적으로 파라미터가 적은 Qwen, Llama 모델에 전이시켜 성능을 최적화한 버전이다..

SoundStream: An End-to-End Neural Audio Codec
Insights/etc.2025. 1. 20. 13:02SoundStream: An End-to-End Neural Audio Codec

SoundStream이라는 새로운 신경망 기반 오디오 코덱을 제안한다. SoundStream은 Google이 개발한 오디오 처리 기술로, 딥러닝 기반의 신경망 오디오 코덱(neural audio codec)이다. SoundStream은 데이터를 압축하고 디코딩하는 압축 코덱의 역할을 한다. AbstractSoundStream은 fully convolutional 인코더/디코더와 Residual Vector Quantizer(RVQ)로 구성된 모델 아키텍처로,엔드-투-엔드 방식으로 학습된다.학습은 적대적 손실(adversarial loss)과 복원 손실(reconstruction loss)을 결합하여 양자화된 임베딩(quantized embeddings)으로부터 고품질 오디오 콘텐츠를 생성할 수 있도록 ..

CPU와 GPU의 특성과 AI ASIC의 필요성
IT(Hardware)2025. 1. 1. 23:47CPU와 GPU의 특성과 AI ASIC의 필요성

이글을 요약해서 정리하자면, CPU는 스칼라 연산에 최적화된 범용 프로세서이고, GPU는 SIMT 구조를 통해 대규모 병렬 연산에 특화되어 있습니다. AI 분야에서는 행렬 연산이 중요해 GPU가 주된 연산장치로 활용되어 왔으나, 통신병목과 효율성 등의 문제가 있습니다. 이를 극복하기 위해 TPU와 NPU 같은 AI 가속기가 활발히 연구되고 있습니다. CPU와 GPUCPU와 GPU는 모두 컴퓨팅을 담당하는 프로세서이지만, 설계방식과 기능적 특성에 큰 차이가 있습니다. 어떤 프로세서를 활용하느냐에 따라 처리 속도와 에너지 효율, 그리고 응용 가능한 분야가 달라지며, AI와 연결하여 설명하기 전에 우선적으로 CPU와 GPU에 대해 설명합니다.  CPU와 GPU 연산의 차이 CPU는 스칼라 연산에 최적화된 범용..

3090 2way 워크스테이션 제작
IT(Hardware)2025. 1. 1. 23:313090 2way 워크스테이션 제작

이때까지 메인컴퓨터로 RTX3090이 단일로 들어간 SFF(Small Form Factor) 본체를 사용하였는데, GPU 성능을 올리고자 듀얼 GPU 시스템을 새로 제작했다. 소비자용 cpu에서의 제한된 pci 레인의 문제와 고용량의 파워서플라이 구성 등 생각보다 신경쓸 부분이 많았다. 우선 물리적으로 듀얼 GPU를 구성하기 위해 기존의 ITX규격에서 ATX규격의 메인보드로 교체를 진행했다.서버급 CPU가 아니면 pcie 레인이 24레인 남짓으로 제한되는데, 두개의 pcie 슬롯에 8-8-4레인으로 pcie레인을 분배해주는 보드가 많이 없어서 사용할 수 있는 보드를 찾는 것도 힘들었다. 대부분 16-4-4레인이나 16-4레인으로 구성되어 있었다. ATX보드는 7개의 pcie 슬롯이 나열될 수 있는 공간이..

온프레미스(On-premise) 웹 서버 환경 하드웨어 구성하기
IT(Hardware)2025. 1. 1. 22:57온프레미스(On-premise) 웹 서버 환경 하드웨어 구성하기

기존에는 시놀로지를 통해 자기소개 사이트를 배포해서 사용했었다. 시놀로지에서 Docker를 쓰기에는 편리했지만, DSM OS의 제약과 NAS 리소스 점유로 인해 확장성과 유지보수에 한계가 있었다. CI를 위한 Jenkins를 Synology DSM 상에서 직접 사용하기는 까다롭다 느꼈고, 추후 여러 기능을 시도해볼 것까지 고려하면  별도의 바닐라 우분투 환경을 조성하는 것이 효율적이라고 판단하여 미니PC를 구매하고 우분투를 구성했다.해외직구를 통해 저전력 미니PC를 구입했다. 해당 PC는 인텔 셀러론 N100 프로세서와 8GB의 메모리를 탑재한 사양이다.기존에 웹페이지를 배포하던 J3355대비 코어수 및 클럭이 증가하면서 소비전력은 적은 프로세서이다.절대적인 출시년도도 6년의 차이가 있기 때문에 지원 명..

GPU의 제한된 vram 환경에서 효율적으로 모델을 학습하는 방법
DATA, AI2024. 11. 20. 16:28GPU의 제한된 vram 환경에서 효율적으로 모델을 학습하는 방법

딥러닝 모델을 학습할 때 가장 현실적인 문제는 vram 부족이다. 필요한 vram이 물리적인 크기를 초과할 경우 OOM 오류가 뜨거나 블루스크린(MEMORY MANAGEMENT ERROR)가 뜨기도 한다. 이런 상황에서, vram 사용량에 크게 영향을 주는 배치사이즈를 직접적으로 늘리지 않더라도 메모리 사용량을 최적화하여 모델을 학습하는 방법에 대해 공부하고 정리한다. 문제인식현재 오픈소스 LLM을 LoRA 파인튜닝 하여 수능과 같은 수리논술문제 풀이에 최적화된 모델을 만드는 프로젝트를 진행하고 있다. 프로젝트와 데이터에 따라 크게 차이가 나지만 현재 진행중인 프로젝트에서 RTX 3090으로 파라미터 7~8B의 모델을 돌리면 vram 24GB 이상을 요구한다. 4비트로 양자화 하여 모델을 학습시켜도 파라..

image