Notice
Recent Posts
Recent Comments
Link
«   2025/12   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Archives
Today
Total
관리 메뉴

Dende

[LLM] 파인튜닝 예제 - (3) DPO Training 본문

LLM

[LLM] 파인튜닝 예제 - (3) DPO Training

Dende 2024. 9. 3. 10:37

이전 시리즈입니다~

[LLM] Fine Tuning 예제 - (1) 학습 데이터 준비

 

[LLM] Fine Tuning 예제 - (1) 학습 데이터 준비

위의 파인튜닝 파이프라인에 따라 코드 실습을 진행해보겠습니다.Topic은 금융상품 추천사유 생성입니다. 대형 언어 모델(LLM)을 통해 고객 개개인의 상황과 니즈를 고려한 맞춤형 추천 사유를 제

lanad.tistory.com

[LLM] Fine Tuning 예제 - (2) AI 모형 학습 

 

[LLM] Fine Tuning 예제 - (2) AI 모형 학습

위의 파인튜닝 파이프라인에 따라 코드 실습을 진행해보겠습니다.Topic은 금융상품 추천사유 생성입니다. 대형 언어 모델(LLM)을 통해 고객 개개인의 상황과 니즈를 고려한 맞춤형 추천 사유를 제

lanad.tistory.com


 

2장에서는 SFT(지도 미세 조정)을 통한 특정 도메인에 특화된 LLM을 생성하는 작업을 진행하였습니다.

하지만 SFT(감독학습)만으로는 LLM의 편향된 결과 및 독성 데이터로 인한 성능 저하 이슈를 해결할 수 없습니다.

이에 최근에는 'AI 정렬' 과정을 통해 인공지능이 만들어내는 결과가 사람의 의도와 목표에 일치하도록 설계를 하고 있습니다. 

 

아래는 AI 정렬의 여러 기법들입니다.

 ● RLHF(Reinforcement Learning from Human Feedback)

  : 가장 대표적인 강화 학습 Alignment 방식으로, 사람의 피드백을 가지고 보상을 계산하여 모델이 강화학습을 진행 

 ● RRHF (Reward-Reinforced Human Feedback)

  : RLHF와 유사하지만, 보상 신호를 더 정확하게 반영하기 위해 강화된 보상 모델을 사용.

 ● SLic-HF (Slick Human Feedback)

  : 두 답변 후보를 동시 입력 받아, 어떤 답변이 좋은 답변인지를 계산. 보상함수의 복잡성을 줄이며, 선호도를 정확히 반영 

 ● DPO (Direct Preference Optimization)

  : 리워드 모델 선호도 학습용 데이터를 모델에 직접 사용하여 positive 답변에 대한 확률은 높게, negative 답변은 낮아지도록 학습.


 

1) DPO의 등장배경

DPO는 기존의 강화학습 방법인 RLHF(Reinforcement Learning from Human Feedback)의 복잡한 과정을 개선하기 위해 등장합니다. 실제로 RLHF 기법을 사용하려면 학습이 되는 생성모델, 리워드 모델, critic 모델, 레퍼런스 모델까지 총 4개의 모델이 필요합니다.

https://arxiv.org/abs/2305.18290

 

이미지 출처

 

Direct Preference Optimization: Your Language Model is Secretly a Reward Model

While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining s

arxiv.org

 

 

2) DPO Training 절차

DPO는 Reward model 사용하지 않고, 선호데이터를 직접 감독학습(SFT) 시키는 방식으로 AI 정렬을 달성.

'기준 언어 모델에서의 샘플링' 및 '고강도의 하이퍼파라미터 튜닝'이 불필요.

 

 

① 지도 학습 당시의 질의/응답 데이터를 수집(DPO 학습 데이터셋으로 활용하기 위함)

 

② 프롬프트 결과 중 선호/비선호 결과를 분류

※ SFT 학습을 위해 생성했던 원천 데이터를 선호 결과로, 레퍼런스 모델의 응답 결과를 비선호 결과로 분류

 

③ 데이터 라벨링 및 DPO Formatting

 

④ 최적화 수행