0x0B. RLHF와 DPO - AI를 인간에게 맞추다

왜 정렬(Alignment)이 필요한가?

GPT나 LLaMA 같은 대형 언어 모델(LLM)은 방대한 텍스트 데이터를 학습하여 "다음 토큰을 예측"하는 능력을 갖추게 된다. 그런데 여기서 한 가지 문제가 생긴다. "다음에 올 확률이 높은 단어"가 반드시 "인간이 원하는 답"은 아니라는 것이다.

예를 들어, "폭탄을 만드는 방법을 알려줘"라는 질문에 대해 사전 학습된 모델은 인터넷에서 본 텍스트를 그대로 이어서 생성할 수 있다. 또는 사실이 아닌 내용을 그럴듯하게 지어내는 환각(Hallucination) 현상도 발생한다.

사전 학습만으로는 "무엇이 좋은 응답인지"를 모델이 스스로 판단할 수 없다.

이 문제를 해결하기 위해 등장한 것이 정렬(Alignment) 기법이다. 모델의 출력을 인간의 선호, 가치관, 안전성 기준에 맞추는 과정을 뜻한다. 마치 뛰어난 실력을 가진 신입사원에게 "우리 회사에서는 이런 방식으로 일한다"라고 가르치는 것과 비슷하다.

대표적인 정렬 기법이 바로 RLHF와 DPO다.

RLHF: 인간 피드백 기반 강화학습

RLHF(Reinforcement Learning from Human Feedback) 는 인간의 선호도 피드백을 활용하여 LLM이 더 나은 응답을 생성하도록 학습시키는 방법론이다. ChatGPT가 단순한 텍스트 생성기를 넘어 "대화형 AI"로 자리잡은 핵심 기술이기도 하다.

RLHF는 총 4단계로 구성된다.

1단계: 사전 학습된 LLM

출발점은 대규모 코퍼스로 사전 학습(Pre-training)을 마친 LLM이다. 이 모델은 언어를 "이해"하고 생성할 수 있지만, 아직 인간의 의도에 맞춘 응답을 생성하지는 못하는 상태다.

2단계: 지도 미세조정 (SFT)

[SFT(Supervised Fine-Tuning)](/blog/ai-ml-fine-tuning) 단계에서는 사람이 직접 작성한 고품질 응답 데이터를 사용하여 모델을 미세조정한다. "이런 질문에는 이렇게 대답해야 한다"는 시범을 보여주는 것이다.

이 과정만으로도 모델의 응답 품질이 크게 향상되지만, 모든 상황에 대한 시범 데이터를 만드는 것은 불가능하다. 더 일반적인 방식으로 "좋은 응답"을 학습할 방법이 필요하다.

3단계: 보상 모델 학습 (Reward Model)

이 단계가 RLHF의 핵심이다. 하나의 프롬프트에 대해 모델이 여러 응답을 생성하면, 인간 평가자가 이 응답들의 순위를 매긴다. 예를 들면 다음과 같다.

프롬프트: "양자역학을 쉽게 설명해줘"

응답 A: 수식 위주의 딱딱한 설명 (3위)

응답 B: 비유를 활용한 직관적 설명 (1위)

응답 C: 부정확한 내용이 포함된 설명 (2위)

이렇게 수집된 순위 데이터로 별도의 보상 모델(Reward Model) 을 학습시킨다. 보상 모델은 "주어진 응답이 인간이 얼마나 선호할 만한지"를 점수로 예측하는 모델이다. 인간 평가자를 대리하는 자동 채점기를 만드는 셈이다.

4단계: 강화학습 (PPO)

마지막으로, 보상 모델의 점수를 보상 신호(Reward Signal) 로 활용하여 LLM을 강화학습으로 최적화한다. 이때 사용되는 알고리즘이 PPO(Proximal Policy Optimization) 다.

동작 원리를 간단히 정리하면 다음과 같다.

LLM이 프롬프트에 대한 응답을 생성한다
보상 모델이 해당 응답에 점수를 부여한다
높은 점수를 받은 응답을 생성할 확률은 높이고, 낮은 점수를 받은 응답을 생성할 확률은 낮추는 방향으로 모델을 업데이트한다

이 과정을 반복하면서 LLM은 점차 인간이 선호하는 방식의 응답을 생성하도록 정렬된다.

RLHF의 장점과 한계

장점

인간의 선호를 반영한다. 단순히 정답을 맞추는 것이 아니라, 응답의 톤, 유용성, 안전성까지 고려할 수 있다.
환각(Hallucination)을 줄인다. 부정확한 정보를 생성하면 보상 점수가 낮아지므로, 모델이 사실에 기반한 응답을 선호하게 된다.
유해 콘텐츠를 방지한다. 위험하거나 비윤리적인 응답에 낮은 보상을 부여하여 모델이 이를 회피하도록 학습시킬 수 있다.

한계

파이프라인이 복잡하다. SFT 모델, 보상 모델, PPO 학습까지 세 가지 모델을 순차적으로 관리해야 한다. 각 단계에서 하이퍼파라미터 튜닝도 별도로 필요하다.
데이터 수집 비용이 크다. 인간 평가자가 직접 순위를 매겨야 하므로, 대규모 선호도 데이터를 확보하는 데 시간과 비용이 많이 든다.
확장성(Scalability)에 제약이 있다. 강화학습 특유의 불안정성(학습 붕괴, 보상 해킹 등)으로 인해 대규모 모델에 적용할수록 학습이 까다로워진다.

DPO: 보상 모델 없이 직접 최적화

DPO(Direct Preference Optimization) 는 2023년 스탠포드 연구팀이 제안한 방법으로, RLHF의 복잡한 파이프라인을 대폭 단순화한다. 핵심 아이디어는 간단하다. 보상 모델과 강화학습 없이도, 선호도 데이터만으로 직접 모델을 최적화할 수 있다는 것이다.

작동 방식

DPO의 학습 데이터는**(프롬프트, 선호 응답, 비선호 응답)** 세 쌍(triplet)으로 구성된다.

구성 요소	설명	예시
프롬프트	사용자 질문	"파이썬의 장점은?"
선호 응답 (Chosen)	인간이 더 좋다고 평가한 응답	구체적이고 정확한 답변
비선호 응답 (Rejected)	상대적으로 나쁘다고 평가된 응답	모호하거나 부정확한 답변

DPO는 이 데이터를 사용하여 다음 두 가지를 동시에 수행한다.

선호 응답을 생성할 확률을 높인다 (Chosen의 log-probability 증가)
비선호 응답을 생성할 확률을 낮춘다 (Rejected의 log-probability 감소)

수학적으로 보면, DPO는 RLHF에서 보상 모델이 수행하던 역할을 정책(Policy) 자체의 확률 비율(log-ratio) 로 대체한다. 즉, 별도의 보상 모델을 학습시키지 않고도, 보상 함수가 내재된(implicit) 형태로 정책을 직접 최적화하는 것이다.

DPO의 장점과 한계

장점

보상 모델이 필요 없다. RLHF의 3단계(보상 모델 학습)와 4단계(강화학습)를 하나로 합쳐, 선호도 데이터에서 곧바로 정책을 학습한다. 파이프라인이 크게 단순해진다.
학습이 더 안정적이다. PPO 기반 강화학습에서 흔히 발생하는 학습 불안정성(보상 해킹, 모드 붕괴 등)을 피할 수 있다. 일반적인 지도학습과 유사한 방식으로 학습되기 때문이다.
성능이 RLHF와 비슷하거나 더 낫다. 여러 벤치마크에서 DPO가 RLHF-PPO와 동등하거나 상회하는 성능을 보인다는 연구 결과가 발표되었다.

한계

선호도 데이터셋은 여전히 필요하다. 보상 모델은 생략하지만, (프롬프트, 선호, 비선호) 쌍 데이터를 수집하는 비용은 남아 있다.
데이터셋 편향(Bias)의 위험이 존재한다. 선호도 데이터에 특정 편향이 포함되어 있으면 모델이 그대로 학습하게 된다. 보상 모델이라는 중간 완충 장치가 없기 때문에, 데이터 품질에 더 민감할 수 있다.

RLHF vs DPO 비교

두 기법의 핵심 차이를 정리하면 다음과 같다.

항목	RLHF	DPO
보상 모델	별도로 학습 필요	불필요 (암묵적)
강화학습	PPO 알고리즘 사용	불필요 (지도학습 방식)
학습 안정성	상대적으로 불안정	더 안정적
파이프라인 복잡도	높음 (4단계)	낮음 (2단계)
선호도 데이터	필요 (순위 데이터)	필요 (쌍 비교 데이터)
성능	우수	RLHF와 유사하거나 상회
구현 난이도	높음	상대적으로 낮음

한마디로, DPO는 RLHF의 "단순화 버전" 이라고 볼 수 있다. 동일한 목표(인간 선호 정렬)를 달성하되, 중간 과정을 대폭 줄인 것이다.

정리

LLM의 정렬(Alignment)은 "모델이 할 수 있는 것"과 "모델이 해야 하는 것" 사이의 간극을 메우는 핵심 기술이다.

RLHF는 보상 모델 + 강화학습이라는 체계적인 프레임워크를 통해 인간의 선호를 반영한다. ChatGPT, Claude 등 상용 AI 서비스의 기반이 된 검증된 방법론이다.
DPO는 동일한 목표를 보상 모델 없이 달성하여 파이프라인을 단순화한다. 학습이 안정적이고 구현이 용이하여 빠르게 채택이 확산되고 있다.

현재 정렬 기법은 RLHF와 DPO 외에도 RLAIF(AI 피드백 기반), KTO(Kahneman-Tversky Optimization), ORPO 등으로 빠르게 진화하고 있다. 공통된 방향은 하나다. 더 적은 비용으로, 더 안정적으로, 인간의 의도에 부합하는 AI를 만드는 것이다.