본문 바로가기
Paper

논문 리뷰 | R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization (ICCV 2025)

by 힢힢 2026. 1. 4.

https://arxiv.org/abs/2503.12937

 

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization

Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning

arxiv.org

 

https://github.com/jingyi0000/R1-VL

 

GitHub - jingyi0000/R1-VL: R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy O

R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization - jingyi0000/R1-VL

github.com

 


[ R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization (ICCV 2025) ]

 

MLLM의 reasoning 능력 향상과 GRPO의 sparse reward issue를 해결하기 위해 간단하고 효율적이며 dense step-wise reward 매커니즘을 사용하는 StepGRPO를 제안한다.

StepGRPO는 2개의 rule-based reasoning reward mechanism을 사용한다.

 


 

기존 연구는 MLLM의 reasoning 능력을 향상시키기 위해 GPT4와 같은 강력한 모델이 제공하는 높은 퀄리티의 CoT reasoning data로 supervised fine-tuning (SFT)을 사용하였다. 그러나, SFT는 정답에 대한 리즈닝 path만을 학습하므로 모델이 잘못된 리즈닝에 대한 이해를 하지 않고 좋은 리즈닝을 모방하기만 하는 한계가 존재한다.

또한, 최근 LLM 분야에는 self-exploring을 통해 LLM의 리즈닝 능력을 장려하는 연구가 활발히 진행되었다. (Deepseek-R1) 그 중, GRPO는 reward model 없이 online RL을 가능하게 해 큰 성능 향상을 가져왔다. 이는 reasoning path group을 생성하고 rule-based reward function을 따라 reasoning path에 보상을 제공함으로써 추론 과정을 반복적으로 개선하는 방법이다. 보통 올바른 답으로 이어지는 추론 경로에는 더 높은 보상을, 틀린 답으로 이어지는 추론 경로에는 낮은 보상을 주는 outcome-level reward strategy를 사용한다. 그러나, 이는 sparse reward issue를 겪으며, suboptimal performance로 이어진다. 

이에, 단계별 리워드를 제공하는 StepGRPO를 제안한다.

 

 


 

Method

pre-trained MLLM을 policy model $\pi_\theta$로 나타내고, multimodal question $Q$ ={text,image}가 주어졌을 때, $\pi$는 step-by-step reasoning trajectory를 갖는 response $c$를 생성한다.

일반적으로, 이 과정은 next token prediction의 시퀀스로 공식화할 수 있다.

즉, $c = {a_1, a_2, ..., a_T}$이며, 각 행동 $a_t$는 policy model에서 샘플링되고, T는 최대 시퀀스 길이이다.

각 행동 후에, new state $s_{t+1}$은 current state $s_t$와 새로 생성된 행동 $a_t$에 의해 업데이트되어 결정된다.

결국, 목적은 policy model $\pi_\theta$를 최적화하여 이전 상태를 기반으로 더 나은 행동을 선택해 reasoning quality를 향상시키는 것이다.

 

Overview.

 

1️⃣ Policy Warm-up

policy model이 기본적인 추론 능력을 가지도록 하는 단계이다.

policy model은 CoT reasoning path가 포함된 멀티모달 데이터셋 $D_s$로 파인튜닝된다.

(각 데이터는 멀티모달 질문 Q와 단계별 reasoning path $\tau$로 구성됨)

policy warm-up 단계에서의 Loss function.

데이터셋에서 샘플링한 reasoning path에 대한 기댓값의 음수 값을 최소화함

 


 

2️⃣ Step-wise Online Policy Optimization

MLLM이 online RL을 통해 reasoning 능력을 자체적으로 개선하도록 하는 단계이다.

각 질문에 대해, policy model $\pi_\theta$는 multiple *rollouts를 통해 M개의 reasoning trajectory를 생성한다. 

각 trajectory에 대해 제안하는 step-wise reasoning reward를 사용해 평가하고 보상을 제공한다.

 

* Rollout: RL에서 에이전트 (여기서는 MLLM)가 현재 policy에 따라 하나의 완전한 시퀀스 (여기서는 reasoning path 전체)를 생성하는 것

 

  • Step-wise reasoning accuracy reward (StepRAR)

final solution에 기여하는 정확한 중간 추론 단계를 포함하는 추론 경로를 추가적으로 보상한다.

각 질문 Q에 대해, 데이터셋으로부터 추론 경로 중 핵심 reasoning steps $v$를 미리 추출한다.

이 핵심 단계는 최종 답에 직접적으로 기여하는 필수 변수나 방정식 등으로 정의하고, GPT-4에게 핵심 단계를 뽑도록 프롬프팅한다.

이렇게 추출된 단계는 정제를 통해 중복된 내용을 제거하고 추론에 필요한 핵심 단어만 남긴다.

또한, 추출된 각 단계를 동등한 형식으로 augment하여 유연하고 정확한 매칭을 가능하게 한다.

 

추출된 key reasoning steps $v={v_1, v_2, ...}$와 soft matching mechanism을 사용해 전체 핵심 단계 중 일치하는 핵심 단계의 비율을 기반으로 match socre를 계산한다.

 

$k^i=|v_{match}|/|v|$, y는 gt answer

 

StepRAR은 모델이 답을 추측하는 것 대신 의미있는 추론 과정을 학습하도록 보장한다.

 

  • Step-wise reasoning validity reward (StepRVR)

생성된 경로가 논리적으로 구조화되고, 일관된 진행을 가지도록 보장하는 것을 목표로 한다.

이전 연구들에서 structural reasoning이 더 정확하고 해석 가능한 추론 과정을 유도함을 보였고, 이는 모델이 직접적인 답 생성이 아닌 복잡한 문제를 여러 단계로 쪼개도록하기 때문이다.

이에, 구조화된 추론 경로를 강화하기 위해 2개의 핵심 기준을 사용한다.

 

reasoning completness $\delta^c$는 background analysis (이미지 설명, 논리적 근거를 포함), step-by-step reasoning process, final answer라는 3가지 필수 구성 요소를 포함하도록 한다. reasoning logic $\delta^l$은 추론 경로가 logical progression을 따르도록 보장한다.

reasoning trajectory는 completness, logical coherence를 모두 만족하는 경우에만 보상을 받는다.

즉, StepRVR은 모델이 구조화되고 해석 가능하고 논리적으로 타당한 reasoning trajectory를 생성하도록 하여 응답의 품질과 신뢰성을 향상시킨다.

 


 

각 추론 경로에 대한 전체 리워드를 두 개의 step-wise reward를 더해 계산한다.

 

$\hat{A}_i = \frac{r_i - \text{mean}(\{r^1, r^2, ..., r^M \})}{\text{std}(\{r^1, r^2, ..., r^M \})}$

그룹에 대한 상대적인 리워드를 구하기 위해 정규화를 수행한다.

$\hat{A}_i$는 그룹 내의 다른 추론 궤적과 비교하여 $r^i$가 얼마나 좋고 나쁜지를 측정한다. (양수이면 평균보다 좋은 것)

 

위와 같은 loss function을 사용해 policy model을 최적화한다. 

KL divergence는 policy model을 regularize하기 위하여 사용되며, reference model로부터 과도하게 달라지는 것을 방지한다.

reference model은 일반적으로 policy model과 동일하게 초기화되지만, RL 학습 중에는 고정된다.

 


 

Experiments

  • 8개의 멀티모달 벤치마크에 대해  우수한 성능을 보였으며, 특히 mathematical reasoning task에서 좋은 성능을 보였다.
  • M을 늘릴수록 더 좋은 성능으로 이어지지만, 계산 비용도 높아져, 균형을 맞추기 위해 M = 4를 사용한다.
  • outcome-level reward도 성능을 향상시키지만, step-level reward가 성능 향상이 더 높다.
  • SFT만 수행하였을 때보다 StepGRPO가 높은 accuracy를 보인다.

 


 

진짜 진짜 잘 읽힌 논문이었다.

이래서 논문 쉽게 쓰라고 하는 건가봐... 술술 읽히니까 논문에 대한 호감도가 올라감....

다른 RL 사용하는 논문들 냅다 우리 무슨 알고리즘 쓴다라고만 적고 넘어가서 조금 슬펐는데 여기서는 친절하게 설명해줘서 좋았다.

abstract부터 이해 안되게 쓴 논문들 다 반성해라 😑

나도 논문 쉽게 써서 사람들 호감도 올려야겠다 ~!