https://arxiv.org/abs/2505.14246
Visual Agentic Reinforcement Fine-Tuning
A key trend in Large Reasoning Models (e.g., OpenAI's o3) is the native agentic ability to use external tools such as web browsers for searching and writing/executing code for image manipulation to think with images. In the open-source research community,
arxiv.org
[ Visual Agentic Reinforcement Fine-Tuning (2025) ]
Large vision-language model (LVLM)에 웹 브라우징과 코드 실행과 같은 멀티모달 agentic reasoning 능력을 부여하는 Visual-ARFT라는 프레임워크를 제안한다.
최근 연구들은 reasoning ability를 강화하기 위해 검증 가능한 보상을 사용하는 RL을 적용한다. 그 중, rule 기반의 검증 가능한 리워드로 학습을 단순화해 수학과 코딩 태스크에서 큰 성능 개선을 거둔 GRPO가 있다.

GRPO를 간단히 설명하자면, PPO와 같은 기존 RLHF 방법은 메인 모델인 policy model과 점수를 예측하는 value model을 모두 필요로 한다. 그래서, policy model, reference model, reward model, value model 총 4개의 모델을 동시에 메모리에 올려야 하기 때문에 컴퓨팅 자원과 메모리가 많이 필요하다. GRPO는 여기서 별도의 value model을 없애서 자원을 절감한다. 그리고 상대평가 방식을 사용하는데, 하나의 질문에 대해 여러 답변을 한번에 생성해 각 답변에 리워드 모델이 점수 매기고, 그룹 내 평균과 표준편차를 이용해 각 답변의 상대적 이득인 advantage를 계산한다. 그래서, 평균보다 잘한 답변은 더 자주 나오도록 확률 높이고, 평균보다 못한 답변은 확률 낮추도록 모델을 학습한다.

policy model $\pi_\theta$는 멀티모달 입력이 주어지면 중간 리즈닝 스텝과 서치 툴이나 파이썬 코드와 같은 액션 decision이 포함된 응답 시퀀스를 생성한다. 학습 중 모델은 single task를 완료하기 위해 여러 리즈닝 스텝이나 반복적인 도구 호출을 필요로 한다. 이 과정을 유도하기 위해 모델의 도구 사용과 최종 답변을 모두 평가하는 rule-based verifiable reward를 설계한다.

학습 목표는 expected reward를 최대화하는 동시에, learned policy $\pi_\theta$를 reference policy $\pi_{ref}$와 가깝게 유지하도록 하는 것이다. 여기서, 업데이트된 policy가 reference model과 너무 달라지지 않도록 하기 위해 KL divergence를 포함한다. 이를 통해 리워드를 얻기 위해 편법으로 목표를 달성하는 reward hacking을 완화하고 학습 안정성과 일반화 능력을 모두 높인다. 여기서 베타는 보상 최대화와 정책 안정성 간의 균형을 제어하는 regularization 계수이다.
본 연구에서는 2가지의 챌린징한 멀티모달 세팅을 다룬다. 첫 번째로, plan, task decomposition, 외부 소스에서 정보를 리트리벌하는 agentic search와 reason, 코드 작성 및 실행을 하는 agentic coding이 있다. 서치 세팅에서는 모델이 복잡한 멀티모달 multi-hop VQA 쿼리에 직면해 in-context 지식이나 CoT로 해결할 수 없는 쿼리에 대해 여러 서브 태스크로 쪼개고, 외부 소스에서 관련 정보를 검색하기 위한 도구를 호출할 수 있어야 한다. 코딩 세팅에서는 visual degradation이 존재하거나 이미지의 특정 영역만 질문과 관련될 수 있어, 이러한 조건은 모델의 시각적 이해 능력에 큰 부담을 주기 때문에 모델이 visual question에 대한 실행가능한 코드를 생성하도록 학습한다.
검증 가능한 보상을 설계하기 위해 학습된 리워드 모델이나 휴먼 피드백에 의존하지 않고 답변이 맞는지 틀린지를 결정하기 위해 간단한 정확성 체크를 사용한다. 첫 번째로 모델의 출력이 미리 정의된 형식을 따르도록 하는 format reward가 있다. 코딩과 서치 모두에서 모델의 리즈닝 과정은 think 태그 안에 포함되고, 검색은 search 태그, 코드는 code tag를 출력해야 한다. 각 도구 태그 안의 내용 즉, 검색 쿼리와 생성된 코드는 추출되어 외부 환경과 상호작용하는데 사용되고, 유효한 태그를 포함한 경우에는 format reward가 1이 된다.
accruacy reward는 task specific하게 디자인된다. 서치와 코딩 모두에서 최종 답변에 대해 f1 score를 사용해 평가한다. f1 score는 정확한 일치보다는 더 큰 오차를 허용해 부드러운 학습이 가능하다. 이러한 디자인은 자연어 응답의 다양성을 더 잘 포착하도록 하고, 더 안정적인 강화학습에 기여한다. 서치에 대해서는 문장을 벡터화하는 sentence transformer를 사용해 모델이 생성한 검색 쿼리와 실제 쿼리간의 semantic similarity를 계산한다. 코딩의 경우에는 생성된 코드의 내용을 직접 평가하기 보다는 실행 가능한 코드 블록의 모든 출력에 1의 리워드를 할당한다. 이를 통해, 모델이 자유롭게 코드를 생성할 수 있게 한다. 총 보상은 format reward와 accuracy reward의 합으로 구성된다.

주목할 만한 점은 training data가 서치는 20개, 코딩은 1,200개로 굉장히 적다는 점이다. 학습 데이터가 적음에도 불구하고 성능 개선을 보여 높은 데이터 효율성을 가진다고 할 수 있을 것 같다.
( 발표 자료 )





















