논문 리뷰 | DeepEyesV2: Toward Agentic Multimodal Model (2026)

DeepEyesV2: Toward Agentic Multimodal Model

Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations into reasoning. In this work, we introduce DeepEyesV2 and expl

arxiv.org

https://openreview.net/forum?id=yDKawwfJ5O

DeepEyesV2: Toward Agentic Multimodal Model

Agentic multimodal models should not only comprehend text and images, but also actively invoke external tools, such as code execution environments and web search, and integrate these operations...

openreview.net

https://visual-agent.github.io

DeepEyesV2

visual-agent.github.io

[ DeepEyesV2: Toward Agentic Multimodal Model (2026) ]

DeepEyesV2는 code execution, search와 같은 external tool을 reasoning에 포함시키는 agentic multimodal model임

direct RL은 robust tool-use behavior를 저하시키는 것을 관찰함

two-stage training pipeline 제안: cold-start stage & reinforcement learning stage

✦ Related Works

멀티모달 모델이 반복적인 visual analysis와 reasoning을 전환할 수 있다는 "Think with Image"는 o3에서 처음 소개됨

이는 이미지를 조작함으로써 단계 별 문제 해결을 도와줌

많은 연구가 이러한 능력을 재현하고자 시도하였고, 대부분 two-stage training pipeline을 채택함 (cold-start 이후 RL)

✦ DeepEyesV2

image input, user query 주어지면, initial reasoning plan 생성함

질문이 해당 추론만으로 해결 가능한지 혹은 tool invocation이 필요한지 명시적으로 결정함

tool use가 필요하다면, 실행 가능한 파이썬 코드나 웹 검색 쿼리를 만듦

모든 tool outputs는 observation으로 전환되어 모델의 context에 추가됨

이러한 observation을 바탕으로 모델은 추가적인 사고를 하며, 추가적인 tool invocation을 계획할 수 있음

즉, (1) 실행 가능한 코드를 통한 분석 능력 확장 및 향상, (2) 웹으로부터 멀티모달 evidence를 받아옴으로써 실시간 지식 탐색, (3) code execution과 search가 single trajectory 내에서 동적으로 결합되어 반복적이고 상호전환적인 multi-tool reasoning을 가능하게 함

Pioneer Experiments

RL만으로 tool-use ability를 학습하였을 때, 학습 초기에 파이썬 코드 생성을 시도하지만 실행에 실패하는 경우가 발생하여 기존 MLLM이 안정적이고 실행 가능한 코드를 생성하는 데 어려움을 겪음을 알 수 있음

학습이 진행됨에 따라, 모델은 코드 생성을 포기하고 tool use를 우회하여 짧은 reasoning chain과 함께 직접적인 답변을 생성함

tool invocation을 장려하기 위해, tool usage bonus mechanism을 통합하여 코드 생성을 명시적으로 보상한 경우에는, 초기 단계에서 정확하고 실행 가능한 코드를 생성하여 해당 매커니즘이 코딩 능력을 강제할 수 있음을 나타냄

그러나, 학습이 계속될수록 쿼리 당 하나의 코드 블록을 생성하는 것으로 수렴하는 reward hacking 현상이 발생하며, 해당 코드 블록은 실행 불가능한 코드와 주석으로 구성됨

즉, 기존 MLLM은 직접적인 RL만으로는 복잡한 도구 사용을 안정적으로 학습할 수 없음

이는 모델의 tool invocation ability를 강화하기 위한 cold start가 필요함을 시사함

Agentic Reinforcement Learning

cold-start training으로 모델이 기본적인 tool-use patterns를 학습한 후, dynamic environment에서 도구를 통합하는 능력을 향상시키기 위해 RL을 채택함

SFT는 static trajectories로부터 학습하지만, agentic RL은 도구를 언제, 어떻게 호출할지를 동적으로 결정해야 함

sparse, outcome-driven reward 사용: accuracy reward + format reward ($R = R_{acc} + R_{format}$)

optimization algorithm은 DAPO를 사용함

✦ Experiments

RealX-Bench
- 새롭게 구성한 RealX-Bench에서 모든 모델은 Human performance보다 현저히 낮은 성능을 기록함
- text-only search는 image-only search보다 더 큰 향상을 제공하여 기존 모델들이 image search 결과를 효율적으로 통합하지 못함을 보임
Ablation Study
- Cold Start Data: (1) perception data에만 학습한 경우 perception benchmark에서 성능 향상되었지만, reasoning data에만 학습한 경우에는 제한된 성능 향상 보여 reasoning이 더 복잡하고 어려운 태스크임을 보임. (2) Long CoT 데이터를 학습하였을 때는 reasoning, tool use 능력을 향상시켜 강력한 사고 능력이 더 좋은 도구 사용을 강화함을 입증함. (3) 모든 데이터를 학습하였을 때, 가장 좋은 성능을 보임
- RL Data: (1) perception data, reasoning data를 각각 학습하였을 때 관련 태스크의 성능만 향상됨. (2) 두 데이터를 함께 학습할 때에는 두 카테고리 모두 성능 향상되어 상호 보완적임을 입증함. (3) data diversity가 agentic MLLM의 RL에 중요함
- Tool Distribution: task-dependent preferences를 보임
- Adaptive Thinking: RL 사용 전에는 tool에 과도하게 의존하지만, RL 이후에는 tool invocation reate가 유의미하게 감소하여 모델이 adaptive reasoning을 학습함을 보임. (필요할 때만 tool 사용함)
- Training Dynamic: RL 학습 중 tool calls 횟수는 감소하지만 높은 variance를 가져 고정된 수의 도구를 호출하지 않고, 필요할 때만 도구를 호출하는 adaptive thinking을 함. 짧아진 응답 길이는 더 효율적인 추론을 수행함을 의미함. 즉, RL은 tool-use effectiveness를 향상시키며, reasoning에서의 diversity, complexity, efficiency를 장려함.

external tool 사용하는 논문을 찾다가 알게 된 논문이다.

아직 억셉 여부도 안나온 논문인데 깃허브 스타 수가 400개가 넘어가서 궁금한 마음에 읽게 되었다.

다른 논문에서도 SFT 이후에 RL을 사용하던데 이러한 방법이 효과적임을 실험적으로 보여주어서 좋았다.

전체적인 컨셉은 이해하였는데, 그래서 어떻게 동적으로 도구 호출을 학습하는지는 잘 모르겠다.

코드를 살펴봐야 알 수 있을 것 같다...!!

'Paper' 카테고리의 다른 글

논문 리뷰 \| R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization (ICCV 2025) (0)	2026.01.04
논문 리뷰 \| Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models (ICLR 2025) (0)	2026.01.03
논문 리뷰 \| Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs (2025) (0)	2025.12.24
논문 리뷰 \| Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding (AAAI 2026) (0)	2025.12.23
논문 리뷰 \| R-Tuning: Instructing Large Language Models to Say ‘I Don’t Know’ (NAACL 2024) (0)	2025.12.21