https://arxiv.org/abs/2510.00705v1
Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs
Multimodal Large Language Models (MLLMs) often struggle with fine-grained perception, such as identifying small objects in high-resolution images or finding key moments in long videos. Existing works typically rely on complicated, task-specific fine-tuning
arxiv.org
[ Training-free Uncertainty Guidance for Complex Visual Tasks with MLLMs (2025) ]
흔히 MLLM은 모든 입력을 equal attention으로 처리하기 때문에 general visual understanding은 잘하지만, fine-grained perception에 약함 (고해상도 이미지에서 작은 물체를 인식하거나, 긴 비디오에서 중요한 순간을 찾는 것 등 sparse한 정보를 식별하는 것은 약함)
기존 연구들은 이를 해결하기 위해 task-specific fine-tuning을 수행해 generalizaiton이 어렵고, complexity 증가함
이에 모델의 intrinsic uncertainty를 활용하는 프레임워크 제안함
모델이 관련있는 시각 정보를 볼 때 output entropy가 낮아지는 것을 확인하고, 여러 candidate visual input을 모델에 넣어 response uncertainty를 계산해 모델이 자동적으로 중요한 부분에 집중할 수 있도록 함
해당 프레임워크를 3개의 visual tasks (Visual Search, Long Video Understanding, Temporal Grounding)에서 검증해 모델에 모듈을 붙이거나 파인튜닝하지 않고도 경쟁력있는 성능을 보임
✦ Introduction
기존 연구들은 모델의 uncertainty를 post-hoc error detection으로 사용하였는데, 이를 proactive guidance signal로 활용한 것은 적음
본 연구는 intricsic uncertainty를 가장 정보가 많은 visual input을 식별하는 강력한, 실시간 신호로 가정함
MLLM이 정답과 관련있는, 정확한 시각 정보를 받으면 predictive confidence는 올라가고, output uncertainty는 감소하는 것을 확인
→ 이에 minimum uncertainty의 상태를 찾는 하나의 통합된 프레임워크 Uncertainty-Guided (UG)를 제안함
training-free, model-agnostic framework로, 아키텍처 변경이나 파인튜닝 필요 없이 기존 MLLM에 바로 적용 가능함
✦ Framework

확대된 입력이 제공될수록 output entropy가 감소하면서, task accuracy는 증가함
이러한 inverse correlation은 가장 관련있는 시각 정보를 제공하는 것이 모델의 confidence와 performance를 올리는 것임을 보여줌.
주어진 visual input v, texture query q로 모델의 uncertainty를 output probability distribution으로 측정함
- Token Entropy (general-purpose relevance scoring)

각 스텝에서의 entropy를 계산하고 이를 전체 생성 시퀀스 길이 T로 나누어 평균을 구함
$p_{i,j}$는 i번째 스텝에서의 j번째 단어의 확률을 의미함
lower entropy는 lower uncertainty를 나타내 visual input이 query와 높은 관련성을 가진다고 할 수 있음
- Binary Response Confidence (BRC) (directional measure of uncertainty)
binary decision이 필요한 태스크에서는 token entropy가 적절하지 않음 (yes/no 모두 low entropy를 가질 수 있음)

첫 토큰 생성 분포에서 yes에 대한 확률과 no에 대한 확률의 차이를 사용함
1️⃣ UG-Search: Visual Search in High-Resolution Images
이미지를 sliding window 사용해 나누어 candidate crops를 생성함
각 crop을 원본 이미지와 함께 MLLM에 입력해 Token Entropy 계산
가장 낮은 엔트로피를 가지는 crop을 가장 정보가 많은 영역으로 선택하고 해당 크롭만으로 답변 생성
2️⃣ UG-Sample: Frame Sampling for Long Videos
비디오의 각 프레임 또는 짧은 window를 candidate visual input으로 간주함
각 candidate에 대해 Token Entropy 계산
entropy가 가장 낮은 top-k frames를 선택해 하나의 context로 만들어 최종 인퍼런스 수행
3️⃣ UG-Ground: Temporal Grounding of Events
비디오를 sliding window를 사용해 각 윈도우에 대해 target event가 있는지를 querying하여 BRC score 계산
maximum sum을 가지는 subarray를 찾음
✦ Experiments

논문 읽으면서 ViCrop이 계속 생각났는데 성능 비교한게 있어서 가져와봤당
본 논문의 방법론이 성능 향상이 더 큼. 왜지?
초반에 이미지 확대하면서 실험하는 것, 크롭한 이미지를 원래 이미지랑 같이 모델에 넣는 것 등등 MLLMs know where to look 논문이 계속 생각이 났는데 방법은 이게 더 직관적인 것 같다 ㅎㅎ