https://arxiv.org/abs/2511.23151
Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding
Video Temporal Grounding (VTG) aims to localize a temporal segment in a video corresponding to a natural language query. However, existing VTG models assume that a relevant segment always exists, causing them to always predict a target segment even when th
arxiv.org
[ Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding (2025) ]
기존 VTG 모델은 영상 내용과 매우 유사한 hard-irrelevant queries에 대해 거부하는 것에 어려움을 겪는다.
이에, GRPO와 네 가지의 reward를 사용하여 관련성을 구별하는 능력을 향상시킬 뿐만 아니라 쿼리와 비디오 간의 fine-grained semantic difference를 이해하기 위한 reasoning ability를 높였다.
✦ Refusal-Aware Reinforcement Fine-Tuning
모델은 비디오 v가 주어질 때, 관련있는 query-answer pairs $\{q_r, a_{time}\}$와 관련 없는 query-answer pairs $\{q_{ir}, a_{refusal}\}$을 통해 학습된다.
- Overall Reward: $r(o) = r_{for}(o) + r_{R\text{-}IoU}(o) + r_{exp}(o) + r_{cor}(o)$
- Format Reward: 모델이 미리 정의된 템플릿에 맞추어 출력을 생성하도록 함

- Refuse-IoU Reward: 관련 있는 쿼리에 대해서는 관련한 segment를 정확하게 예측하도록, 관련 없는 쿼리에 대해서는 세그먼트를 예측하지 않도록 함

$\hat{a}$은 answer 태그 안에서 추출되는 것으로, 관련 있는 쿼리의 경우, 예측한 타임스탬프와 gt 타임스탬프 간의 IoU를 사용한다. 관련 없는 쿼리의 경우, 타임스탬프를 예측하지 않을 때 1의 리워드를 부여한다.
- Explain Reward: fine-grained semantic differences를 포착하는 능력을 향상시키기 위해, refusal answer이 semantic mismatch를 명확하게 생성하도록 함

관련 있는 쿼리의 경우, gt 타임스탬프를 positive answer로, refusal answer을 negative answer로 사용해 각각의 SentenceBERT 임베딩 간의 코사인 유사도를 측정하고 뺀 값을 리워드로 사용한다.
관련 없는 쿼리의 경우, pos/neg answer를 반대로 적용한다.
- Query Correction Reward: 관련 없는 쿼리에 대해서는 관련된 쿼리를 만들도록 하여 실제 관련 쿼리와의 유사도를 리워드로 사용해 understanding을 향상시킴

✦ Hard-Irrelevant VTG Dataset

GPT-5-mini를 사용해 쿼리를 쿼리와 비디오 간의 관계를 잘 설명하는 11개의 semantic relevance category로 분류한다. 추출된 카테고리와 기존 쿼리를 기반으로, 하나에서 세 개의 semantic element를 변형한다. 한 가지를 변형하면 Strong Hard-Irrelevant, 두 가지를 변형하면 Moderate Hard-Irrelevant, 세 가지를 전부 변형하면 Weak Hard-Irrelevant로 분류된다. 생성된 각 쿼리에 대해 GPT-5-mini를 사용해 쿼리가 영상과 일치하지 않는 이유를 설명하는 refusal answer을 생성한다.
이전에 읽었던 Can Video LLMs Refuse To Answer? 논문이랑 굉장히 유사한 논문이다.
DPO 대신 GRPO를 사용해서 리워드 디자인을 새롭게 한 것이 다른 점이라고 할 수 있을 것 같다.