본문 바로가기
Paper

논문 리뷰 | Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models (ICLR 2025)

by 힢힢 2026. 1. 3.

https://arxiv.org/abs/2507.04976

 

Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models

In the broader context of deep learning, Multimodal Large Language Models have achieved significant breakthroughs by leveraging powerful Large Language Models as a backbone to align different modalities into the language space. A prime exemplification is t

arxiv.org

 

https://openreview.net/forum?id=P9VdRQOyqu

 

Can Video LLMs Refuse to Answer? Alignment for Answerability in...

In the broader context of deep learning, Multimodal Large Language Models have achieved significant breakthroughs by leveraging powerful Large Language Models as a backbone to align different...

openreview.net

https://github.com/EsYoon7/UVQA

 

GitHub - EsYoon7/UVQA: [ICLR'25] Official code for "Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large

[ICLR'25] Official code for "Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models" - EsYoon7/UVQA

github.com

 


 

[ Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models (ICLR 2025) ]

 

기존 모델들은 비디오 내용으로부터 생성된 질문에 대해 학습되어 비디오 밖의 내용에 대한 질문을 잘 처리하지 못함.

이에 answerability를 위한 alignment 방법을 제안함. 비디오에 기반하여 질문의 relevance를 평가하는 프레임워크임.

alignment 이전과 이후의 모델 양상을 평가하는 metric과 평가 데이터셋을 제안함.

 


Introduction

 

기존 모델들은 traditional video understanding, QA benchmarks에서 꾸준한 성능 향상을 보였지만, unanswerable question evaluation benchmark 성능은 상당히 낮음.

또한, 모델을 스케일링하는 것이 기존 벤치마크에서는 성능 향상을 가져왔지만, unanswerable question evaluation benchmark에서는 유의미한 성능 향상을 보이지 않음.

즉, 기존 Video-LLMs는 비디오 밖의 정보에 대한 질문을 적절하게 처리하지 못함.

 


 

Alignment for Answerability in Video-LLMs

 

  - Defining Alignment for Answerability

 

기존 모델들은 video-question-answer triplets ($v, x, y_{gt}$)에 대해 학습함.

($v$ : input video, $x$ : questions, $y_{gt}$ : corresponding answers)

→ 영상으로 답변 가능한 정답으로만 학습되어서 모델이 답변을 하지 못하는 상황을 학습해본 적이 없음

 

1️⃣ alignment for answerability를 평가하기 위해, 모델의 답변 $y$를 카테고리화

 

  • correct: y가 unanswerable indicator를 포함하지 않고, 정확한 답변 $y_{gt}$을 y에 포함함 (거절 안하면서 정답 맞힌 경우)
  • wrong: y가 unanswerable indicator를 포함하지 않고, 정확한 답변 $y_{gt}$을 y에 포함하지 않음 (거절 안하면서 정답 틀린 경우)
  • unanswerable_w: y가 unanswerable indicator를 포함하면서, 거절하는 이유가 정답 $y_{gt}$와 다름 (거절하면서 거절 이유 틀린 경우)
  • unanswerable_c: y가 unanswerable indicator를 포함하면서, 거절하는 이유가 정답 $y_{gt}$와 일관적임 (거절하면서 거절 이유 맞힘)

2️⃣ scoring function for alignment for answerability 정의

 

질문이 답변 가능하면 $k(v,x)=1$, 답변 불가능하면 $k(v,x)=-1$

모델 $M$이 $s(v,x,y)=1$을 선호하도록 학습함

 

aligned model $M'$는 SFT 혹은 DPO와 같은 alignment algorithm으로 학습됨

 


 

  - Evaluation Metrics for Alignment for Answerability

 

align 되기 전 모델과 align 된 모델 간의 가능한 모든 response type 변화를 나타냄.

 

(1) overall accuracy: 전체 답변 중 올바른 답변의 비율

그러나, accuracy 만으로는 alignment for answerability를 평가하는 것이 불충분함.

비디오 밖의 내용에 대한 질문을 인식하는 능력이 향상되었음을 확인해야 할 뿐만 아니라, 이전에 올바르게 답했던 질문을 거절하는지 평가해야함.

align 전과 후의 행동 변화를 기준으로 3가지의 metrics를 측정함.

 

(2) Excessive Refusal Score: 답변 가능한 질문에 대해 align 후 거절로 바뀐 개수 / 답변 가능한 질문에 올바르게 답변한 개수

모델이 답변이 불가능하다고 답변하도록 학습되면서, 기존에 잘 답변하던 능력이 줄어드는지를 평가함 (낮을수록 좋음)

 

(3) Permissiveness Score: 답변 가능한 질문에 대해 align 후 답변한 개수 / 답변 가능한 질문에 대해 답변 거절한 개수

기존에 답변 가능한 질문에 대해 거절했던 경우에 대해 답변하도록 바뀌는지를 평가함 (높을수록 좋음)

 

(4) Discretion Score: 답변 불가능한 질문에 대해 align 후 거절한 개수 / 답변 불가능한 질문에 대해 답변한 개수

답변 불가능한 질문을 인식하는 것을 실패한 경우에 대해 인식 성능이 향상하는지를 평가함 (높을수록 좋음)

 


 

- Dataset Creation for Alignment for Answerability

앞서 언급했듯이, 모델은 $s(v,x,y)=1$이 되도록 학습됨.

즉, 질문이 답변 가능하면 올바른 답변을 하도록 ($k(v,x)=1$, $t(y)=1$), 질문이 답변 불가능하면 적절하게 거절하도록 ($k(v,x)=-1$, $t(y)=-1$) 학습하는 것임.

 

기존 데이터셋들은 $k(v,x)=1$인 경우가 대부분이어서 모델이 거절을 학습하지 못함.

이에 기존 데이터셋을 활용해 새로운 데이터셋 UVQA를 제안함.

 

video-description pairs $(v,d)$를 사용해 틀린 설명 $d'$과 어떤 종류의 변경인지를 나타내는 $c$로 구성된 $(d',c)$ 생성

이를 입력으로 하여 LLM을 사용해 $(x, y_{gt})$를 생성함 ($x$: 답변 불가능한 질문, $y_{gt}$: answerable indicator와 거절 이유 포함한 답변)

 


 Experiments

unaligned baseline, SFT로 학습, DPO로 학습한 3가지의 설정을 비교함

 

Answerability Correctness는 answerability를 맞게 판단했는지를 F1 score로 측정

Alignment Performance는 위와 같은 지표로 측정

Absolute Performance 중 $S_{acc}$는 앞서 설명한 overall accuracy로 측정, $LLM_{score}$는 GPT-4가 0-5로 측정

 

모든 베이스 모델에서 모든 지표에 대해 unaligned보다 SFT, DPO 사용하였을 때 성능 크게 향상됨

DPO는 $S_{ex-ref}$가 더 낮아 불필요한 거절을 더 적게 하고 $S_{permis}$는 더 높아 답변해야 하는 질문에 더 잘 답함

이는 DPO기존 모델의 성능을 어느 정도 유지하면서 unanswerable question을 처리하는 능력이 향상되었다고 할 수 있음 (soft alignment)

 

 


이전에 포스팅한 프레임워크처럼 SFT 후에 DPO 사용하면 성능 향상될지 궁금함