https://arxiv.org/abs/2507.13773
Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions
In visual question answering (VQA) context, users often pose ambiguous questions to visual language models (VLMs) due to varying expression habits. Existing research addresses such ambiguities primarily by rephrasing questions. These approaches neglect the
arxiv.org
[ Teaching Vision-Language Models to Ask: Resolving Ambiguity in Visual Questions (ACL 2025) ]
기존 연구는 모호한 질문들을 주로 rephrasing하는 방식을 사용하였지만, 이는 user feedback을 통해 모호함이 해결될 수 있는, VLM이 가지는 user interaction 속성을 무시한다.
또한, interactive clarification을 평가할 수 있는 벤치마크가 없고, VLM이 질문이 아닌 답변을 하도록 훈련되었다는 챌린지를 가진다.
이를 다루기 위해, ClearVQA라는 벤치마크와 ambiguity-clarification question pairs를 자동으로 생성하는 파이프라인을 제안한다.
✦ ClearVQA Benchmark

$x = (v,q)$: question-image pair, $c$: clarification question, ξ: user's feedback (yes or no로 제한됨)

multi-turn interactive clarification 맥락에서 i번째 턴의 출력은 위와 같다.
함수 h는 3개의 함수로 분해할 수 있다.
- $f$: VQA function, $g$: clarification question generation function, $\Phi$: ambiguity detection function
일부 연구는 기존 데이터셋에서 annotator disagreement가 있는 예시를 사용하였지만, 이는 원래 질문자의 의도를 알 수 없기 때문에 clarification question의 정확성을 판단할 수 없다.
이에 명확한 질문과 답변을 모호한 질문으로 변환하는 방식을 사용한다.
다루는 ambiguity는 3가지로, 참조 표현이 대사을 고유하게 지정하지 않는 Referential ambiguity, 사용자의 요구를 나타내는 정보가 불충분한 Intent underspecification, 그리고 주요 개체에 대한 철자 오류인 Spelling ambiguity가 있다.
GPT-4와 ICL을 사용해 ambiguous questions와 corresponding clarification questions를 생성한다.
✦ Methodology

two-stage training process로 학습되며, SFT 후 DPO를 사용한다.
1. Supervised Fine-Tuning (SFT)
visual dialogue를 지원하는 오픈소스 VLM의 프롬프트 형식에 기반해 SFT data를 구축한다.
모델이 명확한 질문에는 바로 답변할 수 있도록 데이터에 unambiguous quesion-answer pairs를 균형있게 포함한다.
2. Direct Preference Optimization (DPO)
VLM이 SFT를 통해 interactive clarification을 할 수 있는 능력을 가졌다고 가정하고, DPO를 통해 명확한 질문은 불필요한 clarification을 하지 않으면서, 모호한 질문에는 clarification을 하도록 장려한다.
모호한 질문의 경우, clarification question이 직접 답변보다 선호되도록 하고, 명확한 질문의 경우, gold answer이 clarification question보다 선호되도록 한다.