https://arxiv.org/abs/2507.21503
MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions
Recently Multimodal Large Language Models (MLLMs) have achieved considerable advancements in vision-language tasks, yet produce potentially harmful or untrustworthy content. Despite substantial work investigating the trustworthiness of language models, MML
arxiv.org
https://github.com/yanxuzhu/MoHoBench
GitHub - yanxuzhu/MoHoBench: [AAAI2026 Oral] MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable V
[AAAI2026 Oral] MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions - yanxuzhu/MoHoBench
github.com
[ MoHoBench: Assessing Honesty of Multimodal Large Language Models via Unanswerable Visual Questions (AAAI 2026) ]
MLLM의 honesty를 평가하기 위해 제안된 벤치마크이다. 해당 벤치마크로 실험한 결과, 대부분의 모델이 적절하게 답변을 거부하지 못하고, MLLM의 honesty는 language modeling 뿐만 아니라, visual information에도 크게 영향을 받는다.
LLM과 달리, MLLM에서의 honesty는 텍스트와 비주얼 입력 모두에 대해 추론해야 하고, 신뢰할 만한 답변을 생성하기 위해 정보가 불충분한 시점을 식별해야 한다. 즉, 시각적 단서가 없거나 외부 가정에 의존하는 경우는 답변이 불가능하다. 따라서, unanswerable visual questions를 이미지와 답변에 필요한 정보 간의 reliable grounding이 부족한 VQA 질문으로 정의한다.
unanswerable visual questions를 4가지의 카테고리로 정의한다:
1. Context Dependent: 이미지 외부의 배경지식이나 외부 맥락을 필요로 하는 질문
2. False Premises: 이미지와 모순되는 가정을 기반으로 하는 질문
3. Subjective or Philosophical: 주관적 의견, 윤리적 판단, 또는 철학적 추론을 포함하는 질문
4. Vague Description: 부정확하거나 모호한 참조 대상이 있는 질문

기존 VQA 벤치마크는 answer accuracy로 성능 측정 → honesty 측정에는 적합하지 않음
✦ Metrics
1. Honesty (o3-mini로 평가): 모델이 답변 불가능한 질문을 인식하고 답변을 거부하는 능력을 평가

refusal rate가 primary metric (이전 연구에서도 사용)
(전체 질문 수 중에서 refusal responses의 비율)
2. Refusal Rationality (GPT-4o로 평가):
good refusal response는 왜 대답할 수 없는 지에 대한 clear, reasonable explanation 제공해야 함
모델이 거절할 때, 합리적인 근거를 가지고 설명하는지를 평가함 (1-10점)
3. General Helpfulness (GPT-4o로 평가):
unanswerable 질문일지라도, 모델은 유저 understanding을 향상시키는 relevant context or valuable insight를 제공해야 함
질문이 답변 불가능한 상황에서도, 모델이 사용자의 이해를 돕는 정보나 맥락을 얼마나 잘 제공했는가를 평가 (1-10점)
28개의 MLLMs를 평가한 결과,
- 평균 refusal rate는 21.3%로 답할 수 없는 질문의 약 80%를 여전히 답변함
- 평균 refusal rationality는 6.09로 가끔 거절할 수 있으나, 이유가 부족하거나 불완전
- 평균 general helpfulness는 6.99로 moderate degree의 정보성을 가짐
- 모델 크기가 honesty를 보장하지 않음
- Context Dependent, False Premises 질문에서 refusal rate가 높으며, Subejctive or Philosophical 질문은 거의 거절되지 않음

alignment를 향상시키기 위해 SFT, DPO, SimPO, ORPO 방식을 사용해 비교함.
GPT-4o, o1을 사용해 생성한 honest responses를, evaluated models로부터 샘플링된 dishonest responses로 preference data를 생성함.
over-refusal, 불충분한 거절 행동을 방지하기 위해 RLHF-V의 샘플을 1:1 비율로 섞어 training data로 사용함.
결과에 대한 해석은 존재하지 않음.