논문 리뷰 | ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language Models (CVPR 2025)

ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large language Models

Contrastive decoding strategies are widely used to mitigate object hallucinations in multimodal large language models (MLLMs). By reducing over-reliance on language priors, these strategies ensure that generated content remains closely grounded in visual i

arxiv.org

[ ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language Models (2025) ]

MLLM이 이미지 기반 질문에 답할 때, 모델이 language priors에 지나치게 의존하여 이미지에 없는 object에 대해 답변하는 object hallucination 문제가 존재한다. 이를 해결하기 위해 contrastive decoding을 사용할 수 있다. 이는 두 가지의 출력을 비교해서 language priors를 억제하는 방법이다.

대표적인 contrastive decoding 방법으로 Visual Contrastive Decoding (VCD)이 있다. original visual input과 perturbed visual input 간의 output distribution을 비교함으로써 language priors에 대한 의존 문제를 완화해 hallucination을 줄일 수 있다. (변형에도 변하지 않은 정보는 language priors에 대한 의존 가능성이 높은 정보, 변형에 민감한 정보는 visual 정보이기 때문)

VCD 기법을 통해 새롭게 계산되는 distribution은 원본 이미지 v에 대한 logit에 해당 logit과 distorted visual input v'에 대한 logit의 차이에 scaling factor를 곱한 값을 더해주어 softmax를 적용한 것이다. visual 정보는 두 logit의 차이가 크기 때문에 강화되고, language 정보는 두 logit의 차이가 작아 상대적으로 억제된다.

Instruction Contrastive Decoding (ICD)은 standard instruction과 disrupted instruction의 출력을 비교한다. 이러한 contrastive decoding은 추가 학습이나 모듈이 필요하지 않아 효율적이지만, 1) language priors를 억제하는 것이 출력의 품질을 저해시킬 수 있고, 2) contrastive input을 처리하는 것이 계산량을 늘려 inference speed를 늦춘다.

1) contrastive decoding은 예/아니오처럼 응답이 제한적인 태스크에서는 괜찮지만, 선택지가 많거나 captioning처럼 복잡한 태스크에 서는 출력의 품질 저하가 두드러진다. 실험 결과, ScienceQA 벤치마크에서는 5%, NoCaps 벤치마크에서는 45%의 성능 하락을 보여 contrastive decoding 사용이 language generation이 중요한 태스크에서 큰 성능 저하를 발생시킬 수 있음을 보였다.

2) 원본 입력과 contrastive input에 대한 logit을 계산해야 하므로 forward를 2번 수행해 연산량이 거의 2배에 달한다. 실제로 실험 결과, inference time이 약 2배 증가하였다.

본 논문의 분석 결과, hallucination의 원인은 language priors에 대한 over-reliance 때문이 아닌, modality fusion 과정에서 visual information에 대한 attention이 불충분하기 때문이었다. 이에, modality fusion이 강하게 발생하는 middle layer의 visual signal에 대한 attention을 증가시키는 Visaul Amplification Fusion (VAF)을 제안한다. 이를 통해, visual features를 더 잘 포착하게 하여 hallucination을 줄일 뿐만 아니라 language priors를 유지할 수 있다. 또한, contrastive sample을 처리할 필요가 없기 때문에 속도 저하가 없다.

✦ Visual Neglect in Modal Fusion

MLLM이 왜 visual content는 간과하고, language priors에 과하게 의존하는지 알아내기 위하여 모델이 어떻게 visual modality information을 활용하는지를 saliency technique을 사용해 분석하였다.

saliency score는 attention과 loss에 대한 gradient를 곱한 값을 통해 계산되며, $I_l(i,j)$는 layer l에서 토큰 j로부터 토큰 i로 흐르는 정보가 예측에 기여한 중요도를 나타낸다. Svv는 이미지 토큰끼리의 정보 흐름의 중요도를 측정하고, Svt는 이미지 토큰으로부터 instruction token으로의 정보 흐름 중요도를 측정하는 수식이다.

이 수식들을 통해 모델의 middle layer에서 visual-texture information이 활발하게 융합되는 것을 알 수 있다.

attention allocation, $\lambda$는 single layer에서 토큰에 할당된 attention score의 총량이다. 첫 수식은 instruction token이 system prompt를 얼마나 참고했는지, 즉, 시스템 프롬프트에 대한 attention 총량을 나타낸다. 두 번째 수식은 visual token에 대한 attention 총량을, 세 번째 수식은 instruction token에 대한 attention 총량을 의미한다.

modality fusion이 활발하게 발생하는 middle layer에서 visual features에 대한 attention이 system prompt, user instructions에 할당된 attention보다 낮다. 즉, visual information을 덜 활용하기 때문에 language priors에 과하게 의존하게 되는 것이다.

✦ Visual Amplification Fusion

visual token에 더 많은 attention을 부여하기 위해 softmax를 적용하는 attention score를 조정한다. $M^{enh}$는 enhancement mask matrix로, insturction이 참고하는 visual token만 강화하기 위해 사용하는 마스크이다. $M^{sup}$는 suppression mask matrix로, instruction이 참고하는 system prompt token을 억제하기 위해 사용하는 마스크이다.

그러나, 모든 attention head에 대해 visual attention을 강화하면 content generation 성능에 영향을 끼칠 수 있다. 이를 해결하기 위해, selective enhancement strategy를 적용한다. visual information에 민감한 attention head를 visual perception head라고 할 때, 이 헤드에 대해서만 attention을 강화하는 것이다. $\lambda^{l,h}_{vis}$ 값을 기준으로 상위 50% head를 visual perception heads라고 정의한다.

✦ Experiment

Hallucination Mitigation
- VAF가 모든 모델에서 VCD, ICD 보다 높은 성능 (hallucinaiton 완화)
- MME 벤치마크에서 object/attribute-level hallucination 모두 완화
Coherence of Generated Content
- VCD, ICD는 CIDEr score가 크게 하락, language priors를 억제하는 것이 생성 문장의 coherence, accuracy 저하시킴
- VAF는 CIDEr score 유지해 coherence, accuracy를 유지함.
Inference Speed
- VCD, ICD는 inference time이 거의 2배 증가
- VAF는 거의 변동 없음

( 발표자료 )

본 논문은 contrastive decoding이 가지는 출력 품질 저하, inference speed 개선에 초점을 맞추었지만, 논문을 통해 contrastive decoding을 처음으로 알게된 터라 논문에서 제안하는 VAF보다 contrastive decoding이 더 흥미로웠다 ㅎㅎ

굉장히 직관적이고 재미있는 아이디어인 거 같당

'Paper' 카테고리의 다른 글

논문 리뷰 \| Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding (AAAI 2026) (0)	2025.12.23
논문 리뷰 \| R-Tuning: Instructing Large Language Models to Say ‘I Don’t Know’ (NAACL 2024) (0)	2025.12.21
논문 리뷰 \| MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis (CVPR 2025) (0)	2025.11.07
논문 리뷰 \| KOSMOS-2: Grounding Multimodal Large Language Models to the World (2023) (0)	2025.10.29
논문 리뷰 \| IMAGEBIND: One Embedding Space To Bind Them All (2023) (2)	2025.07.08

Muad'Dib

논문 리뷰 | ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language Models (CVPR 2025)

'Paper' 카테고리의 다른 글

티스토리툴바

논문 리뷰 | ClearSight: Visual Signal Enhancement for Object Hallucination Mitigation in Multimodal Large Language Models (CVPR 2025)

'Paper' 카테고리의 다른 글

관련글

티스토리툴바