본문 바로가기
Paper

논문 리뷰 | KOSMOS-2: Grounding Multimodal Large Language Models to the World (2023)

by 힢힢 2025. 10. 29.

https://arxiv.org/abs/2306.14824

 

Kosmos-2: Grounding Multimodal Large Language Models to the World

We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i

arxiv.org

 


 

[ KOSMOS-2: Grounding Multimodal Large Language Models to the World (2023) ]

 

  • 기존 MLLM인 Kosmos-1에서 grounding 기능을 추가한 모델
  • Kosmos-1과 모델 구조, 학습 목표 동일하지만, grounded image-text pairs를 추가로 학습하여 grounding, referring 기능을 추가할 수 있었음
  • grounding이란 텍스트로 표현된 객체의 위치를 이해하고 이미지와 연결할 수 있는 능력을 말함
  • 마크다운의 하이퍼링크 형식을 활용한 input representation으로 텍스트와 location token을 하나의 시퀀스로 통합함 (vocab에 location token이 추가된 것)
  • 모델의 그라운딩 능력 향상을 위해 human instruction을 더 잘 이해하도록 하기 위하여 학습 후 추가적인 instruction tuning 수행