무려 6가지의 다른 모달리티에 대한 joint embedding 학습 방법을 소개하는 Meta의 23년도 cvpr 논문이다.
이미지와 각 모달리티의 paired data로만 학습하여도 이미지를 제외한 다른 모달리티들 간의 emergent alignment가 발생한다는 아주 신기한 발견을 보여준다.
근데.... 논문 제목... 너무 페이커 생각나
17 롤드컵 오리아나.. 쇼크웨이브,,
https://arxiv.org/abs/2305.05665
ImageBind: One Embedding Space To Bind Them All
We present ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data. We show that all combinations of paired data are not necessary to train such a joint embedding, and only image
arxiv.org
[ IMAGEBIND: One Embedding Space To Bind Them All (2023) ]
✦ Abstract
본 논문은 6개의 다른 종류의 데이터를 하나의 공통 벡터 공간으로 바인딩하는 ImageBind를 제안한다. 가능한 모든 모달리티의 조합을 pair로 학습하지 않고, 이미지와 각 모달리티의 pair만 학습해도 모든 모달리티를 바인딩하는 데 충분함을 보여준다. 이를 통해, cross-modal retrieval, composing modalities with arithmetic, cross-modal detection/generation과 같은 emergent capability가 발생한다.
✦ Introduction
인간에게 있어서 이미지는 다양한 경험을 결합하도록 하는 강력한 매개체이다. 이러한 이미지의 binding property는 visual feature를 학습하는 supervision으로 활용될 수 있다. 이에 모델이 인간처럼 binding을 수행하기 위해서는 visual feature가 모든 센서 모달리티와 align 되어 있는 single *joint embedding space를 만들어야 한다. 이를 위해서 동일한 이미지를 기반으로, 가능한 모든 모달리티 조합 간의 paired data가 필요하지만, 이러한 데이터를 얻거나 만드는 것은 매우 힘든 일이다.
기존 연구들은 이미지-텍스트, 이미지-오디오처럼 이미지와 하나의 모달리티만 align하여 학습하는 방법이 많은데, 이렇게 얻은 final embedding은 학습에 사용된 모달리티 조합에만 잘 작동하게 되어 다른 모달리티에 대한 일반화 능력이 떨어진다. 또, joint embedding을 학습하는 것에 있어서 가장 큰 제한점은 앞서 말했듯이 모든 모달리티 쌍이 존재하는 대규모 멀티모달 데이터가 없다는 것이다.
이에, ImageBind는 모든 모달리티 조합이 아닌 이미지와 각 모달리티의 쌍을 학습함으로써 6개의 서로 다른 모달리티에 대한 joing embedding을 학습하는 방법론을 제안한다. 사용하는 모달리티는 image (+video), text, audio, depth, thermal, IMU data이다.
※ joint embedding space : 서로 다른 모달리티의 데이터를 같은 차원과 의미 축을 공유하는 벡터 공간으로 매핑하는 것
이를 통해, 다른 모달리티의 임베딩을 같은 기준에서 직접 비교하거나 연산할 수 있음.
✦ Related Work
기존 연구에 따르면, image와 language를 함께 학습하는 것이 zero-shot recognition이나 text-to-image retrieval에 매우 효과적임이 증명되었다. CLIP, ALIGN, CoCa, Flamingo와 같은 모델들이 그 예시이다. 그런데, 이 모델들은 이미지와 텍스트 모달리티에만 집중한 것으로 그 외의 모달리티에 대한 zero-shot 성능을 기대하기가 어렵다.

앞선 모델 중, CLIP에 조금 더 집중을 해보면, CLIP은 대규모 이미지와 텍스트 데이터의 pair를 학습하는 모델이다. 이미지 인코더와 텍스트 인코더는 각각의 입력을 임베딩 공간으로 매핑하며, 임베딩 간의 cosine similarity를 contrastive learning으로 학습한다. 이를 통해, 텍스트 프롬프트만으로도 학습하지 않은 이미지를 분류할 수 있는 zero-shot classification이 가능하다. CLIP처럼 image-language pre-training 방법이 크게 성공하면서, CLIP을 사용하여 다른 모달리티를 linguistic input과 align하여 semantic representation을 학습하는 시도가 늘어나게 되었다.

그 예시로, AudioCLIP은 기존 CLIP framework에 오디오를 추가적인 모달리티로 사용한 것인데, 기존 CLIP이 이미지-텍스트 쌍만 학습하였다면, AudioCLIP은 추가적으로 이미지-오디오 쌍, 텍스트-오디오 쌍을 학습하여 zero-shot audio classification이 가능해졌다. 모달리티가 하나가 추가됨에 따라 2가지의 데이터 쌍을 추가적으로 학습해야 하는 것이다. 만약, 기존 방식대로 멀티모달 러닝을 수행할 때, 여기서 모달리티가 더 추가된다면 학습해야 하는 데이터 쌍이 훨씬 많아질 것이다.
✦ Method

ImageBind는 이미지를 supervision으로 사용하기 때문에 모든 모달리티 간의 직접적인 paired data가 없어도 된다는 것이 큰 장점이다. figure의 왼쪽처럼 이미지와 각 모달리티 쌍만을 학습하여도 오른쪽과 같이 single joint embedding space를 구축할 수 있다. 여기서 점선으로 연결된 관계는 직접적인 training data 없이도 zero-shot ability가 발생하게 된다. ImageBind의 방법론은 사실 매우 간단하다. 각 모달리티 별로 데이터를 인코딩하여 임베딩 간의 contrastive learning을 수행하는 것이다.
ImageBind는 모든 모달리티에 대해 encoder로 Transformer 아키텍처를 사용한다. 이미지와 비디오의 경우 모두 vision transformer (ViT)를 사용한다. ViT는 이미지를 일정 크기의 패치로 나누고, 각 패치들을 임베딩하여 토큰 시퀀스로 변환하는 구조이다. 기존 ViT는 2d 이미지를 입력으로 받기 때문에 시간 정보를 고려하지 않는다. 그런데, 비디오와 이미지를 동일 아키텍처에서 처리하기 위해서 비디오의 시간 정보를 반영하기 위해 ViT의 patch projection layer를 시간 축으로 확장해서 처리한다. 이를 위해, 2d convolution이 아닌 3d convolution을 사용한다. 오디오는 시간 축과 frequency 축으로 이루어진 mel-spectrogram으로 변환하면 2차원 이미지로 간주될 수 있어 마찬가지로 ViT를 사용한다. thermal 이미지와 depth 이미지는 컬러 이미지로 나타낼 수 있지만 실제 데이터는 각각 온도값 하나, 거리값 하나만 존재하기 때문에 흑백 이미지처럼 one channel 이미지로 취급하여 역시 ViT로 인코딩한다. IMU 데이터는 가속도와 각속도를 x, y, z 세 방향으로 측정하여 총 6개의 채널을 갖는다. 이 데이터는 (6, 2000) 형태이며, 이를 1D 패치로 분할한 뒤, 각 패치를 flatten하여 linear projection을 통해 임베딩 차원으로 매핑한다. 이는 이미지처럼 2D가 아닌 1D 시퀀스 형태여서 ViT가 아닌 일반적인 트랜스포머 구조를 사용한다. 텍스트는 CLIP의 text encoder를 사용하였다.
이렇게 모달리티마다 개별 인코더를 사용하기 때문에 원하는 인코더를 pretrained model로 자유롭게 초기화해 사용할 수 있다는 장점이 있다. 또, 각 인코더 뒤에는 modality-specific linear projection head를 추가해 모든 모달리티의 출력 벡터 차원을 맞추어 서로 다른 모달리티를 같은 임베딩 공간에서 비교할 수 있다. 이렇게 얻은 임베딩과 인코더는 infoNCE loss로 학습되어 joint embedding space 안에서 positive sample의 임베딩은 가깝게, negative sample의 임베딩은 멀어져 다른 모달리티 간의 alignment가 발생한다. 이를 통해, 이미지와 각 모달리티 간의 쌍만을 학습하여도 공통 임베딩 공간에서 다른 모달리티 간의 alignment도 유도된다.
✦ Experiments
- Emergent zero-shot classification

텍스트 프롬프트로 각 모달리티에 대한 classification 성능을 확인하여 텍스트 임베딩이 다른 모달리티와 얼마나 잘 정렬되어 있는지를 측정하는 실험이다. 파란색으로 하이라이트가 된 부분은 emergent zero-shot classification이 나타난 것으로, 이 능력에 대해 직접적인 학습이 이루어지지 않았기 때문에 emergent라는 용어를 사용한다. Text Paired는 각 모달리티의 데이터를 grayscale 이미지로 변환하여 CLIP으로 캡셔한 텍스트 데이터와 모달리티 데이터 쌍을 학습한 것이다. Absolute SOTA는 각 벤치마크에서의 최고 supervised 성능이다.
직접적인 pair를 학습하지 않은 depth, audio, thermal, IMU 모달리티에서 각 태스크를 위해 supervised된 기존 모델과 비교 가능한 수준의 성능을 보였다. 특히, depth의 경우, Text Paired baseline의 성능을 능가하는 모습을 보여 이미지 중심의 alignment 만으로 text supervision이 다양한 모달리티로 일반화 가능함을 나타낸다.
- Emergent zero-shot audio retrieval and classification

오디오-텍스트 쌍을 직접 학습하지 않아도 텍스트로 오디오를 검색하거나 분류하는 데 있어서 기존 방법과 동등하거나 능가하는 보습을 보였다. 특히, Clotho 벤치마크에 대해서 AVFIC 대비 2배의 성능 향상을 보였다. AudioCLIP 모델은 AudioSet 데이터셋의 클래스 이름을 text supervision으로 사용하였는데, ImageBind가 ESC 벤치마크에서 AudioCLIP과 유사한 성능을 보였다.
- Zero-shot text based retrieval

MSR-VTT 벤치마크에 대해 텍스트 기반 오디오, 비디오 retrieval을 수행한 결과이다. 마찬가지로, 텍스트-오디오 pair를 학습한 적이 없기 때문에 오디오만 사용한 경우에 emergent zero-shot ability가 발생했다고 할 수 있다. 오디오와 비디오 모달리티를 결합하여 사용한 ImageBind 방식이 기존 방법을 크게 능가하는 매우 강력한 retrieval 성능을 보였다. 이를 통해, ImageBind가 학습한 멀티모달 임베딩이 서로 보완적으로 작용하는 것을 알 수 있다.
- Few-shot classification

figure의 왼쪽에서 ImageBind는 self-supervised 모델인 AudioMAE와 fully supervised 모델인 Supervised 보다 zero에서 4- shots에서 최대 40%의 차이를 보이며 성능 우위를 보였다. zero-shot 성능도 supervised 모델의 two shots 성능보다 좋은 것을 알 수 있다. 오른쪽의 depth classification에서는 이미지, depth, semantic segmentation masks에 학습된 MultiMAE 모델과 비교하였을 때, 큰 성능 차이로 우수한 성능을 보였다.
✦ Analysis and Applications

기존 텍스트 임베딩에서는 king – man + woman ≈ queen 과 같은 산술연산이 가능하다는 점이 알려져 있다. 이와 유사하게, ImageBind에서 학습된 임베딩 공간에서도 다양한 모달리티의 정보를 조합할 수 있는지 실험한 결과, figure에서처럼 이미지 임베딩과 오디오 임베딩을 더한 벡터로 이미지를 retrieval 하였을 때, 두 개념이 섞인 이미지를 반환하는 것을 알 수 있다. 이는 서로 다른 모달리티 간의 정보가 같은 임베딩 공간에 의미적으로 잘 정렬되어 있다는 것을 보여주는 emergent compositionality 능력을 의미한다.
이러한 멀티모달 임베딩을 활용해 기존의 텍스트 기반 모델을 오디오 기반 모델로 확장할 수 있다. pre-trained된 텍스트 기반 detection 모델인 Detic의 텍스트 임베딩을 ImageBind의 오디오 임베딩으로 교체하면 학습 없이도 오디오 기반 detection과 segmentation을 수행할 수 있다. 또한, pre-trained된 DALLE-2 모델의 프롬프트 임베딩을 마찬가지로 ImageBind의 오디오 임베딩으로 교체했을 때 오디오에 기반하여 이미지 생성이 가능하다.
⇒ 이는 ImageBind, Detic, DALLE-2 모두 CLIP을 사용하기 때문
( 발표 자료 )





























