플젝 시작이다 ~.~
아자아자 화이띵 ~~ ₍ᵔ· ̫·ᵔ₎ྀི
https://arxiv.org/abs/2304.02556
Detecting and Grounding Multi-Modal Media Manipulation
Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery
arxiv.org
[ Detecting and Grounding Multi-Modal Media Manipulation (2023) ] (DGM4 / HAMMER)
✦ Introduction
멀티모달 미디어가 더 광범위한 정보 전달, 더 큰 영향력 가짐
→ 멀티모달 미디어 위조가 더 해로움
⇒ 더 설명 가능하고 해석가능한 해결책으로 DGM4 제시
기존 : 단일 모달리티, 단순 binary classification에 그침
→ 이미지, 텍스트 모달리티에서 동시에 위조 존재 탐지 가능 / 조작 이미지의 바운딩 박스, 조작된 텍스트 토큰을 grounding
조작된 멀티모달 미디어는 조작된 이미지 영역과 텍스트 토큰에 manipulation traces 남기고, 이 traces는 cross-modal correlation을 바꾸고, semantic inconsistency 유발함
⇒ 이미지와 텍스트 간의 semantic correlation을 추론하는 것이 멀티모달 조작의 탐지와 그라운딩의 힌트 제공
⇒ HAMMER
1) shallow manipulation reasonin
two uni-modal encoders 간의 manipulation-aware contrastive learning을 통해 이미지와 텍스트 임베딩 align
2) deep manipulation reasoning
multi-modal aggregator의 modality-aware cross-attention을 통해 멀티모달 임베딩을 aggregate
✦ Multi-Modal Media Manipulation Dataset
기존 데이터셋 : single-modality, small amount of human generated fake news, out-of-context pairs
⇒ DGM4 dataset : large-scale machine-generated multi-modal media manipulation
• image, text에 대해 다양한 조작 방법으로 구성되어 실제와 더 유사
• detection, grounding 가능하게 하는 rich, fine-grained labels
- Multi-Modal Media Manipulation
image / text modality에 두 가지 유형의 조작 적용
- Swap : global manipulation traces
- Attribute : fine-grained local manipulations
⇒ 조작된 이미지와 텍스트는 깨끗한 샘플과 무작위로 섞여 8개의 fake 클래스 + 1개의 원본 클래스로 샘플 구성됨
(FS, FA, TS, TA, FS + TS, FS + TA, FA + TS, FA + TA)
1️⃣ Face Swap (FS) Manipulation : 얼굴을 바꿈으로써 identity 공격
face swap 방식으로는 SimSwap, InfoSwap 사용
original image I_o 에서 가장 큰 얼굴 I^f_o 을 CelebA-HQ dataset에서의 random source face I^f_{celeb} 으로 교체해 face swap manipulation sample I_s 만듦
스왑된 얼굴 영역의 MTCNN bbox를 grounding 위한 annotation으로 저장 : $y_{box} = \{x_1, y_1, x_2, y_2\}$
2️⃣ Face Attribute (FA) Manipulation : identity는 유지한 채, emotion 조작 (정반대의 감정으로)
more fine-grained image manipulation
CNN-based network로 $I_o^f$의 감정 예측
→ GAN-based method (HFGI, StyleCLIP)로 정반대의 감정으로 편집 : $I^f_{emo}$
→ 조작된 얼굴 이미지 $I^f_{emo}$를 원본 이미지 $I_o$ 위에 re-render해 조작된 샘플 $I_a$ 얻음 (이 방법도 bounding box 제공)
3️⃣ Text Swap (TS) Manipulation : 주요 인물에 대한 단어는 보존하면서, 전체적인 semantic 변경
원본 캡션 $T_o$에 NER 모델 사용해 인물의 이름 추출 (PER)
→ 같은 PER entity를 포함하는 다른 텍스트 샘플 $T'_o$ 를 소스 O에서 찾음
→ Sentence-BERT로 시맨틱 임베딩 계산해 $T_o$와 코사인 유사도 낮은 $T'_o$를 조작된 텍스트 $T_s$로 사용 (not semantically aligned with $T_o$ 를 보장)
⇒ $p_m = (I_o, T_s)$ : 인물 동일, 내용 다름
→ $T_s$의 각 토큰 M개에 대해 조작 여부 나타내는 원핫벡터를 어노테이션으로 저장
4️⃣ Text Attribute (TA) Manipulation : sentiment 변경
attribute manipulation은 text swap 보다 cross-modal 비일관성이 덜하기 때문에 더 해롭고 탐지가 더 어려움
RoBERTa 모델로 캡션을 pos, neg, netural sentiment로 나눔 : $\{O_+,O_-,O_{neu}\}$
→ B-GST 모델 사용해 $T_o$의 모든 sentiment words를 정반대의 sentiment로 교체 (own corpora $\{O_+,O_-\}$ 로 모델 학습) ⇒ $T_a$ (text swap처럼 ground truth vector $y_{tok}$ 존재)
✦ HAMMER
- 두 개의 uni-modal encoder : image enc $E_v$, text enc $E_t$
- multi-modal aggregator : F
⇒ 모두 트랜스포머 기반 아키텍처
- manipulation detection and grounding heads
- binary classifier $C_b$
- Multi-Label Classifier $C_m$
- BBox detector $D_v$
- token detector $D_t$
앞서 언급했다시피, 두 모달리티 간의 semantic correlation을 모델링하고, semantic inconsistency 포착하는 것이 멀티 모달 manipulation의 detection, grounding을 가능하게 함
- Shallow Manipulation Reasoning

normal contrastive learning : subtle manipulations가 생성하는 minor semantic inconsistency 잘 탐지하지 못함, original image-text pairs 임베딩 가깝게 & unmatched pairs 임베딩 멀게
+ manipulation-aware contrastive learning : 추가로 manipulated pairs 임베딩도 멀어지게 해 semantic inconsistency 강조

negative samples에는 매칭되지 않는 것과 조작된 pair에서 나온 것도 포함.
projection head 사용해 768차원인 cls 토큰을 256의 저차원 임베딩 공간으로 매핑
MoCo에서 영감받아, 두 모달리티에 대해 momentum uni-modal encoder 학습, 대응되는 momentum projection head 존재
single modality 내의 reasonable semantic relation 유지하기 위해 intra-modal contrastive learning 수행 (v2v, t2t)
* Manipulated Image Bounding Box Grounding
FS, FA → 인물 관련 텍스트 (이름, 감정)와 대응하는 correlation 변화시킴
⇒ 조작된 이미지 영역이 텍스트 임베딩과 불일치하는 local patch에 위치할 것이라 주장
이미지와 텍스트 임베딩 간의 cross-attention 수행해 image-text correlation을 갖는 patch embedding 얻음
이미지 임베딩을 query, 텍스트 임베딩을 key, value로 사용!

이렇게 얻은 patch embedding은 cls 토큰과 다르게 position encoding으로 생성되어 richer local spatial information 담고 있어 manipulated image bbox grounding에 더 적합
(근데 포지션 인코딩으로 생성됐다는 게 뭔 말인지 모르겠어... 멀까...? 그리고 이미지 임베딩 왜 다시 더하는 걸까...)
* Local Patch Attentional Aggregation (LPAA)
attention mechanism으로 이미지 패치 토큰에 담긴 spatial information을 aggregate
u_{agg}=Attention([AGG],u_{pat},u_{pat})
추가적인 [AGG] 토큰을 query, 패치 벡터를 key, value로 어텐션해 aggregated embedding 얻고, manipulated bbox grounding 수행
$L_{IMG}=E_{(I,T)∼P}[∥Sigmoid(D_v(u_{agg}))−y_{box}∥+L_{IoU}(Sigmoid(D_v(u_{agg}))-y_{box})]$
→ $u_{agg}$를 $D_v$에 넣어 예측한 바운딩 박스와 실제 정답 바운딩 박스 간의 차이 측정
($D_v$ : BBox Detector)
- (입력) $u_{agg}$ : 이미지 패치 정보 요약한 임베딩
- (출력) 예측 바운딩 박스 좌표 : (x, y, w, h)
- Deep Manipulation Reasoning
manipulated token grounding 더 어려움
→ fine-grained manipulation types, binary classes 탐지하기 위해 멀티모달 정보를 요약해야 함
⇒ 이 단계에서는 포괄적인 정보 요약이 핵심
modality-aware cross-attention으로 텍스트 임베딩과 이미지 임베딩이 상호작용하도록 함
Multi-Modal Aggregator F의 multiple cross-attention 통과시켜 aggregated multi-modal embedding 얻음
여기서는 텍스트 임베딩을 query, 이미지 임베딩을 key, value로 사용!
F(E_v(I),E_t(T))=\{m_{cls},m_{tok}\}
텍스트의 각 토큰이 텍스트 인코더에서의 multiple self-attention과 F에서의 cross-attention을 통과하여, 각 토큰 임베딩은 텍스트의 context information과 image features와 모두 상호작용해 manipulated text tokens grounding에 적합
😨🔫 ..... 너무 어려워
티스토리에 Latex 도대체 어케 넣어요
검색해서 따라할 때마다 글씨 다 깨져서 매번 원상복구함.. 엉엉슨
'Paper' 카테고리의 다른 글
| 논문 리뷰 | IMAGEBIND: One Embedding Space To Bind Them All (2023) (2) | 2025.07.08 |
|---|---|
| 논문 리뷰 | Contrastive Audio-Visual Masked Autoencoder (2023) (3) | 2025.07.07 |
| 논문 리뷰 | In-Context Learning Creates Task Vectors (2023) (1) | 2025.05.06 |
| 논문 리뷰 | Learning to Drive in a Day (2018) (1) | 2025.05.06 |
| 논문 리뷰 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (2019) (2) | 2025.05.01 |