본문 바로가기
Paper

논문 리뷰 | Detecting and Grounding Multi-Modal Media Manipulation (2023)

by 힢힢 2025. 6. 22.

플젝 시작이다 ~.~

아자아자 화이띵 ~~ ₍ᵔ· ̫·ᵔ₎ྀི 

 

https://arxiv.org/abs/2304.02556

 

Detecting and Grounding Multi-Modal Media Manipulation

Misinformation has become a pressing issue. Fake media, in both visual and textual forms, is widespread on the web. While various deepfake detection and text fake news detection methods have been proposed, they are only designed for single-modality forgery

arxiv.org

 


[ Detecting and Grounding Multi-Modal Media Manipulation (2023) ] (DGM4 / HAMMER)

 

✦ Introduction

 

멀티모달 미디어가 더 광범위한 정보 전달, 더 큰 영향력 가짐

→ 멀티모달 미디어 위조가 더 해로움

⇒ 더 설명 가능하고 해석가능한 해결책으로 DGM4 제시

 

기존 : 단일 모달리티, 단순 binary classification에 그침

→ 이미지, 텍스트 모달리티에서 동시에 위조 존재 탐지 가능 / 조작 이미지의 바운딩 박스, 조작된 텍스트 토큰을 grounding

 

조작된 멀티모달 미디어는 조작된 이미지 영역과 텍스트 토큰에 manipulation traces 남기고, 이 traces는 cross-modal correlation을 바꾸고, semantic inconsistency 유발함

⇒ 이미지와 텍스트 간의 semantic correlation을 추론하는 것이 멀티모달 조작의 탐지와 그라운딩의 힌트 제공

⇒ HAMMER

 

1) shallow manipulation reasonin

two uni-modal encoders 간의 manipulation-aware contrastive learning을 통해 이미지와 텍스트 임베딩 align

 

2) deep manipulation reasoning

multi-modal aggregator의 modality-aware cross-attention을 통해 멀티모달 임베딩을 aggregate

 

 


 

 

✦ Multi-Modal Media Manipulation Dataset

 

기존 데이터셋 : single-modality, small amount of human generated fake news, out-of-context pairs

DGM4 dataset : large-scale machine-generated multi-modal media manipulation

 image, text에 대해 다양한 조작 방법으로 구성되어 실제와 더 유사

 detection, grounding 가능하게 하는 rich, fine-grained labels

 

 

  - Multi-Modal Media Manipulation

 

image / text modality에 두 가지 유형의 조작 적용

  1. Swap : global manipulation traces
  2. Attribute : fine-grained local manipulations

⇒ 조작된 이미지와 텍스트는 깨끗한 샘플과 무작위로 섞여 8개의 fake 클래스 + 1개의 원본 클래스로 샘플 구성됨

(FS, FA, TS, TA, FS + TS, FS + TA, FA + TS, FA + TA)

 

 

1️⃣ Face Swap (FS) Manipulation : 얼굴을 바꿈으로써 identity 공격

face swap 방식으로는 SimSwap, InfoSwap 사용

original image I_o 에서 가장 큰 얼굴 I^f_o 을 CelebA-HQ dataset에서의 random source face I^f_{celeb} 으로 교체해 face swap manipulation sample I_s 만듦

스왑된 얼굴 영역의 MTCNN bbox를 grounding 위한 annotation으로 저장 : $y_{box} = \{x_1, y_1, x_2, y_2\}​$

 

2️⃣ Face Attribute (FA) Manipulation : identity는 유지한 채, emotion 조작 (정반대의 감정으로)

more fine-grained image manipulation

CNN-based network로 $I_o^f$의 감정 예측

→ GAN-based method (HFGI, StyleCLIP)로 정반대의 감정으로 편집 : $I^f_{emo}$

→ 조작된 얼굴 이미지 $I^f_{emo}$를 원본 이미지 $I_o$ 위에 re-render해 조작된 샘플 $I_a$ 얻음 (이 방법도 bounding box 제공)

 

3️⃣ Text Swap (TS) Manipulation : 주요 인물에 대한 단어는 보존하면서, 전체적인 semantic 변경

원본 캡션 $T_o$에 NER 모델 사용해 인물의 이름 추출 (PER)

→ 같은 PER entity를 포함하는 다른 텍스트 샘플 $T'_o$ 를 소스 O에서 찾음

→ Sentence-BERT로 시맨틱 임베딩 계산해 $T_o$와 코사인 유사도 낮은 $T'_o$를 조작된 텍스트 $T_s$로 사용 (not semantically aligned with $T_o$ 를 보장)

⇒ $p_m = (I_o, T_s)$ : 인물 동일, 내용 다름

→ $T_s$의 각 토큰 M개에 대해 조작 여부 나타내는 원핫벡터를 어노테이션으로 저장

 

4️⃣ Text Attribute (TA) Manipulation : sentiment 변경

attribute manipulation은 text swap 보다 cross-modal 비일관성이 덜하기 때문에 더 해롭고 탐지가 더 어려움

RoBERTa 모델로 캡션을 pos, neg, netural sentiment로 나눔 : $\{O_+,O_-,O_{neu}\}$

→ B-GST 모델 사용해 $T_o$의 모든 sentiment words를 정반대의 sentiment로 교체 (own corpora $\{O_+,O_-\}$ 로 모델 학습) ⇒ $T_a$ (text swap처럼 ground truth vector $y_{tok}$ 존재)

 


 

HAMMER

  • 두 개의 uni-modal encoder : image enc $E_v$, text enc $E_t$
  • multi-modal aggregator : F

⇒ 모두 트랜스포머 기반 아키텍처

  • manipulation detection and grounding heads
    • binary classifier $C_b$
    • Multi-Label Classifier $C_m$
    • BBox detector $D_v$
    • token detector $D_t$

앞서 언급했다시피, 두 모달리티 간의 semantic correlation을 모델링하고, semantic inconsistency 포착하는 것이 멀티 모달 manipulation의 detection, grounding을 가능하게 함

 

 

 

  - Shallow Manipulation Reasoning

 

 

normal contrastive learning : subtle manipulations가 생성하는 minor semantic inconsistency 잘 탐지하지 못함, original image-text pairs 임베딩 가깝게 & unmatched pairs 임베딩 멀게

+ manipulation-aware contrastive learning : 추가로 manipulated pairs 임베딩도 멀어지게 해 semantic inconsistency 강조

 

negative samples에는 매칭되지 않는 것과 조작된 pair에서 나온 것도 포함.

projection head 사용해 768차원인 cls 토큰을 256의 저차원 임베딩 공간으로 매핑

MoCo에서 영감받아, 두 모달리티에 대해 momentum uni-modal encoder 학습, 대응되는 momentum projection head 존재

single modality 내의 reasonable semantic relation 유지하기 위해 intra-modal contrastive learning 수행 (v2v, t2t)

 

 

* Manipulated Image Bounding Box Grounding

FS, FA → 인물 관련 텍스트 (이름, 감정)와 대응하는 correlation 변화시킴

⇒ 조작된 이미지 영역이 텍스트 임베딩과 불일치하는 local patch에 위치할 것이라 주장

이미지와 텍스트 임베딩 간의 cross-attention 수행해 image-text correlation을 갖는 patch embedding 얻음

이미지 임베딩을 query, 텍스트 임베딩을 key, value로 사용!

 

 

이렇게 얻은 patch embedding은 cls 토큰과 다르게 position encoding으로 생성되어 richer local spatial information 담고 있어 manipulated image bbox grounding에 더 적합

(근데 포지션 인코딩으로 생성됐다는 게 뭔 말인지 모르겠어... 멀까...? 그리고 이미지 임베딩 왜 다시 더하는 걸까...)

 

 

* Local Patch Attentional Aggregation (LPAA)

attention mechanism으로 이미지 패치 토큰에 담긴 spatial information을 aggregate

u_{agg}​=Attention([AGG],u_{pat}​,u_{pat}​)

추가적인 [AGG] 토큰을 query, 패치 벡터를 key, value로 어텐션해 aggregated embedding 얻고, manipulated bbox grounding 수행

 

$L_{IMG}​=E_{(I,T)∼P}​[∥Sigmoid(D_v​(u_{agg}​))−y_{box}​∥+L_{IoU}​(Sigmoid(D_v​(u_{agg}​))-y_{box}​)]$

→ $u_{agg}$를 $D_v$에 넣어 예측한 바운딩 박스와 실제 정답 바운딩 박스 간의 차이 측정

($D_v$ : BBox Detector)

  • (입력) $u_{agg}$ : 이미지 패치 정보 요약한 임베딩
  • (출력) 예측 바운딩 박스 좌표 : (x, y, w, h)

 

 

  - Deep Manipulation Reasoning

manipulated token grounding 더 어려움

→ fine-grained manipulation types, binary classes 탐지하기 위해 멀티모달 정보를 요약해야 함

⇒ 이 단계에서는 포괄적인 정보 요약이 핵심

 

modality-aware cross-attention으로 텍스트 임베딩과 이미지 임베딩이 상호작용하도록 함

Multi-Modal Aggregator F의 multiple cross-attention 통과시켜 aggregated multi-modal embedding 얻음

여기서는 텍스트 임베딩을 query, 이미지 임베딩을 key, value로 사용!

F(E_v​(I),E_t​(T))=\{m_{cls}​,m_{tok}​\}

 

텍스트의 각 토큰이 텍스트 인코더에서의 multiple self-attention과 F에서의 cross-attention을 통과하여, 각 토큰 임베딩은 텍스트의 context information과 image features와 모두 상호작용해 manipulated text tokens grounding에 적합

 

 

 


 

😨🔫  ..... 너무 어려워

 

티스토리에 Latex 도대체 어케 넣어요

검색해서 따라할 때마다 글씨 다 깨져서 매번 원상복구함.. 엉엉슨