In ProgressBMVC (target)

Multimodal Deepfake Detection via Audio-Visual Causal Divergence

Sajjad Ahmed Shaaz — CMATER Lab, Jadavpur University

Abstract

Frames deepfake detection as identifying broken causal links between audio and visual modalities. Uses WhisperX forced phoneme alignment, CLIP ViT encoders, and Riemannian manifold representations to measure cross-modal synchrony divergence.

Datasets:FakeAVCelebPolyGlotFake

← back to research