About clAIm

Understanding the science behind our forensic detection approach.

Our Mission

As AI-generated content becomes increasingly sophisticated, the ability to distinguish authentic media from synthetic content is critical for journalists, legal professionals, researchers, and everyday citizens. clAIm provides transparent, research-backed analysis tools that give users actionable confidence scores rather than opaque binary verdicts.

Technical Approach

Our analysis engine uses multiple independent forensic signals rather than a single classifier. This multi-signal approach provides resilience against adversarial attacks and reduces false positives. Each media type is analyzed using techniques specifically designed for its characteristics.

Analysis Techniques

Image Forensics

Error Level Analysis (ELA) — Detects inconsistent compression artifacts
Frequency Domain Analysis — DCT-based inspection of frequency content
Color Distribution Analysis — Statistical histogram anomaly detection
Edge Consistency — Sobel-based edge distribution profiling
Noise Pattern Analysis — Sensor noise uniformity detection
Metadata Forensics — File format and EXIF data inspection

Audio Forensics

Spectral Flatness — Geometric/arithmetic mean ratio analysis
Temporal Consistency — RMS energy variation and periodicity detection
Zero-Crossing Rate — Frame-level spectral characteristic analysis
Transition Pattern Analysis — Splice and synthesis artifact detection

Video Forensics

Frame Temporal Consistency — Inter-frame difference spike detection
Color Stability — Cross-frame color drift measurement
Edge Sharpness Tracking — Laplacian-based focus consistency
Compression Artifact Analysis — Double-compression detection

Text Forensics

Vocabulary Diversity (Perplexity Proxy) — Type-token ratio analysis
Burstiness Detection — Sentence length variation measurement
AI Pattern Matching — Common AI phrase and structure detection
Repetition Analysis — N-gram and sentence opening repetition
Readability Profiling — Flesch-Kincaid grade level assessment

Research Foundation

Our audio-visual fusion architecture is inspired by Single-Stream Audio-Visual Deepfake Detection (SS-AVD) research, which demonstrates that iterative cross-modal attention fusion outperforms traditional late-fusion approaches. Key innovations include Latent-Shuffle Augmentation (LSA) for mismatch robustness and Multi-Modal Style-Shuffle Augmentation (MMSSA) for compression-invariant detection.

The architecture is designed to support future integration of trained deep learning models for even higher accuracy AV fusion scoring, while the current client-side engines provide immediate value through classical forensic analysis techniques.

Important Limitations

No detection tool achieves 100% accuracy. State-of-the-art systems reach 95-98% AUC on benchmarks, with lower real-world performance.
Scores represent probability estimates, not definitive verdicts. They should inform, not replace, expert forensic evaluation.
AI generation technology evolves rapidly. Detection techniques must be continuously updated to remain effective.
Heavy post-processing, re-encoding, or intentional adversarial manipulation can reduce detection accuracy.