{"slug": "longav-compass-towards-unified-evaluation-of-minute-scale-audio-visual-across", "title": "LongAV-Compass: Towards Unified Evaluation of Minute-Scale Audio-Visual Generation Across T2AV, I2AV, and V2AV", "summary": "Researchers introduced LongAV-Compass, a benchmark for evaluating minute-long audio-visual generation across text, image, and video conditioning modalities. The benchmark contains 284 test cases and assesses over 20 fine-grained dimensions, including identity consistency, narrative coherence, and audio-visual alignment over extended time horizons. Experiments on 11 models revealed limitations in current systems' ability to sustain coherent and semantically aligned generation at minute scale.", "body_md": "arXiv:2605.26244v1 Announce Type: new\nAbstract: Audio-visual generation is rapidly advancing from short clips to minute-long content, while existing evaluation protocols remain largely confined to short-form settings. Existing benchmarks primarily focus on 5--10 second text-conditioned generation and rarely support unified evaluation across text, image, and video conditioning modalities. Moreover, they provide limited insight into how identity consistency, narrative coherence, and audio-visual alignment degrade over extended temporal horizons. To bridge this gap, we introduce LongAV-Compass, a systematic benchmark for minute-long audio-visual generation. LongAV-Compass contains 284 curated test cases spanning text-to-audio-video (T2AV), image-to-audio-video (I2AV), and video-to-audio-video (V2AV), organized by application scenario and generation complexity. The benchmark combines taxonomy-guided benchmark construction with a unified evaluation framework that integrates MLLM-assisted assessment with complementary perceptual and multimodal metrics, including DINO-v2, ArcFace, CLIP, and ImageBind. The framework evaluates more than 20 fine-grained dimensions covering within-segment quality, cross-segment consistency, global narrative coherence, semantic alignment, and audio-visual synchronization. Through experiments on 11 representative models together with human-alignment validation, LongAV-Compass provides a diagnostic testbed for analyzing the limitations of current systems in sustaining coherent, semantically aligned, and temporally consistent minute-scale audio-visual generation across diverse input modalities.", "url": "https://wpnews.pro/news/longav-compass-towards-unified-evaluation-of-minute-scale-audio-visual-across", "canonical_source": "https://arxiv.org/abs/2605.26244", "published_at": "2026-05-27 04:00:00+00:00", "updated_at": "2026-05-27 04:26:55.947901+00:00", "lang": "en", "topics": ["generative-ai", "computer-vision", "artificial-intelligence", "machine-learning", "ai-research"], "entities": ["LongAV-Compass", "DINO-v2", "ArcFace", "CLIP", "ImageBind"], "alternates": {"html": "https://wpnews.pro/news/longav-compass-towards-unified-evaluation-of-minute-scale-audio-visual-across", "markdown": "https://wpnews.pro/news/longav-compass-towards-unified-evaluation-of-minute-scale-audio-visual-across.md", "text": "https://wpnews.pro/news/longav-compass-towards-unified-evaluation-of-minute-scale-audio-visual-across.txt", "jsonld": "https://wpnews.pro/news/longav-compass-towards-unified-evaluation-of-minute-scale-audio-visual-across.jsonld"}}