Hugging Face · Daily Papers

APEX：面向 AI 生成音乐的大规模多任务美学感知流行度预测

APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music

Jaavid Aktar Husain, Dorien Herremans

来自 AMAAI Lab

二〇二六年五月七日 · arXiv:2605.03395 · PDF · Code

摘要

音乐流行度预测受到越来越多研究关注，相关对象包括艺术家、平台和 recommendation systems。然而，AI-generated music 平台的快速兴起创造了一个全新且很大程度上尚未被探索的场景：大量歌曲每天被生成和消费，却缺少传统的艺术家声誉或唱片公司背书等标记。在这一问题中，一个关键但尚未被探索的因素是 aesthetic quality（审美质量）。

我们提出 APEX，这是首个面向 AI-generated music 的大规模 multi-task learning framework。该框架在来自 Suno 和 Udio 的超过 211k 首歌曲（10k 小时音频）上训练，基于从 MERT（一种 self-supervised music understanding model）提取的冻结 audio embeddings，同时预测基于 engagement 的流行度信号——streams 和 likes scores——以及五个感知层面的 aesthetic quality 维度。aesthetic quality 与 popularity 捕捉了音乐的互补方面，二者结合被证明具有价值：在 Music Arena dataset 上进行的 out-of-distribution evaluation 中，该数据集包含来自 11 个训练时未见过的 generative music systems 的成对人类偏好对战，加入 aesthetic features 能够持续提升偏好预测效果，表明所学习的 representations 在不同 generative architectures 之间具有很强的 generalisation 能力。