在大模型时代,涌现了大量 AI 生成内容,在音频领域有 TTS、TTM、TTA 等生成类音频,相较于传统由真人制作的音频内容,AIGC 类音频的评估面临更大的挑战,如何评估量级以及评价效果,并且反推算法进一步的优化生成效果,这个是音频质量评估团队面临的挑战,我们将从标准、评价工具以及评估算法等多个维度,建设 AIGC 音频的评估体系,确定大模型时代能有更多的生成音频落地业务,给用户带来更完美的音频感受。
内容大纲
1. AIGC音频场景的介绍:TTS、TTM、TTA(SVC/SVS)等音频生成场景
2. 不同生成音频算法的特点&评价区别
2.1 大模型 TTS :音质、音色、韵律、真人感等标准的制定
2.2 大模型 TTA : few-shot&zero-shot 歌声合成,涉及音色相似性、音质、音频本身好听度等
2.3 大模型 TTM : 类似 suno、udio 等音乐生成大模型,需要从音频质量、歌词质量以及音乐性、美学效果等多维度评价
生成音频的质量
3. 不同类型业务&模型的质量评价体系建设
4. 提效工具链&前置算法优化支持
5. 未来规划&展望
听众收益
提供可借鉴的评估体系建设方法论、可复用的工具和评价模型、部分工具可以开源支持等。