专场:大模型赋能多媒体质量评估的范式革新与产业实践
在大模型技术重构内容生产与消费范式的当下,多媒体质量评估正经历从「单一模态感知」到「全链路智能协同」的革命性跃迁。随着 Sora、GPT-4V 等生成式模型推动 AIGC 内容爆发式增长,传统基于人工标注或单一维度的质量评估体系已难以应对动态场景真实性、跨模态语义一致性等复杂挑战。与此同时,多模态大模型通过五级协同评估体系(如 General-Level 框架)的突破,正逐步实现从「任务专精」到「全模态通才」的跨越,为多媒体质量评估注入全新生命力。
专场出品人:李涛
抖音 多媒体评测实验室负责人
现任抖音集团多媒体评测实验室负责人,深耕多媒体技术领域十余年,在音视频质量评估、全链路体验优化、多模态评测体系建设等方向形成深厚技术积淀。
2019 年加入字节跳动后,以技术架构师视角从零到一构建抖音全域音视频评测体系:牵头打造覆盖直播、点播、互动多媒体等全场景的全栈评测基础设施,主导制定的直播画质评估标准(成为行业标杆,支撑抖音亿级 DAU 的体验优化迭代);同时,带领团队突破多模态评测技术瓶颈,研发 ViDA等垂类评测模型和基准,构建 “数据采集 - 指标建模 - 效果验证 - 业务落地” 的闭环体系,相关技术成果支撑抖音在 H.266 编码落地、动态码率优化等核心项目中实现技术领先,成为行业内多媒体评测技术从 “实验室研究” 到 “规模化业务落地” 的标杆实践者。
范昊天
字节跳动 抖音 资深算法工程师
曾就职于华为和创业公司,从事计算机视觉和多模态算法方向的工作多年,2020年加入字节跳动。现负责抖音端到端音画质评估体系建设、豆包、剪映文生图客观评测体系建设。
待定
待定
多模态大模型赋能可解释性画质评估任务
——抖音画质大模型应用实践
本次重点分享多模态大语言模型(MLLM)画质感知能力评测基准的构建与实践。相较于传统无参考图像质量评估模型仅能输出单维度质量评分的局限性,多模态大模型时代的 MLLM 技术突破了单一量化范式,在输出整体质量分数的同时,更具备多维度质量描述、具体问题定位,及因果归因的语义分析能力。基于实际画质评测的业务场景需求,我们针对性设计了一套融合感知精度、描述细粒度、定位准确性及业务适配性的多维评估体系,旨在为 MLLM 在多媒体质量评估领域的落地应用提供更精准的量化评估工具与实践参考。

内容大纲

1. 当前业界画质评估方法和痛点
2. 多模态大模型重新定义画质评估任务
3. ViDA-UGC 业界最大的开源细粒度评估数据库
4. 多模态大模型画质评估算法设计
5. 抖音画质大模型应用及展望

听众收益  
1. 画质评估领域大模型的设计方法及应用方式
2. ViDA-UGC开源画质数据集的构建方案
董航
字节跳动 智能创作 资深算法工程师
字节跳动智能创作AI画质方向技术负责人,主要负责画质算法的研发工作,其负责的超清类算法已经在抖音、剪映、豆包等应用上落地并取得了客观收益。2020年博士毕业于西安交通大学人工智能学院,长期致力于超分辨率、画质修复以及AIGC编辑等领域的研究,在各类国际会议期刊发表论文30篇,中美专利3篇。
待定
待定
AIGC时代画质修复算法发展
随着扩散式技术的发展,在更大参数规模的网络在海量训练数据集的加持下,网络的生成能力已经取得了质的突破。画质任务作为计算机视觉中的重要方向之一,如何利用好这次的技术革命完成自身进化,成为目前学术界和产业界的研究热点。本次讲座将从学术和行业应用的角度介绍AIGC画质算法的最新进展,并展示我们在激活大模型生成能力提升画质上限、扩散模型加速以及到算法落地改造等方面的最新成果。

内容大纲
1. 业界画质算法的进展与痛点
2. AIGC大模型超分模型的技术进展
    2.1 算法加速方向
    2.2 流式视频推理
3. 图像超清算法的介绍
    3.1 扩散性超分系统介绍
    3.2 加速扩散超分系统介绍
    3.3 生成型超分系统介绍
4. 视频超清算法的介绍
5. 未来画质算法展望与规划

听众收益
1. AIGC时代画质算法的机遇与挑战
2. 大模型算法系统的系统构建与技术突破
3. 未来画质算法的发展趋势
孙暕晖
腾讯 微信 资深工程师
腾讯微信音视频质量算法IH-VQA团队负责人,微信音视频测试核心骨干。主导构建微信视频号音视频测试体系及多维度质量评估算法矩阵,为微信生态内全场景音视频产品提供高效质量支撑。在AIGC领域突破性研发iMatch算法,带队斩获CVPR 2025 NTIRE AIGC图文匹配大赛冠军并发表论文,攻克图文匹配难题,刷新AI内容评估标准。
待定
待定
微信IH-VQA:iMatch算法在AIGC质量评测中的实践
文生图(T2I)模型的爆发式增长(如Dreamina、DALL·E3)大幅降低了创作门槛,但图文匹配度评估成为核心瓶颈。传统方法无法全面量化图像与文本的细粒度对齐(如元素位置、语义一致性),导致两大痛点:
1. 评估失效:多模态大模型对结构性问题(如“左侧人物缺失”或“色彩与描述不符”)挖掘能力不足,人工审核主观性强且效率低下。
2. 业务制约:AIGC生成内容在广告设计、社交分享等场景中,因匹配偏差引发用户体验下滑(如用户投诉“图文不符”率达行业均值15%以上)。

微信IHVQA算法团队聚焦“如何建立科学、可量化的图文匹配黄金标准”,以CVPR2025竞赛为突破口。比赛由抖音与南开大学主办,目标开发跨模态评估基准(EvalMuse数据集),推动AI生成内容的技术演进。思考方向包括:融合人类细粒度需求(如元素级评分)、构建公平评测体系,并为微信生态内AIGC应用(如视频号AI特效)提供质量校准支撑。

内容大纲
1. 问题分析与核心挑战
    1.1 背景
    1.2 当前问题
    1.3 核心挑战
2. 技术抉择与创新解法
    2.1 技术选择
    2.2 iMatch创新解法
    2.3 创新总结
3. 质量与效能收益
    3.1 iMatch算法效果
    3.2 iMatch算法落地应用
    3.3 iMatch算法跨界应用
    3.4 思考与AIGC质量算法未来畅想

听众收益
1. AIGC类评测问题的分析思路
2. 自研质量模型性能提升方法论
3. 如何有效将质量算法与业务结合
刘笑宏
上海交通大学  副教授
博士,上海交通大学计算机学院副教授,博士生导师。博士毕业于加拿大麦克马斯特大学,研究方向为计算机视觉、多媒体信息处理,现已在顶级国际会议与期刊上发表学术论文80余篇,其中CCF-A类或中科院一区论文40余篇,引用4000余次。入选2022年上海市领军人才(海外)、2022年上海市浦江人才、2024年微软亚洲研究院铸星计划、2025年世界人工智能大会“璀璨明星”提名奖。主持多项国家自然科学基金项目、四川省自然科学基金项目,参与国家自然科学基金重点项目,并承担国内外多家高科技公司的技术研发项目,荣获华为“火花奖”。担任多媒体领域知名期刊ACM TOMM副主编、上海市计算机学会计算机视觉专委会副秘书长、中国图象图形学学会青年工作委员会委员。
待定
待定
多模态图像生成与质量评价
随着生成式人工智能的迅猛发展,多模态图像生成技术正成为计算机视觉与人工智能领域的重要研究方向。该技术通过融合来自文本、语义标签等多种模态的信息,实现对视觉内容的可控生成,广泛应用于内容创作、辅助设计等领域。然而,如何生成符合用户需求的高质量图像,仍是该领域亟待解决的核心问题之一。对于生成图像的质量评价不仅是衡量生成效果的重要手段,也可反过来指导生成模型的优化方向。而由于自然图像的评价指标通常无法全面捕捉生成图像的视觉感知与文本一致性质量,近年来基于多模态大模型的生成图像质量评价方法得到了快速发展。本报告围绕多模态图像生成与质量评价方法的技术演进与典型架构展开,并系统探讨两者之间的耦合关系与协同发展趋势,为图像生成与质量评价的双轮驱动提供参考。
敬请期待
......
.....
待定
待定
敬请期待
....
关注QECon公众号
议题投稿
lijie@qecon.net
商务合作
151-2264-3988  木子
票务联系
135-2067-8913  郭梦媛
媒体合作
135-1619-6409  皮皮
添加QECon小助手,获取
会议最新资讯
购票咨询
13520678913  郭梦媛
服务总线
400-183-9980