678CHAT AI资讯 腾讯混元放大招!开源能给视频自动配声音的AI模型

腾讯混元放大招!开源能给视频自动配声音的AI模型

在影视与内容创作领域掀起新一轮技术浪潮的,是腾讯混元于8月28日重磅推出的开源项目——HunyuanVideo-Foley。这款端到端的视频音效生成模型,标志着AI在多模态生成能力上的又一次飞跃。它不仅能“看见”视频画面,更能“听见”场景所需的声音,通过输入视频片段与简要文字描述,即可自动生成电影级别的沉浸式音效,彻底告别过去AI生成视频中“无声胜有声”的尴尬局面。

腾讯混元放大招!开源能给视频自动配声音的AI模型插图

长久以来,AI生成音效面临语义错位、场景脱节与音质不稳定等核心难题。HunyuanVideo-Foley的突破正源于对这三大痛点的精准打击。其一,团队构建了迄今规模领先的TV2A(文本-视频-音频)高质量数据集,使模型具备极强的泛化能力,无论是人物动作、动物奔跑,还是自然风雨、卡通特效,皆能精准识别并匹配相应声音元素。其二,模型采用创新的双流多模态扩散变换器(MMDiT)架构,巧妙融合视觉与文本信息流,在生成复杂音效时仍能保持层次清晰、细节丰富,有效避免了传统模型“重文字轻画面”的失衡问题。其三,通过引入表征对齐(REPA)损失函数,显著提升了音频输出的稳定性与保真度,确保每一次生成都接近专业音频工程师的手工水准。

实测数据进一步印证了其领先地位。在多项国际权威评测中,HunyuanVideo-Foley刷新了行业记录:音频质量PQ指标从6.17跃升至6.59,视觉语义对齐IB值由0.27提升至0.35,时序同步误差DeSync则优化至0.74,全面达到当前最优水平(SOTA)。更令人振奋的是,在人类听觉感知的主观评测中,该模型在音质、语义匹配与时间同步三项关键维度的平均得分均超过4.1分(满分5分),展现出逼近专业制作的听觉真实感。

此次开源不仅释放了技术潜力,更为内容创作者提供了强大的工具支持。短视频制作者可一键生成符合氛围的背景音效,影视团队能快速完成环境音铺设,游戏开发者亦可借此构建更具沉浸感的交互声景。随着模型在Github、HuggingFace等平台开放下载,开发者与创作者将能自由集成与二次开发,推动AI音效技术在影视、广告、虚拟现实等领域的广泛应用。

目前,公众可通过混元官网直接体验模型效果,或访问以下链接获取技术资源与详细文档。

  • 体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0

  • 项目官网:https://szczesnys.github.io/hunyuanvideo-foley/

  • 代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley

  • 技术报告:https://arxiv.org/abs/2508.16930

  • Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/19362.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部