腾讯混元放大招！开源能给视频自动配声音的AI模型

在影视与内容创作领域掀起新一轮技术浪潮的，是腾讯混元于8月28日重磅推出的开源项目——HunyuanVideo-Foley。这款端到端的视频音效生成模型，标志着AI在多模态生成能力上的又一次飞跃。它不仅能“看见”视频画面，更能“听见”场景所需的声音，通过输入视频片段与简要文字描述，即可自动生成电影级别的沉浸式音效，彻底告别过去AI生成视频中“无声胜有声”的尴尬局面。

长久以来，AI生成音效面临语义错位、场景脱节与音质不稳定等核心难题。HunyuanVideo-Foley的突破正源于对这三大痛点的精准打击。其一，团队构建了迄今规模领先的TV2A（文本-视频-音频）高质量数据集，使模型具备极强的泛化能力，无论是人物动作、动物奔跑，还是自然风雨、卡通特效，皆能精准识别并匹配相应声音元素。其二，模型采用创新的双流多模态扩散变换器（MMDiT）架构，巧妙融合视觉与文本信息流，在生成复杂音效时仍能保持层次清晰、细节丰富，有效避免了传统模型“重文字轻画面”的失衡问题。其三，通过引入表征对齐（REPA）损失函数，显著提升了音频输出的稳定性与保真度，确保每一次生成都接近专业音频工程师的手工水准。

实测数据进一步印证了其领先地位。在多项国际权威评测中，HunyuanVideo-Foley刷新了行业记录：音频质量PQ指标从6.17跃升至6.59，视觉语义对齐IB值由0.27提升至0.35，时序同步误差DeSync则优化至0.74，全面达到当前最优水平（SOTA）。更令人振奋的是，在人类听觉感知的主观评测中，该模型在音质、语义匹配与时间同步三项关键维度的平均得分均超过4.1分（满分5分），展现出逼近专业制作的听觉真实感。

此次开源不仅释放了技术潜力，更为内容创作者提供了强大的工具支持。短视频制作者可一键生成符合氛围的背景音效，影视团队能快速完成环境音铺设，游戏开发者亦可借此构建更具沉浸感的交互声景。随着模型在Github、HuggingFace等平台开放下载，开发者与创作者将能自由集成与二次开发，推动AI音效技术在影视、广告、虚拟现实等领域的广泛应用。

目前，公众可通过混元官网直接体验模型效果，或访问以下链接获取技术资源与详细文档。

体验入口:https://hunyuan.tencent.com/video/zh?tabIndex=0
项目官网:https://szczesnys.github.io/hunyuanvideo-foley/
代码:https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
技术报告:https://arxiv.org/abs/2508.16930
Hugging Face:https://huggingface.co/tencent/HunyuanVideo-Foley

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复