678CHAT AI资讯 阿里巴巴发布开源影视AI光影智探,多模态分析能力超越GPT-4o

阿里巴巴发布开源影视AI光影智探,多模态分析能力超越GPT-4o

阿里巴巴NLP团队近日发布了一款名为「光影智探」的开源多模态影视研究智能体,旨在突破当前影视内容分析与创作辅助领域的技术瓶颈。这款创新工具整合了网页深度浏览、图像语义识别、数据可视化解析及自动字幕OCR等多项能力,能够像专业影评人或编剧一样,对包含视频片段、海报、对白文本和背景资料在内的复杂影视内容进行系统性分析。

阿里巴巴发布开源影视AI光影智探,多模态分析能力超越GPT-4o插图

该系统展现出卓越的视觉感知、逻辑推演、知识整合与工具协同运用能力,为影视智能化研究开辟了新路径。

项目负责人指出,当前影视AI研究存在明显两极分化:

  • 闭源AI虽在纯文本剧本分析方面表现尚可,却难以处理图像、音画关系等非文本信息
  • 开源工具要么仅专注文本挖掘,要么只具备基础图像识别功能

「光影智探」的研发正是为了打破这种局限。团队构建了一套完整的多模态数据训练体系,通过模拟用户在影视数据库中的探索行为,采集大量包含画面、字幕、元数据与评论的知识链条。值得一提的是,他们还引入了信息模糊与噪声注入技术,使训练任务更贴近真实场景。

在模型训练方面,研发团队采用分阶段优化策略:

  1. 先通过监督式微调(SFT)让模型掌握多步骤推理能力
  2. 再运用强化学习框架GRPO持续提升复杂场景下的判断力

这种训练方式使系统不仅能识别画面内容,更能理解背后的文化内涵和情感逻辑。

为验证系统性能,团队专门设计了「影研挑战赛」(CineComp-VL)评测体系。测试结果显示:

测试项目 光影智探 GPT-4o Gemini 2.5
影史终极考(CFE-VL) 14.2% 10.1% 9.5%
MMFilm评测 56.7% - -
LiveVQA 59.3% - -

注意:所有测试数据均基于相同硬件环境,结果经过三次重复实验验证。

目前项目代码已全面开源,开发者可通过以下地址获取:
https://github.com/Alibaba-NLP/WebAgent

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/18230.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部