阿里巴巴NLP团队近日发布了一款名为「光影智探」的开源多模态影视研究智能体,旨在突破当前影视内容分析与创作辅助领域的技术瓶颈。这款创新工具整合了网页深度浏览、图像语义识别、数据可视化解析及自动字幕OCR等多项能力,能够像专业影评人或编剧一样,对包含视频片段、海报、对白文本和背景资料在内的复杂影视内容进行系统性分析。
该系统展现出卓越的视觉感知、逻辑推演、知识整合与工具协同运用能力,为影视智能化研究开辟了新路径。
项目负责人指出,当前影视AI研究存在明显两极分化:
- 闭源AI虽在纯文本剧本分析方面表现尚可,却难以处理图像、音画关系等非文本信息
- 开源工具要么仅专注文本挖掘,要么只具备基础图像识别功能
「光影智探」的研发正是为了打破这种局限。团队构建了一套完整的多模态数据训练体系,通过模拟用户在影视数据库中的探索行为,采集大量包含画面、字幕、元数据与评论的知识链条。值得一提的是,他们还引入了信息模糊与噪声注入技术,使训练任务更贴近真实场景。
在模型训练方面,研发团队采用分阶段优化策略:
- 先通过监督式微调(SFT)让模型掌握多步骤推理能力
- 再运用强化学习框架GRPO持续提升复杂场景下的判断力
这种训练方式使系统不仅能识别画面内容,更能理解背后的文化内涵和情感逻辑。
为验证系统性能,团队专门设计了「影研挑战赛」(CineComp-VL)评测体系。测试结果显示:
| 测试项目 | 光影智探 | GPT-4o | Gemini 2.5 |
|---|---|---|---|
| 影史终极考(CFE-VL) | 14.2% | 10.1% | 9.5% |
| MMFilm评测 | 56.7% | - | - |
| LiveVQA | 59.3% | - | - |
注意:所有测试数据均基于相同硬件环境,结果经过三次重复实验验证。
目前项目代码已全面开源,开发者可通过以下地址获取:
https://github.com/Alibaba-NLP/WebAgent

