阿里巴巴发布开源影视AI光影智探，多模态分析能力超越GPT-4o

阿里巴巴NLP团队近日发布了一款名为「光影智探」的开源多模态影视研究智能体，旨在突破当前影视内容分析与创作辅助领域的技术瓶颈。这款创新工具整合了网页深度浏览、图像语义识别、数据可视化解析及自动字幕OCR等多项能力，能够像专业影评人或编剧一样，对包含视频片段、海报、对白文本和背景资料在内的复杂影视内容进行系统性分析。

该系统展现出卓越的视觉感知、逻辑推演、知识整合与工具协同运用能力，为影视智能化研究开辟了新路径。

项目负责人指出，当前影视AI研究存在明显两极分化：

闭源AI虽在纯文本剧本分析方面表现尚可，却难以处理图像、音画关系等非文本信息
开源工具要么仅专注文本挖掘，要么只具备基础图像识别功能

「光影智探」的研发正是为了打破这种局限。团队构建了一套完整的多模态数据训练体系，通过模拟用户在影视数据库中的探索行为，采集大量包含画面、字幕、元数据与评论的知识链条。值得一提的是，他们还引入了信息模糊与噪声注入技术，使训练任务更贴近真实场景。

在模型训练方面，研发团队采用分阶段优化策略：

先通过监督式微调（SFT）让模型掌握多步骤推理能力
再运用强化学习框架GRPO持续提升复杂场景下的判断力

这种训练方式使系统不仅能识别画面内容，更能理解背后的文化内涵和情感逻辑。

为验证系统性能，团队专门设计了「影研挑战赛」（CineComp-VL）评测体系。测试结果显示：

测试项目	光影智探	GPT-4o	Gemini 2.5
影史终极考（CFE-VL）	14.2%	10.1%	9.5%
MMFilm评测	56.7%	-	-
LiveVQA	59.3%	-	-

注意：所有测试数据均基于相同硬件环境，结果经过三次重复实验验证。

目前项目代码已全面开源，开发者可通过以下地址获取：
https://github.com/Alibaba-NLP/WebAgent

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复