昆仑万维旗下AI研究团队取得重大突破,正式发布全新开源多模态模型Skywork UniPic。这款基于自回归架构的预训练模型,创新性地将图像理解、文本生成图像(T2I)和图像编辑三大功能整合于一体,标志着多模态AI技术进入全新发展阶段。

该模型采用端到端训练方式,通过海量高质量数据训练展现出惊人性能。开发团队秉持开源理念,已完整公开模型权重、技术文档和源代码,为全球开发者提供了高效的技术平台。
在架构设计上,Skywork UniPic借鉴了GPT-4o等前沿模型的自回归范式,通过统一框架实现多任务处理。其创新性地采用MAR编码器与SigLIP2结构,大幅提升了语义理解和图像生成能力。
无论是图像识别、文字转图像,还是风格迁移等编辑操作,该模型都能通过简单指令快速完成。值得注意的是,其操作便捷性已在技术社区引发广泛讨论。
令人惊讶的是,这款仅1.5B参数的轻量级模型,性能却媲美更大规模的模型。在多项权威测试中,其指令遵循准确率和图像生成质量都表现突出。
研发团队通过创新训练策略解决了多任务干扰问题:
- 严格筛选训练数据
- 引入智能奖励机制
- 采用渐进式学习方案
此次开源将显著降低多模态AI的开发门槛,有望催生更多创新应用。
模型权重:
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告:
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
代码仓库:
https://github.com/SkyworkAI/UniPic
核心亮点:
🌟 首款集成三大功能的多模态开源模型
💻 轻量设计(1.5B参数)实现高性能
📊 创新训练方案确保多任务稳定性
