在人工智能绘画技术不断迭代的当下,如何让AI真正理解并遵循用户的“构图意图”,始终是行业攻坚的核心难题。近日,小红书携手复旦大学发布了一项突破性研究成果——InstanceAssemble,该技术首次实现了从布局指令到高精度图像生成的无缝衔接,为AI绘画迈入“可控创作”时代提供了全新路径。这项工作已成功入选全球人工智能顶尖会议NeurIPS2025,彰显其学术与应用双重价值。

尽管当前文生图模型已能生成视觉上惊艳的作品,但在面对明确的空间规划需求时,往往显得力不从心:物体错位、语义漂移、结构混乱等问题频发。InstanceAssemble则通过引入创新的“实例拼装注意力”机制,在扩散变换器架构基础上构建出一套高效的布局解析系统。这一机制使模型能够将每个物体视为独立单元进行精准定位与内容合成,从而确保最终画面既符合空间约束,又保持语义连贯。
用户操作极为简洁:只需划定各个对象的位置边界,并附上对应的文字描述,系统即可自动在指定区域内生成匹配的视觉元素。无论是静物摆放、人物互动,还是高楼林立的城市街景等高度复杂的场景,InstanceAssemble均展现出卓越的排版稳定性和细节还原能力,显著提升了生成结果的可用性与专业度。
尤为值得一提的是,该方案采用了极轻量化的模型适配策略。不同于传统方法需要对整个大模型进行微调,InstanceAssemble仅通过增加极少参数即可完成迁移部署。数据显示,其适配Stable Diffusion3-Medium时额外参数占比仅为3.46%,而在对接Flux.1时更压缩至0.84%,极大降低了计算资源消耗和落地门槛。
为了推动领域标准化发展,研究团队同步开源了包含9万真实标注实例的Denselayout评测基准及配套评估体系,填补了复杂布局生成任务缺乏权威测试集的空白。目前,项目全部代码和预训练权重已在GitHub平台公开,开发者可自由下载使用,助力设计自动化、广告创意生成、虚拟场景搭建等多场景智能化升级。
github:https://github.com/FireRedTeam/InstanceAssemble
划重点:
-
🎯 实现像素级布局控制:首创“实例拼装注意力”机制,支持从简单构图到密集场景的精确物体放置,彻底解决AI绘画“听不懂位置指令”的痛点。
-
⚡ 低成本高效集成:无需重训主干网络,以不足1%-4%的增量参数实现主流模型快速适配,兼顾性能与实用性。
-
🔓 开放生态共建:全面开源代码与模型,同时发布Denselayout评测集,推动行业建立统一的技术衡量标准。
