X-SAM大模型突破图像分割极限：实现任意对象精准识别，开启通用视觉新时代

<p>中山大学、鹏城实验室与美团联合研发的多模态大模型X-SAM近日重磅发布，这项突破性成果将图像分割技术推向「任意分割」新纪元。<strong>与传统「分割万物」模型相比</strong>，X-SAM在功能边界和实用性方面实现了质的飞跃，为通用视觉系统带来革命性升级。</p><p>值得注意的是，虽然前代模型Segment Anything Model（SAM）在生成分割掩码方面表现优异，但其单一视觉提示的设计架构难以应对复杂场景。为此，研究团队创新性地提出<span style="color: #ff0000;">视觉定位分割（Visual Grounded Segmentation, VGS）</span>任务范式，通过多模态提示实现精准识别，赋予模型真正的像素级语义理解能力。</p><blockquote>X-SAM采用统一框架设计，可同时处理图像、文本和交互式视觉提示，大幅拓展了应用场景的多样性。</blockquote><p>在技术架构上，X-SAM实现了三大突破：</p><ul><li>双编码器结构分别处理图像解析与特征提取</li><li>创新的分割连接器实现跨尺度特征融合</li><li>基于Mask2Former的解码器支持多目标并行处理</li></ul><p>值得一提的是，模型采用先进的三阶段渐进式训练策略，在20多个主流数据集测试中，对话式分割和跨模态理解任务均达到<strong>当前最优水平</strong>。</p><p>目前X-SAM已全面开源，其高精度分割能力可应用于：</p><ul><li>智能驾驶环境感知</li><li>医疗影像病灶识别</li><li>工业质检缺陷定位</li></ul><p>研究团队表示，下一步将重点突破视频序列分割技术，推动静态图像与动态视频的时空统一理解。</p><p>论文地址: <a href="https://arxiv.org/pdf/2508.04655">https://arxiv.org/pdf/2508.04655</a></p><p>代码地址: <a href="https://github.com/wanghao9610/X-SAM">https://github.com/wanghao9610/X-SAM</a></p><p>Demo地址: <a href="https://47.115.200.157:7861">https://47.115.200.157:7861</a></p><img src="https://m.pochou.com/wp-content/uploads/img/qq4hnk31vs1.png">

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复