<p>中山大学、鹏城实验室与美团联合研发的多模态大模型X-SAM近日重磅发布,这项突破性成果将图像分割技术推向「任意分割」新纪元。<strong>与传统「分割万物」模型相比</strong>,X-SAM在功能边界和实用性方面实现了质的飞跃,为通用视觉系统带来革命性升级。</p><p>值得注意的是,虽然前代模型Segment Anything Model(SAM)在生成分割掩码方面表现优异,但其单一视觉提示的设计架构难以应对复杂场景。为此,研究团队创新性地提出<span style="color: #ff0000;">视觉定位分割(Visual Grounded Segmentation, VGS)</span>任务范式,通过多模态提示实现精准识别,赋予模型真正的像素级语义理解能力。</p><blockquote>X-SAM采用统一框架设计,可同时处理图像、文本和交互式视觉提示,大幅拓展了应用场景的多样性。</blockquote><p>在技术架构上,X-SAM实现了三大突破:</p><ul><li>双编码器结构分别处理图像解析与特征提取</li><li>创新的分割连接器实现跨尺度特征融合</li><li>基于Mask2Former的解码器支持多目标并行处理</li></ul><p>值得一提的是,模型采用先进的三阶段渐进式训练策略,在20多个主流数据集测试中,对话式分割和跨模态理解任务均达到<strong>当前最优水平</strong>。</p><p>目前X-SAM已全面开源,其高精度分割能力可应用于:</p><ul><li>智能驾驶环境感知</li><li>医疗影像病灶识别</li><li>工业质检缺陷定位</li></ul><p>研究团队表示,下一步将重点突破视频序列分割技术,推动静态图像与动态视频的时空统一理解。</p><p>论文地址: <a href="https://arxiv.org/pdf/2508.04655">https://arxiv.org/pdf/2508.04655</a></p><p>代码地址: <a href="https://github.com/wanghao9610/X-SAM">https://github.com/wanghao9610/X-SAM</a></p><p>Demo地址: <a href="https://47.115.200.157:7861">https://47.115.200.157:7861</a></p><img src="https://m.pochou.com/wp-content/uploads/img/qq4hnk31vs1.png">
X-SAM大模型突破图像分割极限:实现任意对象精准识别,开启通用视觉新时代
本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/18374.html
