LLM 时代里的 Semantic Segmentation：从核心任务到通用视觉接口

2026年04月07日 reading notes # AI # computer vision # LLM # semantic segmentation

前几年如果你做计算机视觉，semantic segmentation 往往是一个“终点任务”：输入一张图，输出每个像素的类别，最后用 mIoU 来衡量模型强不强。那个时期的问题很明确——类别表是固定的，数据集是封闭的，目标是把像素分类做得更准、更快。

但在 LLM 和 VLM（Vision-Language Model）快速普及之后，semantic segmentation 的角色正在明显变化。它没有消失，反而变得更重要了；只是它不再总是以“最终任务”的身份出现，而越来越像一种中间能力、交互接口，以及世界模型里的空间对齐层。

以前的 segmentation：回答“这是什么”

传统语义分割的范式很清楚：

预先定义类别，比如路面、车辆、行人、天空
用大量像素级标注训练模型
在推理时对整张图做密集分类

这个范式非常适合自动驾驶、遥感、医学影像这类场景，因为它们有两个共同点：类别空间相对稳定，以及对每个像素的类别都关心。

所以在那个阶段，SegFormer、DeepLab、UPerNet 这类模型的优化目标也很直接：更好的 backbone、更轻的 decoder、更高的精度和速度。

LLM 普及之后，问题变了

LLM 把一个很重要的交互方式带进了视觉系统：自然语言不再只是描述结果，而是开始参与控制感知过程本身。

用户不再只问“图里每个像素是什么”，而开始问：

“把图里所有施工区域找出来”
“把站在路边、可能准备横穿马路的人单独分出来”
“只保留货架上红色包装的商品”
“把这段视频里一直出现的那只狗抠出来”

这里最大的变化是：需求不再天然适配一个固定类别表。很多任务不是闭集分类，而是开放词汇、上下文相关、甚至带意图的区域理解。这让 segmentation 的位置从“最终输出头”变成了更大系统中的一个组件。

变化一：从“像素分类任务”变成“空间 grounding 能力”

在 LLM/VLM 系统里，模型越来越擅长理解语言，但语言理解本身并不等于空间定位。它知道“施工区域”“危险物体”“左边第二个人”是什么意思，不代表它能精准指出这些概念对应到哪些像素。

这时候，segmentation 的价值就变成了：把语义理解落到空间上。

可以把它理解成一个视觉版的 grounding 层：

LLM/VLM 负责理解用户意图
detection / retrieval / prompt encoder 负责召回候选目标
segmentation 负责把目标边界真正“扣出来”

也就是说，semantic segmentation 不再只是“分类更细”，而是在多模态系统里承担了一个新的职责：让语言、目标和像素对齐。

这也是为什么这两年 promptable segmentation、referring segmentation、grounded segmentation 会越来越受关注。大家需要的不是一个只会预测 19 个类别的模型，而是一个能响应“你刚才说的那个东西到底在哪”的视觉模块。

变化二：从“离线感知模型”变成“可交互工具”

以前 segmentation 模型更多是 pipeline 里的一个 batch operator：喂数据、出 mask、算指标。
而今天，在很多产品里，它更像一个可调用工具：

图像编辑里，它负责抠图和局部重绘区域生成
标注平台里，它负责 click-to-mask、box-to-mask
机器人系统里，它负责把语言指令对应到操作区域
Agent 系统里，它负责把“去拿桌子上的蓝色杯子”翻译成可执行的视觉目标

这背后有个很关键的变化：用户容忍“交互式逐步逼近”，而不再要求一次性纯自动完成。

这会改变 segmentation 的评价标准。过去大家追求 benchmark 上的单次推理最优；现在很多系统更关心：

一次点击后 mask 质量如何
第二次纠错能提升多少
与文本提示结合是否稳定
在长视频或多轮交互里是否保持一致

换句话说，segmentation 从一个“静态模型能力”，变成了“动态人机协作接口”。

变化三：从“昂贵标注目标”变成“数据生产引擎”

像素级标注一直很贵，这也是 segmentation 长期难以像分类、检测那样规模化扩张的原因之一。
但 LLM 和 foundation model 起来之后，整个数据闭环也变了。

现在更常见的做法是：

先用 VLM/LLM 做语义筛选和粗召回
再用 segmentation 模型生成 candidate mask
最后由人做快速修正

这使 segmentation 不只是训练目标，还是数据生产工具。它既服务于最终应用，也服务于下游数据构建。

尤其在长尾类别上，这种变化很明显。以前你要先定义一个类别，再花很多成本打点、描边、返工；现在很多团队会先通过语言描述找到样本，再用 promptable segmentation 生成初稿，最后把人工时间花在修正而不是从零标注上。

从这个角度看，segmentation 在 LLM 时代承担的是“把抽象概念低成本落成 mask”的角色。

变化四：从“封闭类别体系”走向“开放世界中的局部精确性”

LLM 的强项是开放世界知识，semantic segmentation 的强项是局部边界精确性。两者结合之后，一个非常自然的分工出现了：

LLM/VLM 管语义广度
segmentation 管空间精度

这意味着 segmentation 不再需要独自承担全部“理解世界”的压力。
它可以更专注于自己最擅长的那部分：边界、局部结构、区域一致性、时序连续性。

这也解释了为什么传统 semantic segmentation 并不会被 LLM 取代。因为无论语言模型多强，只要系统最终需要：

精确剪裁对象
计算占地面积
做像素级编辑
输出可执行的机器人操作区域
保证视频中的 mask 连续稳定

那么 segmentation 就仍然是不可替代的。

那 semantic segmentation 现在还重要吗？

我觉得答案是：更重要了，但更“幕后”了。

以前它是论文标题里的主角；现在它更像基础设施。
它不一定总被用户直接看见，但越来越多上层能力都依赖它：

多模态 Agent 需要它做空间落点
图像编辑产品需要它做局部控制
数据引擎需要它加速标注闭环
机器人和自动驾驶需要它把语言和行动区域对齐

所以它的角色变化，不是从重要变得不重要，而是从一个独立任务，变成了一个平台型能力。

未来更像什么

我越来越觉得，未来的视觉系统不会是“一个 segmentation 模型解决所有问题”，而更像这样一套组合：

一个 LLM/VLM 负责理解用户意图与场景语义
一个 detector / retriever 负责快速找到候选目标
一个 segmentation 模块负责输出高质量 mask
一个 memory / tracker 负责跨帧和多轮交互保持一致

在这个体系里，semantic segmentation 不再单独站在舞台中央，但它几乎出现在每一次“把语言变成视觉操作”的关键一步里。

总结

如果用一句话概括这几年 semantic segmentation 的角色变化，那就是：

它正在从“视觉任务本身”，转变为“多模态系统中的空间执行层”。

以前它主要回答“这是什么”；现在它更常回答“你说的那个东西，到底在哪一块”。
这听起来像是退居二线，但实际上是进入了更核心的位置——因为所有真正可交互、可操作、可落地的视觉系统，最终都要回到空间和区域本身。

而这，恰好就是 segmentation 最擅长的事。