港中文贾佳亚团队提出 LISA 大模型：解锁多模态大模型“推理分割”能力

当前的视觉识别系统都依赖人类用户明确指代目标物体或预先设定识别类别，进而进行识别。它们仍然只能处理简单明确的指令（如“橙子”），而无法解析相对隐式和复杂的指令（如在下图中指出 “维生素C含量高的食物”）。

而真正的智能感知系统应该根据用户指令推理其真实意图。例如，在指示机器人时，人们往往倾向于直接给一个指令“我想要看电视“，而不是分几个步骤”走去茶几旁边，帮我找到遥控器，然后按下按钮打开电视“。这些场景都要求感知系统具有复杂推理和联系世界知识的能力。

最近，香港中文大学贾佳亚团队发布一项新研究，提出一项新任务——推理分割（Reasoning Segmentation），该任务要求模型能够处理复杂的自然语言指令，并给出精细的分割结果。

如上图所示，推理分割任务具有很大的挑战性，可能需要借鉴世界知识（例如，左图需要了解“短镜头更适合拍摄近物体”），或进行复杂图文推理（如右图需要分析图像和文本语义，才能理解图中“栅栏保护婴儿”的含义），才能获得最终理想的分割结果。

尽管当前多模态大模型（例如Flamingo [1], BLIP-2 [2], LLaVA [3], miniGPT-4 [4], Otter [5]）使得AI能够根据图像内容推理用户的复杂问题，并给出相应的文本分析和回答，但仍无法像视觉感知系统那样在图像上精确定位指令对应的目标区域。

因此，此项研究工作提出LISA（Large Language Instructed Segmentation Assistant）多模态大模型。LISA通过引入一个<SEG>标记来扩展初始大型模型的词汇表，并采用Embedding-as-Mask的方式赋予现有多模态大型模型分割功能，最终展现出强大的零样本泛化能力。

同时，该工作还创建了ReasonSeg数据集，其中包含上千张高质量图像及相应的推理指令和分割标注。

实验证明，在训练过程中仅使用不包含复杂推理的分割数据（通过将现有的语义分割数据如ADE20K [6]，COCO-Stuff [7]以及现有指代分割数据refCOCO系列 [8]中的每条数据转换成“图像-指令-分割Mask”三元组），LISA能在推理分割任务上展现出优异的零样本泛化能力。此外，进一步使用239个推理分割数据进行微调训练还能显著提升LISA在推理分割任务上的性能。而且LISA还表现出高效的训练特性，只需在8张具有24GB显存的3090显卡上进行10,000次训练迭代，即可完成7B模型的训练。

技术方案概述