国产AI新突破！商汤开源“原生理解生成统一模型”，告别“拼接式”多模态

昨天（28日）夜间，商汤科技正式发布并开源“日日新SenseNova U1”系列原生理解生成统一模型。它基于商汤今年3月自主研发的NEO-unify架构，首次在单一模型架构上实现多模态理解、推理与生成的统一，标志着从“模态集成”向“原生统一”的范式跨越。

新民晚报记者了解到，NEO-unify架构彻底摒弃了主流的拼接式设计，去除了视觉编码器（VE）和变分自编码器（VAE），重新构建了统一的表征空间，并将统一表征深入融入模型的每一层计算中。SenseNova U1能够将语言与视觉信息作为一个复合体直接建模，实现二者高效协同，让理解与生成能力同步增强，在保留语义丰富度的同时维持像素级的视觉保真度。

在逻辑推理与空间智能方面，该模型能够深度理解物理世界的复杂布局与精细关系。未来，它还可为机器人提供“具身大脑”，在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程。

本次开源发布的是SenseNova U1的轻量版系列——SenseNova U1 Lite，包含两个不同规格的模型：SenseNova-U1-8B-MoT（基于稠密骨干网络）和SenseNova-U1-A3B-MoT（基于混合专家MoE骨干网络）。相关代码与模型已上线GitHub和Hugging Face平台，商汤表示将于近期公布详细技术报告。

效率优势显著：小模型达到商用级水准

效率，是统一模型架构的核心技术优势。

传统多模态模型通过将视觉编码器与语言骨干用适配器拼接，类似于一个“多人协作、层层转述”的工作组，信息在不同模块间传递容易出现损耗和延迟。而SenseNova U1基于统一表征空间构建，如同一个“全能大脑”，在同一套思考方式中直接处理图像、文字等不同信息，避免了中间转译带来的信息损失，从而以更紧凑、更高密度的方式组织多模态数据。

图像理解基准测试结果、图像生成基准测试结果、视觉推理基准测试结果

实验结果显示，在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中，SenseNova U1 Lite均达到同量级开源模型的SOTA（最先进水平）。仅凭8B-MoT的较小规格，就能达到甚至超越部分大型商业闭源模型。在通用图像生成测试中，其生成质量比肩Qwen-Image 2.0 Pro或Seedream 4.5等大型闭源模型，同时推理响应速度具有显著优势；在开源模型长期表现不佳的复杂信息图生成任务中，也展现出商业级水准，对排版和文字具备强控制力。

SenseNova U1 Lite的商业级复杂信息图生成能力

商汤科技表示，正沿着当前技术路径继续“规模化”，计划未来推出体量更大的模型。基于高效的原生架构，有望以远低于传统方案的计算成本达到国际顶尖模型水平。

业内首创：连续性图文创作输出

凭借NEO-Unify架构，SenseNova U1在业内首个实现连续性的图文创作输出，并且仅需单次单模型调用即可完成。传统方法往往需要多模型串联，勉强实现图文交替，且图像间风格一致性差。而SenseNova U1将图像和文本底层融合信号完整保留在上下文中，在统一表征空间进行高效连贯思考。

在演示案例中，模型可根据“五分熟牛排做法”任务，自主规划分步过程并为每一步生成对应的图像，各步骤图示表现出极高的一致性。在“绘制钢铁侠图案”任务中，模型能够从扫描草稿出发，逐步连续创作，最终输出完成度很高的图像，每一步创作都精准保持了前一步的结构与细节。

（左）五分熟牛排做法：SenseNova U1 可以通过思考和规划产生分步的过程，并且给每一步输出对应的图像展示。各个步骤的图示表现出极高的一致性；（右）任务二：绘制一个钢铁侠图案：它可以从扫描草稿出发，逐步进行连续创作，最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持——一个统一表征的共享上下文在其中发挥了关作用。

商汤科技向新民晚报记者表示，这一能力将为人机协作、创意设计、智能教育等领域打开新的应用空间，也为上海AI产业的原生多模态技术发展提供重要基础与关键引擎。

【开源部署】【调用 SenseNova U1 Skill】

原标题：《国产AI新突破！商汤开源“原生理解生成统一模型”，告别“拼接式”多模态》

栏目编辑：马丹

来源：作者：新民晚报郜阳