昨天(28日)夜间,商汤科技正式发布并开源“日日新SenseNova U1”系列原生理解生成统一模型。它基于商汤今年3月自主研发的NEO-unify架构,首次在单一模型架构上实现多模态理解、推理与生成的统一,标志着从“模态集成”向“原生统一”的范式跨越。


新民晚报记者了解到,NEO-unify架构彻底摒弃了主流的拼接式设计,去除了视觉编码器(VE)和变分自编码器(VAE),重新构建了统一的表征空间,并将统一表征深入融入模型的每一层计算中。SenseNova U1能够将语言与视觉信息作为一个复合体直接建模,实现二者高效协同,让理解与生成能力同步增强,在保留语义丰富度的同时维持像素级的视觉保真度。

在逻辑推理与空间智能方面,该模型能够深度理解物理世界的复杂布局与精细关系。未来,它还可为机器人提供“具身大脑”,在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程。

本次开源发布的是SenseNova U1的轻量版系列——SenseNova U1 Lite,包含两个不同规格的模型:SenseNova-U1-8B-MoT(基于稠密骨干网络)和SenseNova-U1-A3B-MoT(基于混合专家MoE骨干网络)。相关代码与模型已上线GitHub和Hugging Face平台,商汤表示将于近期公布详细技术报告。

效率优势显著:小模型达到商用级水准

效率,是统一模型架构的核心技术优势。

传统多模态模型通过将视觉编码器与语言骨干用适配器拼接,类似于一个“多人协作、层层转述”的工作组,信息在不同模块间传递容易出现损耗和延迟。而SenseNova U1基于统一表征空间构建,如同一个“全能大脑”,在同一套思考方式中直接处理图像、文字等不同信息,避免了中间转译带来的信息损失,从而以更紧凑、更高密度的方式组织多模态数据。



图像理解基准测试结果、图像生成基准测试结果、视觉推理基准测试结果

实验结果显示,在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中,SenseNova U1 Lite均达到同量级开源模型的SOTA(最先进水平)。仅凭8B-MoT的较小规格,就能达到甚至超越部分大型商业闭源模型。在通用图像生成测试中,其生成质量比肩Qwen-Image 2.0 Pro或Seedream 4.5等大型闭源模型,同时推理响应速度具有显著优势;在开源模型长期表现不佳的复杂信息图生成任务中,也展现出商业级水准,对排版和文字具备强控制力。


SenseNova U1 Lite的商业级复杂信息图生成能力


商汤科技表示,正沿着当前技术路径继续“规模化”,计划未来推出体量更大的模型。基于高效的原生架构,有望以远低于传统方案的计算成本达到国际顶尖模型水平。

业内首创:连续性图文创作输出

凭借NEO-Unify架构,SenseNova U1在业内首个实现连续性的图文创作输出,并且仅需单次单模型调用即可完成。传统方法往往需要多模型串联,勉强实现图文交替,且图像间风格一致性差。而SenseNova U1将图像和文本底层融合信号完整保留在上下文中,在统一表征空间进行高效连贯思考。

在演示案例中,模型可根据“五分熟牛排做法”任务,自主规划分步过程并为每一步生成对应的图像,各步骤图示表现出极高的一致性。在“绘制钢铁侠图案”任务中,模型能够从扫描草稿出发,逐步连续创作,最终输出完成度很高的图像,每一步创作都精准保持了前一步的结构与细节。


(左)五分熟牛排做法:SenseNova U1 可以通过思考和规划产生分步的过程,并且给每一步输出对应的图像展示。各个步骤的图示表现出极高的一致性;(右)任务二:绘制一个钢铁侠图案:它可以从扫描草稿出发,逐步进行连续创作,最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了精准的保持——一个统一表征的共享上下文在其中发挥了关作用。

商汤科技向新民晚报记者表示,这一能力将为人机协作、创意设计、智能教育等领域打开新的应用空间,也为上海AI产业的原生多模态技术发展提供重要基础与关键引擎。

【开源部署】【调用 SenseNova U1 Skill】

原标题:《国产AI新突破!商汤开源“原生理解生成统一模型”,告别“拼接式”多模态》

栏目编辑:马丹

来源:作者:新民晚报 郜阳