SenseNova U1 是一系列新的原生多模态模型,将多模态的理解、推理和生成统一在单一架构中。 它标志着多模态人工智能的根本范式转变:从模态集成到真正的统一。SenseNova U1 不依赖适配器在不同模态间转换,而是原生地建模跨语言和视觉的思维与行动。
将从像素到单词的端到端架构中统一视觉理解和生成,开辟了巨大的可能性,实现了高效且强大的理解、生成和交错推理,以原生多模态的方式实现。
SenseNova U1的核心是NEO-Unify,这是一种基于多模态AI基本原则设计的新型架构:它消除了像素-字信息内在且深度关联的视觉编码器(VE)和变分自动编码器(VAE)。以下几个重要特征:
- 🔗 将语言和视觉信息端到端建模为统一的复合体。
- 🖼️ 在保持像素级视觉真实度的同时,保持语义丰富性。
- 🧠 通过原生MoT实现跨模式高效且冲突最小的推理。
✨ 解锁内容:
借助这一新核心架构,SenseNova U1在多模态学习中实现了卓越的效率:

📰 高密度信息渲染:SenseNova U1 展现了丰富的密集视觉传播能力,能够生成结构丰富的知识插图、海报、演示文稿、漫画、简历及其他信息丰富的格式布局。
🏆 开源SoTA在理解与生成方面:SenseNova U1为统一多模态理解与生成树立了新标准,在广泛的理解、推理和生成基准中实现了开源模型的顶尖性能。
📖 原生交错图像-文本生成:SenseNova U1 可以用一个模型在单一流程中生成连贯的交错文本和图像,支持实用指南和旅行日记等应用场景,将清晰的交流与生动的故事讲述结合,将复杂信息转化为直观的视觉效果。
SenseNova U1 Lite系列开源为两种尺寸:
- SenseNova U1-8B-MoT — 致密骨架
- SenseNova U1-A3B-MoT — MoE 骨干
| 模型 | 参数 | HF配重 |
|---|---|---|
| 感应新星-U1-8B-MoT-SFT | 8B战场 | 🤗 链接 |
| 感知新星-U1-8B-MoT | 8B战场 | 🤗 链接 |
| SenseNova-U1-A3B-MoT-SFT | A3B MoT | 🤗 链接 |
| SenseNova-U1-A3B-MoT | A3B MoT | 🤗 链接 |
在这里,SFT模型(×32下采样比)通过理解热身、生成预训练、统一中期训练和统一SFT进行训练,最终模型则在初轮T2I强化学习后获得。
虽然以今天的标准来看相对紧凑,这些型号在多种任务中已展现出强劲的性能,可与具有优异性价比的商用型号媲美。值得注意的是,未来还计划推出更大规模的版本,以进一步提升性能和性能。
