欢迎访问河南省科学院地理研究所官方网站!

Nature:基于下一个词元预测的大型多模态模型多模态学习

来源: 地图与GIS研究中心 发布时间: 2026/3/5 17:46:37 查看:

期刊:Nature

中文题目:基于下一个词元预测的大型多模态模型多模态学习

英文题目:Multimodal learning with next-token prediction for large multimodal models

作者:Xinlong Wang, Yufeng Cui,  Jinsheng Wang, Fan Zhang, Yueze Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Zhen Li, Yuqi Wang, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Chunlei Men, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Zhongyuan Wang & Tiejun Huang

发表日期:2026年1月28日


摘要

       开发一种能够跨文本、图像和视频等多模态进行学习与生成的统一算法,一直是人工智能领域的基础性挑战。尽管下一个词元预测技术推动了大型语言模型的重大进展,但其在多模态领域的扩展仍显局限,目前图像与视频合成仍主要依赖扩散模型,而将视觉编码器与语言模型融合的组合框架仍占据主导地位。本文提出Emu3多模态模型家族,该系列模型仅通过下一个词元预测进行训练。在感知与生成任务中,Emu3均达到成熟专用模型的性能水平,既可媲美旗舰系统,又无需依赖扩散或组合架构。该模型进一步实现了连贯的高保真视频生成、交织式视觉-语言生成,以及面向机器人操作的视觉-语言-动作建模。通过将多模态学习简化为统一的词元预测,Emu3为大规模多模态建模奠定了坚实基础,并为实现统一的多模态智能开辟了充满希望的道路。


研究背景

(1)尽管下一个词元预测在大型语言模型中取得了革命性成功,但其在多模态领域的扩展却十分有限。目前,图像和视频生成主要由复杂的扩散模型主导,而视觉语言理解则依赖于组合式架构。这种碎片化的现状导致模型设计复杂,依赖大量手工构建的组件。

(2)早期的统一尝试要么仍需连接扩散模型,要么在生成与理解性能上无法与任务特定模型匹敌,使得这一范式在多模态领域的潜力尚未得到证实,一个单一的下一个词元预测框架,能否成为多模态学习的通用基础?


研究结果

(1)核心框架构建

       本研究提出一种统一的仅解码器框架,将语言、图像和视频建模为单一的离散词元序列,并通过端到端训练实现下一个词元预测目标。图1展示了该框架,包含五个紧密集成组件:1)大型混合多模态训练数据集;2)统一词元器,将图像与视频片段转换为紧凑的离散词元流;3)基于Transformer的纯解码器架构,在遵循标准纯解码器设计原则的同时,扩展大型语言模型的嵌入空间以适配视觉词元;4)两阶段优化方案:包含采用平衡交叉熵损失的大规模多模态预训练,以及针对任务格式与人类偏好的高质量后训练;5)高效推理后端,支持无分类器引导、低延迟与高吞吐量的自回归式多模态生成。

 

z202603051.png

1: Emu3框架

Fig. 1: Emu3 framework



扩展数据表1 Emu3预训练方案

Extended Data Table 1 Training recipe for Emu3 pretraining

z202603052.png


(2)技术实现与验证

       研究团队提出了Emu3,一个完全基于下一个词元预测训练的多模态模型系列。其核心方法是将图像、文本和视频统一离散化为词元,使用单个Transformer解码器从零开始进行端到端联合训练。技术实现包括:开发统一的视觉词元器,采用三阶段预训练课程,并引入质量微调和直接偏好优化进行后训练对齐。

       Emu3验证了多模态学习中的稳定缩放定律——不同任务在统一框架下遵循可预测的幂律关系。在性能上,Emu3在图像生成、视觉语言理解和视频生成三大基准上达到与Stable Diffusion、LLaVA、Open-Sora等成熟专用模型相当的水平。消融实验表明,统一的视频词元器比图像词元器效率更高,且解码器架构在无预训练初始化时与组合架构学习效率相当。


z202603053.png

4: Emu3在多模态任务中的扩展规律

Fig. 4: Scaling laws of Emu3 across multimodal tasks



1 跨模态任务评估

Table 1 Evaluation across multimodal tasks

z202603054a.png



z202603054b.png

5:分词器重建样本及统一视频分词器与独立图像分词器的对比

Fig. 5: Reconstruction samples of the tokenizer and comparison of unified video tokenizer and standalone image tokenizer



z202603055.png

3:基于词元的多模态基础设施与扩散模型及编码器+大型语言模型组合范式架构的比较

Fig. 3: Token-centric multimodal infrastructure and architectural comparisons with diffusion models and the encoder + LLM compositional paradigm


(3)扩展应用结果

       研究进一步展示了框架的泛化能力:在机器人操作任务上,Emu3达到4.64的平均任务完成长度,超越多个专用模型;通过改变词元预测顺序,模型实现了零样本图像修复能力;在交错图文生成任务上,模型能生成步骤式图文混合内容,证明了统一词元预测框架在视觉预测、具身智能和多模态内容生成等领域的广泛应用潜力。


扩展数据表5 CALVIN长时域机器人操作基准测试比较

Extended Data Table 5 Comparison on the CALVIN long-horizon robotic manipulation benchmark

z202603056.png

z202603057.png

扩展数据图2 采用螺旋式词元顺序的Emu3模型实现零样本图像修复

Extended Data Fig. 2 Zero-shot image inpainting with Emu3 using spiral-in token order



z202603058.png

扩展数据图1 交叉生成图像-文本结果的可视化展示。

Extended Data Fig. 1 Visualization of interleaved image-text generation results


z202603059.png

扩展数据图3 Droid数据集上视觉预测结果的可视化展示

Extended Data Fig. 3 Visualization of visual prediction on the Droid dataset


研究意义

     (1)本研究从根本上挑战了多模态学习中扩散模型和组合式架构具有内在优越性的主流假设。通过Emu3的成功,论文证明了下一个词元预测这一简洁目标可以作为大规模多模态学习的通用基础,为统一建模语言、图像、视频乃至动作提供了新的理论范式,弥合了自然语言处理与多模态领域长期存在的技术鸿沟。

     (2Emu3展示了单一架构在多项任务上达到甚至超越成熟专用模型的强大能力,包括文本到图像/视频生成、视觉语言理解、未来帧预测及机器人操作。这为简化多模态系统的设计、降低对复杂手工组件的依赖提供了可行方案。此外,研究团队开源了关键技术和模型,为后续研究与应用开发提供了坚实基础。

     (3)本研究为通向更高级的通用人工智能指明了潜在路径。通过将感知、语言和动作统一于词元预测框架,Emu3为构建原生多模态助手、世界模型和具身智能系统奠定了基础,推动了从单一模态处理向统一多模态智能的演进。


研究创新

     (1)本研究首次证明了仅靠下一个词元预测这一简洁目标,即可在图像生成、视频生成、视觉语言理解等多个任务上达到与扩散模型和组合式架构相当的性能。这一发现挑战了当前多模态领域的主流假设,为多模态学习提供了全新的通用范式。

     (2Emu3采用纯解码器Transformer架构,无需依赖任何预训练的视觉编码器或语言模型,直接从零开始联合训练。通过统一的视觉词元器将图像和视频高效压缩为离散词元,实现了对多种模态的原生支持,包括文本到视频生成、未来帧预测、交错图文生成乃至机器人操作的视觉-语言-动作建模。

     (3)本研究系统性地验证了多模态学习中的缩放定律,揭示了不同任务在统一框架下遵循稳定的幂律关系,使得模型性能可预测。此外,通过引入直接偏好优化和以词元为中心的边缘-云端协同推理架构,提升了生成质量与部署效率,为大规模实际应用奠定了基础。


研究对我们工作的启示

     (1)本研究证明了下一个词元预测这一简洁目标在多模态领域的巨大潜力,启示我们在面对复杂任务时,不应盲目追求复杂的模型架构,而应优先探索基础范式的扩展性。将不同模态(图像、视频、文本、动作)统一表示为离散词元,可能是一种通往通用人工智能的简洁而有效的路径。

     (2Emu3从零开始训练、不依赖预训练视觉编码器或语言模型的做法。这提示我们在研究中应审慎评估预训练组件带来的真实增益,避免被固有的技术路径所束缚。同时,其系统性的消融实验也强调了在大规模训练中,对训练稳定性进行细致调优的重要性。

     (3)该框架从基础的感知与生成,无缝扩展到视频预测、交错生成乃至机器人操作,展示了统一框架的强大泛化能力。这启示我们在设计技术方案时,应着眼于构建一个可扩展、能兼容多种任务的基础平台,而非为每个具体问题开发孤立的解决方案,从而为未来的多任务、多场景应用奠定基础。

 

 

文献来源:https://doi.org/10.1038/s41586-025-10041-x

声明:以上中文翻译为译者个人对于文章的概略理解,论文传递的准确信息请参照英文原文。

 

 




撰稿:杨旭

初审:任杰

审核:杜军

终审:鲁鹏