博亚体育中国官网入口 字节会师何恺明!开源蛊惑扩散谈话模子Cola DLM

大谈话模子果然只可走"瞻望下一个 token "的路子吗?
继何恺明之后,字节也给出了一样的回话:NO。
而况,双方都异途同归地盯上了归拢个标的——在蛊惑语义空间中建模谈话。
更要津的是,字节此次平直开源开到底,论文、代码、模子权重、华文博客通通释出。

帮寰球快速回忆一下。就在上周,何恺明团队推出首个扩散谈话模子 ELF ——
它跳过 token 层,把系数生成经过留在蛊惑 embedding 空间里完成,仅用 105M 参数就跑赢一众主流扩散谈话模子,第一次讲明蛊惑路子在谈话生成上真有后劲。
而字节此次带来的 Cola DLM(Continuous Latent Diffusion Language Model),则进一步佐证了这一趋势。
他们一样遴荐跳出翻脸 token 的不休,把生成经过交给蛊惑空间,落幕是:
在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下,Cola DLM 展现出了比自总结模子和主流翻脸 DLM 更相识的 scaling 趋势。
然则,朴直你认为这不外是又一个"把图像扩散模子搬进谈话界限"的故事时,字节却告诉你:错了。
Cola DLM 的 motivation 从来不是 diffusion。
啊??不是为了 diffusion,落幕作念了个 diffusion language model?
字节:Token ≠语义,表征才是真确的主角
事实上,真确的主角藏在这句话的后半段:
Cola DLM 的 motivation 从来不是 diffusion,而是representation(表征)。
在字节看来,真确垂危的是表征,Token 这种 tokenizer 工程和历史演化的副居品,只是是表征被已矣出来的一种时势辛苦。他们还斗胆给出了一个暴论:
Token 是东说念主类谈话系统的上层载体,不是语义自身。
金佰利国际娱乐官网入口浮浅看一个例子你就懂了,比如咱们用不同的话抒发归拢个真义:
我今天很荣达。
今天我心思很好。
今天过得挺欣忭。
token 差了一大堆,但语义照旧那一个。
放在以前,主流大模子时常会把这些不同说法,当成几套不同的抒发区别去学——明明背后是归拢个语义,模子偏专爱在 token 这个上层挨个对皆。
是以字节的判断是,若是模子里面存在一种更相识、更轮廓的"语义景象",那这些内容调换、只是说法不同的句子,其实没必要被区别操心,而是不错在里面管制到左近的默示。因此内容上而言:
Cola DLM 的 diffusion 不是在归附 token,而是在 transport 一个 latent prior。
奈何" transport 一个 latent prior "?字节遴荐平直把语义和已矣分层。
具体要领论指路论文 3.1.1,这里咱们浮浅翻译过来即是:
Cola DLM 的生成模子,内容上惟一两部分。一个 latent prior,矜新生成"潜在语义"; 一个 decoder,矜重把这些语义翻译成具体翰墨。 看上去就像是把"生成一句话"拆成了两件相对寂然的事。
而且要津在于,系数 diffusion/flow matching 经过,其实都发生在 latent 空间里,而不是 token 空间里。
即是说,Cola DLM 干的不是把一堆脏 token 放心去噪成干净 token,而是先在蛊惑语义空间里,把一团未必语义放心组织成特意旨的潜在抒发,临了再合股翻译成翰墨。

是以在它的生成旅途里,其实根柢莫得 token 的渐渐生成经过,token 只在临了一步才出现,前边学的都是"语义奈何酿成"。
这亦然 Cola DLM 和许多扩散谈话模子最大的不同。
许多 DLM,内容上照旧围绕 token 在作念"修修补补",比如归附被 mask 的 token、渐渐还原翻脸文本。但 Cola DLM 平直把 diffusion 从"翰墨层"搬到了"语义层",diffusion 不再矜重"生成 token ",而是矜重"组织语义"。在字节看来:
这不是包装上的各异,而是改造了 diffusion 在模子里到底干什么。
Cola DLM 背后要津细节
要领论咱们知说念了,那 Cola DLM 真确"和传统蛊惑 DLM 拉开差距"的地点到底在哪?
谜底,就藏在几个很工程化但很要津的瞎想遴荐里。
要津 1:latent 不是浮浅的 embedding 替代品
领先是 latent 是奈何来的。许多东说念主一听"蛊惑谈话模子",第一反映是——不即是在 word embedding 上作念扩散嘛。
但 Cola DLM 偏巧没这样作念,它专门搭了一套 Text VAE:
Encoder:把翻脸文本压缩成蛊惑 latent(高出于索取"语义指纹");
Decoder:把 latent 再还原回环本。
别离在哪?token embedding 照旧和 token 逐一绑定的,每个 token 一个向量,内容上照旧 token 序列。
而 Cola DLM 要的 latent,是一个不错蛊惑变化、可被概率建模的未必变量。
这样一来,模子处理的对象就不再是"下一个 token ",而是"整段文本对应的语义景象"。

要津 2:prior 不是平凡的 diffusion
Cola DLM 用的不是寰球熟悉的"加噪→去噪"那种 diffusion,而是一个叫 block-causal DiT+Flow Matching 的组合。
组合看不懂没联系,知说念这个组合作念的事就行了:
从一个浮浅散布(比如高斯)动身;
在蛊惑时间里学习一个 vector field(向量场);
把这个散布"运载"成确凿数据对应的 latent 散布。
说白了即是,不靠反复去噪,而是平直学一条"最优旅途",把噪声平滑地引向特意旨的语义。

更妙的是,它在这个语义旅途上还引入了 block 结构——
块内并行处置局部语义的快速组织,块间按因果轨则保证举座逻辑不乱。
举座高出于在语义层再行搭了一套生成框架,"局部快、举座顺",两样都没丢。
要津 3:练习时扮装单干明确
蛊惑扩散谈话模子有一个常见问题:
语义默示 latent 很容易被 diffusion 带偏,临了退化成一个"穿了马甲的 token ",即名义是蛊惑向量,但骨子里照旧在记词,根柢没酿成真确的语义轮廓。
是以 Cola DLM 的作念法是——把两个任务绝对分开。
Encoder/Decoder:只管"奈何把翰墨变谚语义默示,再变回来";
Prior(DiT+FM):只管"奈何从噪声生谚语义默示"。
而且练习时,Encoder 在 diffusion 阶段基本"冻结不动"。
为什么不让它也随着学?因为一朝让 Encoder 去适合 diffusion,它就会为了缩小 loss 而偷懒,把语义默示偷偷滑向"好瞻望的 token 时势",临了又回到老路上。
字节想要的是一个相识的语义空间,而不是一个被任务混浊的中介层。是以他们反治其身,让 prior 去适合语义空间,博亚体育而不是让语义空间讨好 prior。
此外,他们还加了一个语义管制(BERT-style mask loss),驻守 encoder 在重建时"语义崩塌"。
实考据明,莫得这个管制,latent 如实会为了降 loss 而漂走。
要津 4:把练习认识拆成了三块不错区别会诊的子任务
若是说前边三点更像工程上的巧想,而这第四点即是 Cola DLM 在表面上的硬功夫。
字节把练习认识拆成了三个不错单独看、单独会诊的子任务:
重建能力:给了 latent,Decoder 能不可把原文还原出来?
压缩能力:这个语义默示到底压缩了些许原文信息?
拟合能力:Prior 能不可学出 latent 的确凿散布?
这样拆的平正在于,传统自总结把系数东西都糊在一个"瞻望下一个词"的蚀本函数里。
生成效果不好时,你根柢不知说念是那儿出了问题,不知说念是剖释错了、操心不够,照旧生成旅途歪了。
而 Cola DLM 把账算得清澄清爽,那儿不行区别看方针就知说念。
这也它能跑出相识 scaling 趋势的底层原因——
不是瞎蒙,而是每一个才能都能单独会诊、单独优化。
临了鉴于篇幅原因,这里咱们平直放上字节 Cola DLM 不息的落幕省流版(珍惜内容指路博客):

归拢个追问,两种谜底
而说到这里,咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在通盘看。
很特真义的是,两份职责简直同期,都在挑战一个被默许了二十年的假定——
谈话模子必须建筑在翻脸 token 上。
为什么这个假定运转受到质疑?
一方面,自总结大模子走到今天,"瞻望下一个 token "这条路的瓶颈越来越显着——推理慢、长程依赖弱、练习认识和确凿生成质地之间存在结构性 gap。
另一方面,扩散模子在图像、视频生成上的见效,让寰球运转反想:翻脸 token 果然是谈话智能必须依附的载体吗?照旧只是历史遴荐的一种俗例?
这两年扩散谈话模子的探索(LLaDA、Dream-7B、MDLM 等)仍是把这个问题拉到了台面上,但大大都职责还停留在"翻脸派"——照旧在 token 上作念扩散。
直到 ELF 和 Cola DLM 出现,双方简直同期给出了归拢个谜底——无谓绑在 token 上。
只不外具体解法上有所不同。
我也去对比了两项不息之前的区别,用图片展示如下:

浮浅说,ELF 像一个东说念主重新干到尾,在原长度 embedding 空间里反复琢磨,到临了一步才落笔成字。
Cola DLM 则像两个单干部门,语义部先盘考"要抒发什么",翰墨部再矜重"具体奈何写"。
两条路子要领上固然不同,但底层温雅绝对一致——
让建模发生在最符合谈话内容的默示空间里,不要被" token= 语义"这个默许框架落幕。
内容上而言,它们其实是归拢个问题的两种回话。
而这也代表着一种趋势——是时候再行意志蛊惑扩散谈话模子了。
往日两年,扩散谈话模子的舞台简直一直由"翻脸派"占据。但 ELF 和 Cola DLM 这一前一后两次起始,让"蛊惑路子"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。
更值得防备的是,Cola DLM 还顺遂指出了一件更大的事——长期以来"合股多模态"卡住的中枢遏制之一,即是文本是翻脸的,而图像、视频、音频自然偏蛊惑。
若是想让它们真确参预归拢个" latent 寰宇",必须有一个把文本映射到蛊惑语义 latent 的接口。
而 Cola DLM 恰好上演了这样的扮装。而这,概况才是字节此次起始的真确无餍——
不是在扩散谈话模子的赛说念里再添别称选手,而是为谈话模子造一座桥,把它接入蛊惑多模态的寰宇。
自然,Cola DLM 团队我方也很克制,他们在博客临了写说念:
Cola DLM 只是这条路上的一次早期尝试,但这条路自身值得连续走下去。
作家先容
临了按照老例先容一下这项不息的作家。
系数团队由字节逾越 Seed 团队主导,聚会了来自港大、东说念主大、北大、北邮、澳国立多所高校的不息者,遮蔽谈话建模、扩散模子、视频生成等多个标的。

第一签字 Hongcan Guo(郭泓灿),现在是北邮东说念主工智能学院大四本科生,从 2025 年 6 月起在字节 Seed 实习。
不息兴味聚合在生成模子与推理模子的数学基础和学习能源学,Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng(曾妍)则是字节 Seed 里面的"大牛级"东说念主物,她是字节爆款视频生成模子 Seedance 系列的研发矜重东说念主。有贵寓裸露,这位西安交大学友 2021 年以校招生身份加入字节后,仅用了五年就从算法工程师普及至 4-2 职级。
此次 Cola DLM 里许多"分层潜变量 +diffusion prior "的想路,与视频生成界限长期给与的 latent diffusion 路子存在显贯注叠之处。
团队里还有一位很特真义的"跨界选手"—— Shen Nie。他是东说念主大高瓴 AI 学院李崇轩组的代表性不息者,同期亦然翻脸扩散谈话模子 LLaDA 的第一作家。而 LLaDA 正好亦然 Cola DLM 在论文里要点比拟的一条翻脸扩散路子。
某种意旨上,这件事自身就挺特真义:一位翻脸扩散路子的代表东说念主物,也参与到了蛊惑 latent 路子的不息里。某种进度上也证明,Cola DLM 此次真确想盘考的,仍是不单是"扩散奈何生成文本",而是更底层的:
文本智能到底应该建筑在什么样的景象空间之上?
其他几位中枢作家一样来头不小。
Hengshuang Zhao 是香港大学盘算机系助理训导,曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后,长期活跃于盘算机视觉与生成建模界限。
Qiushan Guo 则来自港大 MMLab 羅平组,同期亦然字节 Seedream 图像生成模子的垂危研发成员之一。
其他签字作家还有:Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。
施行上,若是把整份作家名单放在通盘看,其实会发现一个相配特真义的时势——
字节此次作念谈话模子,某种进度上简直是把"视频 / 视觉生成"那套中枢想路举座带了进来:
作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念翻脸 DLM 的,临了通盘再行想考"文本到底该奈何建模"。
这概况亦然为什么 Cola DLM 举座看上去,会和传统谈话模子路子呈现出相配不同的气质。
因为它从一运转关注的,就不单是"怎样更好地生成文本",而是在尝试把谈话再行放回蛊惑语义空间里,变成一种能够与图像、视频、音频自然对皆的模态。
而这,也许才是 Cola DLM 最值得关注的地点:
当文本不再只是 token 序列,而成为蛊惑寰宇中的一种语义景象后,多模态智能又会长成什么样。
抱抱脸地址:https://huggingface.co/ByteDance-Seed/Cola-DLM
GitHub 地址:https://github.com/ByteDance-Seed/Cola-DLM
论文:https://arxiv.org/abs/2605.06548
博客:https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html
一键三连「点赞」「转发」「留神心」
接待在研讨区留住你的想法!
— 完 —
中国 AIGC 产业峰会全声势发布!� �检验议程
从底层架构到爆款行使,从软件到硬件,从创作到投资 ... 这一次,咱们但愿聚皆AI 赛说念的实战派,聊透 AI 到底奈何落地、奈何赢利、奈何改造职责。
5 月 20 日,北京 · 金茂万丽栈房,@系数东说念主,立时 AI 起来!� �
一键关注 � � 点亮星标
科技前沿剖释逐日见博亚体育中国官网入口