博亚体育中国官网入口字节会师何恺明！开源蛊惑扩散谈话模子Cola DLM

发布日期：2026-05-19 06:02 来源：未知作者：admin 浏览次数：

大谈话模子果然只可走"瞻望下一个 token "的路子吗？

继何恺明之后，字节也给出了一样的回话：NO。

而况，双方都异途同归地盯上了归拢个标的——在蛊惑语义空间中建模谈话。

更要津的是，字节此次平直开源开到底，论文、代码、模子权重、华文博客通通释出。

帮寰球快速回忆一下。就在上周，何恺明团队推出首个扩散谈话模子 ELF ——

它跳过 token 层，把系数生成经过留在蛊惑 embedding 空间里完成，仅用 105M 参数就跑赢一众主流扩散谈话模子，第一次讲明蛊惑路子在谈话生成上真有后劲。

而字节此次带来的 Cola DLM（Continuous Latent Diffusion Language Model），则进一步佐证了这一趋势。

他们一样遴荐跳出翻脸 token 的不休，把生成经过交给蛊惑空间，落幕是：

在 ~2B 参数、约 2000 EFLOPs 的严格对照实验下，Cola DLM 展现出了比自总结模子和主流翻脸 DLM 更相识的 scaling 趋势。

然则，朴直你认为这不外是又一个"把图像扩散模子搬进谈话界限"的故事时，字节却告诉你：错了。

Cola DLM 的 motivation 从来不是 diffusion。

啊？？不是为了 diffusion，落幕作念了个 diffusion language model？

字节：Token ≠语义，表征才是真确的主角

事实上，真确的主角藏在这句话的后半段：

Cola DLM 的 motivation 从来不是 diffusion，而是representation（表征）。

在字节看来，真确垂危的是表征，Token 这种 tokenizer 工程和历史演化的副居品，只是是表征被已矣出来的一种时势辛苦。他们还斗胆给出了一个暴论：

Token 是东说念主类谈话系统的上层载体，不是语义自身。

金佰利国际娱乐官网入口

浮浅看一个例子你就懂了，比如咱们用不同的话抒发归拢个真义：

我今天很荣达。

今天我心思很好。

今天过得挺欣忭。

token 差了一大堆，但语义照旧那一个。

放在以前，主流大模子时常会把这些不同说法，当成几套不同的抒发区别去学——明明背后是归拢个语义，模子偏专爱在 token 这个上层挨个对皆。

是以字节的判断是，若是模子里面存在一种更相识、更轮廓的"语义景象"，那这些内容调换、只是说法不同的句子，其实没必要被区别操心，而是不错在里面管制到左近的默示。因此内容上而言：

Cola DLM 的 diffusion 不是在归附 token，而是在 transport 一个 latent prior。

奈何" transport 一个 latent prior "？字节遴荐平直把语义和已矣分层。

具体要领论指路论文 3.1.1，这里咱们浮浅翻译过来即是：

Cola DLM 的生成模子，内容上惟一两部分。一个 latent prior，矜新生成"潜在语义"；一个 decoder，矜重把这些语义翻译成具体翰墨。看上去就像是把"生成一句话"拆成了两件相对寂然的事。

而且要津在于，系数 diffusion/flow matching 经过，其实都发生在 latent 空间里，而不是 token 空间里。

即是说，Cola DLM 干的不是把一堆脏 token 放心去噪成干净 token，而是先在蛊惑语义空间里，把一团未必语义放心组织成特意旨的潜在抒发，临了再合股翻译成翰墨。

是以在它的生成旅途里，其实根柢莫得 token 的渐渐生成经过，token 只在临了一步才出现，前边学的都是"语义奈何酿成"。

这亦然 Cola DLM 和许多扩散谈话模子最大的不同。

许多 DLM，内容上照旧围绕 token 在作念"修修补补"，比如归附被 mask 的 token、渐渐还原翻脸文本。但 Cola DLM 平直把 diffusion 从"翰墨层"搬到了"语义层"，diffusion 不再矜重"生成 token "，而是矜重"组织语义"。在字节看来：

这不是包装上的各异，而是改造了 diffusion 在模子里到底干什么。

Cola DLM 背后要津细节

要领论咱们知说念了，那 Cola DLM 真确"和传统蛊惑 DLM 拉开差距"的地点到底在哪？

谜底，就藏在几个很工程化但很要津的瞎想遴荐里。

要津 1：latent 不是浮浅的 embedding 替代品

领先是 latent 是奈何来的。许多东说念主一听"蛊惑谈话模子"，第一反映是——不即是在 word embedding 上作念扩散嘛。

但 Cola DLM 偏巧没这样作念，它专门搭了一套 Text VAE：

Encoder：把翻脸文本压缩成蛊惑 latent（高出于索取"语义指纹"）；

Decoder：把 latent 再还原回环本。

别离在哪？token embedding 照旧和 token 逐一绑定的，每个 token 一个向量，内容上照旧 token 序列。

而 Cola DLM 要的 latent，是一个不错蛊惑变化、可被概率建模的未必变量。

这样一来，模子处理的对象就不再是"下一个 token "，而是"整段文本对应的语义景象"。

要津 2：prior 不是平凡的 diffusion

Cola DLM 用的不是寰球熟悉的"加噪→去噪"那种 diffusion，而是一个叫 block-causal DiT+Flow Matching 的组合。

组合看不懂没联系，知说念这个组合作念的事就行了：

从一个浮浅散布（比如高斯）动身；

在蛊惑时间里学习一个 vector field（向量场）；

把这个散布"运载"成确凿数据对应的 latent 散布。

说白了即是，不靠反复去噪，而是平直学一条"最优旅途"，把噪声平滑地引向特意旨的语义。

更妙的是，它在这个语义旅途上还引入了 block 结构——

块内并行处置局部语义的快速组织，块间按因果轨则保证举座逻辑不乱。

举座高出于在语义层再行搭了一套生成框架，"局部快、举座顺"，两样都没丢。

要津 3：练习时扮装单干明确

蛊惑扩散谈话模子有一个常见问题：

语义默示 latent 很容易被 diffusion 带偏，临了退化成一个"穿了马甲的 token "，即名义是蛊惑向量，但骨子里照旧在记词，根柢没酿成真确的语义轮廓。

是以 Cola DLM 的作念法是——把两个任务绝对分开。

Encoder/Decoder：只管"奈何把翰墨变谚语义默示，再变回来"；

Prior（DiT+FM）：只管"奈何从噪声生谚语义默示"。

而且练习时，Encoder 在 diffusion 阶段基本"冻结不动"。

为什么不让它也随着学？因为一朝让 Encoder 去适合 diffusion，它就会为了缩小 loss 而偷懒，把语义默示偷偷滑向"好瞻望的 token 时势"，临了又回到老路上。

字节想要的是一个相识的语义空间，而不是一个被任务混浊的中介层。是以他们反治其身，让 prior 去适合语义空间，博亚体育而不是让语义空间讨好 prior。

此外，他们还加了一个语义管制（BERT-style mask loss），驻守 encoder 在重建时"语义崩塌"。

实考据明，莫得这个管制，latent 如实会为了降 loss 而漂走。

要津 4：把练习认识拆成了三块不错区别会诊的子任务

若是说前边三点更像工程上的巧想，而这第四点即是 Cola DLM 在表面上的硬功夫。

字节把练习认识拆成了三个不错单独看、单独会诊的子任务：

重建能力：给了 latent，Decoder 能不可把原文还原出来？

压缩能力：这个语义默示到底压缩了些许原文信息？

拟合能力：Prior 能不可学出 latent 的确凿散布？

这样拆的平正在于，传统自总结把系数东西都糊在一个"瞻望下一个词"的蚀本函数里。

生成效果不好时，你根柢不知说念是那儿出了问题，不知说念是剖释错了、操心不够，照旧生成旅途歪了。

而 Cola DLM 把账算得清澄清爽，那儿不行区别看方针就知说念。

这也它能跑出相识 scaling 趋势的底层原因——

不是瞎蒙，而是每一个才能都能单独会诊、单独优化。

临了鉴于篇幅原因，这里咱们平直放上字节 Cola DLM 不息的落幕省流版（珍惜内容指路博客）：

归拢个追问，两种谜底

而说到这里，咱们很难不把字节 Cola DLM 与何恺明团队的 ELF 放在通盘看。

很特真义的是，两份职责简直同期，都在挑战一个被默许了二十年的假定——

谈话模子必须建筑在翻脸 token 上。

为什么这个假定运转受到质疑？

一方面，自总结大模子走到今天，"瞻望下一个 token "这条路的瓶颈越来越显着——推理慢、长程依赖弱、练习认识和确凿生成质地之间存在结构性 gap。

另一方面，扩散模子在图像、视频生成上的见效，让寰球运转反想：翻脸 token 果然是谈话智能必须依附的载体吗？照旧只是历史遴荐的一种俗例？

这两年扩散谈话模子的探索（LLaDA、Dream-7B、MDLM 等）仍是把这个问题拉到了台面上，但大大都职责还停留在"翻脸派"——照旧在 token 上作念扩散。

直到 ELF 和 Cola DLM 出现，双方简直同期给出了归拢个谜底——无谓绑在 token 上。

只不外具体解法上有所不同。

我也去对比了两项不息之前的区别，用图片展示如下：

浮浅说，ELF 像一个东说念主重新干到尾，在原长度 embedding 空间里反复琢磨，到临了一步才落笔成字。

Cola DLM 则像两个单干部门，语义部先盘考"要抒发什么"，翰墨部再矜重"具体奈何写"。

两条路子要领上固然不同，但底层温雅绝对一致——

让建模发生在最符合谈话内容的默示空间里，不要被" token= 语义"这个默许框架落幕。

内容上而言，它们其实是归拢个问题的两种回话。

而这也代表着一种趋势——是时候再行意志蛊惑扩散谈话模子了。

往日两年，扩散谈话模子的舞台简直一直由"翻脸派"占据。但 ELF 和 Cola DLM 这一前一后两次起始，让"蛊惑路子"第一次以一种严肃、可被对比、可被复现的姿态站到了台前。

更值得防备的是，Cola DLM 还顺遂指出了一件更大的事——长期以来"合股多模态"卡住的中枢遏制之一，即是文本是翻脸的，而图像、视频、音频自然偏蛊惑。

若是想让它们真确参预归拢个" latent 寰宇"，必须有一个把文本映射到蛊惑语义 latent 的接口。

而 Cola DLM 恰好上演了这样的扮装。而这，概况才是字节此次起始的真确无餍——

不是在扩散谈话模子的赛说念里再添别称选手，而是为谈话模子造一座桥，把它接入蛊惑多模态的寰宇。

自然，Cola DLM 团队我方也很克制，他们在博客临了写说念：

Cola DLM 只是这条路上的一次早期尝试，但这条路自身值得连续走下去。

作家先容

临了按照老例先容一下这项不息的作家。

系数团队由字节逾越 Seed 团队主导，聚会了来自港大、东说念主大、北大、北邮、澳国立多所高校的不息者，遮蔽谈话建模、扩散模子、视频生成等多个标的。

第一签字 Hongcan Guo（郭泓灿），现在是北邮东说念主工智能学院大四本科生，从 2025 年 6 月起在字节 Seed 实习。

不息兴味聚合在生成模子与推理模子的数学基础和学习能源学，Cola DLM 的博客恰是出自他手。

通信作家 Yan Zeng（曾妍）则是字节 Seed 里面的"大牛级"东说念主物，她是字节爆款视频生成模子 Seedance 系列的研发矜重东说念主。有贵寓裸露，这位西安交大学友 2021 年以校招生身份加入字节后，仅用了五年就从算法工程师普及至 4-2 职级。

此次 Cola DLM 里许多"分层潜变量 +diffusion prior "的想路，与视频生成界限长期给与的 latent diffusion 路子存在显贯注叠之处。

团队里还有一位很特真义的"跨界选手"—— Shen Nie。他是东说念主大高瓴 AI 学院李崇轩组的代表性不息者，同期亦然翻脸扩散谈话模子 LLaDA 的第一作家。而 LLaDA 正好亦然 Cola DLM 在论文里要点比拟的一条翻脸扩散路子。

某种意旨上，这件事自身就挺特真义：一位翻脸扩散路子的代表东说念主物，也参与到了蛊惑 latent 路子的不息里。某种进度上也证明，Cola DLM 此次真确想盘考的，仍是不单是"扩散奈何生成文本"，而是更底层的：

文本智能到底应该建筑在什么样的景象空间之上？

其他几位中枢作家一样来头不小。

Hengshuang Zhao 是香港大学盘算机系助理训导，曾在 MIT CSAIL、牛津 Torr Vision Group 作念博士后，长期活跃于盘算机视觉与生成建模界限。

Qiushan Guo 则来自港大 MMLab 羅平组，同期亦然字节 Seedream 图像生成模子的垂危研发成员之一。

其他签字作家还有：Qinyu Zhao、Yian Zhao、Rui Zhu、Feng Wang、Tao Yang、Guoqiang Wei。

施行上，若是把整份作家名单放在通盘看，其实会发现一个相配特真义的时势——

字节此次作念谈话模子，某种进度上简直是把"视频 / 视觉生成"那套中枢想路举座带了进来：

作念 latent diffusion 的、作念视频生成的、作念图像 prior 的、作念翻脸 DLM 的，临了通盘再行想考"文本到底该奈何建模"。

这概况亦然为什么 Cola DLM 举座看上去，会和传统谈话模子路子呈现出相配不同的气质。

因为它从一运转关注的，就不单是"怎样更好地生成文本"，而是在尝试把谈话再行放回蛊惑语义空间里，变成一种能够与图像、视频、音频自然对皆的模态。

而这，也许才是 Cola DLM 最值得关注的地点：

当文本不再只是 token 序列，而成为蛊惑寰宇中的一种语义景象后，多模态智能又会长成什么样。

抱抱脸地址：https://huggingface.co/ByteDance-Seed/Cola-DLM

GitHub 地址：https://github.com/ByteDance-Seed/Cola-DLM

论文：https://arxiv.org/abs/2605.06548

博客：https://hongcanguo.github.io/posts/2026-cola-dlm-zh.html

一键三连「点赞」「转发」「留神心」

接待在研讨区留住你的想法！

— 完 —

中国 AIGC 产业峰会全声势发布！� �检验议程

从底层架构到爆款行使，从软件到硬件，从创作到投资 ... 这一次，咱们但愿聚皆AI 赛说念的实战派，聊透 AI 到底奈何落地、奈何赢利、奈何改造职责。

5 月 20 日，北京 · 金茂万丽栈房，@系数东说念主，立时 AI 起来！� �

一键关注 � � 点亮星标

科技前沿剖释逐日见博亚体育中国官网入口

上一篇：上一篇：博亚体育穆帅下周将与皇马会面；穆帅用幽默的神态，给足了本菲卡尊重

下一篇：下一篇：博亚体育阿森纳最快来日英超夺冠

博亚体育中国官网入口

博亚新闻

博亚体育中国官网入口 字节会师何恺明！开源蛊惑扩散谈话模子Cola DLM

博亚体育中国官网入口字节会师何恺明！开源蛊惑扩散谈话模子Cola DLM