股票场内配资突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

告别 Next-token股票场内配资，现在模型微调阶段就能直接多 token 预测！

从 GPT 到 Claude，当前主流 LLM 都依赖next-token prediction（下一 token 预测）进行训练，但它却让 AI 很难真正理解跨越多 token 的完整概念。

于是南洋理工大学最近提出了一项新技术——概念感知微调（CAFT），首次实现将multi-token prediction（多 token 预测）引入微调阶段，让模型能够像人类一样理解和学习完整概念。

原来 LLM 只能碎片化理解每个 token，现在 CAFT 可以为模型添加额外的辅助头，在主模型学习下一个词的同时，帮助学习后续 token，并通过动态调整权重，确保模型始终优先优化主要任务的损失。

最终 LLM 可以兼顾多 token 概念学习，形成更为完整的认知，在推理和生成能力增强的同时，既不会影响模型本身，也不会额外增加多余成本。

另外研究人员通过实验发现，CAFT 在编程、数学、生物医学等多个领域都能显著提升模型性能，或许未来将会让 AI 训练范式迎来根本性转变。

下面是有关 CAFT 的更多详细内容。

Next-token 预测：AI 的"基因密码"

首先，next-token prediction的基本思想是在已知上下文的基础上，预测最有可能的下一个 token。

举个例子，针对句子"人工智能将改变 _ "，你可能会直接预测出"世界"、"未来"或"社会"，但是 next-token prediction 的预测流程则分为以下三步：

分词：例如将"人工智能"拆分为"人工"和"智能"。

序列建模：让模型逐个学习每个 token 与其前文的关系。

概率预测：为所有候选 token 分配概率，并选择最高者作为输出。

Next-token 将会在预训练里的大规模语料上学习语言统计规律与通识知识，然后在微调中通过特定任务数据学习具体行为模式，决定模型实际表现。

但无论是预训练还是微调，next-token prediction 都只会在每一步中只预测下一个 token，再依次进行。

与此同时，这也带来了一个根本性缺陷，即它将完整概念拆解为碎片，阻碍模型形成整体认知。

例如" ribonucleic acid "（核糖核酸），Llama 3 分词器就会将其拆解为：" rib "→" on "→" ucle "→" ic "→" acid "，当模型预测" rib "时，无法预见" onucleic acid "，因此无法理解这是一个生物学分子概念。

又比如说将"北京大学"拆成"北"、"京"、"大"、"学"分开记忆，这严重破坏了语义完整性。

所以 next-token prediction 存在前瞻能力差、不擅长处理跨概念的复杂推理、学习效率低、结果高度依赖具体分词器等问题。

Meta等机构对此提出可以在预训练阶段尝试multi-token prediction，但同样也面临以下限制：

预训练成本过大，是微调阶段的上千倍。

仅能提升通用语言能力，对具体概念理解帮助有限。

直接应用于微调时会造成分布偏移，从而导致性能下降。

这让 multi-token prediction 只适用于预训练阶段，难以普及，所以研究团队提出了新技术 CAFT，将 multi-token prediction 引入微调。

CAFT：打破瓶颈的概念感知微调方法

CAFT在架构上主要包括辅助头、损失函数两部分，辅助头含独立隐藏层，且共享输出层，以降低参数成本，损失函数为：

其中 L ₁指原始 next-token 损失，β 是控制辅助损失的权重（设为 0.01，确保主任务优先），γ 是反射正弦动态调整因子，训练初期高，后期低，α 是几何衰减因子，越远的 token 权重越小，t 指 token 位置。

在微调结束后，还可以直接丢弃辅助头，让推理开销为零。

CAFT 采取分阶段训练策略，可分为两个阶段：

辅助头预训练

在原模型上添加 n-1 个辅助预测头，然后使用通用指令数据集训练辅助头，分别预测第 2、3、4 …个未来 token。

其中需要使用原模型自己生成的回答作为"伪标签"，避免分布偏移，且辅助头训练一次即可，多任务可通用复用。

概念感知微调

在特定任务上同时优化原始预测头和辅助头，然后用特殊设计的损失函数确保主目标仍是第一个 token。

利用动态权重调整策略，训练初期关注多 token 概念学习，后期聚焦任务表现。

最终 CAFT 可实现极低的使用门槛，只需要几行代码，就能结合任意预训练模型，在成本上远低于重新预训练，只略高于传统微调。

CAFT 的全面验证：从代码到生命科学

研究团队在五个不同领域任务上测试了 CAFT，将其与传统的 next-token 微调（包括全量微调与 LoRA 微调）进行对比。

所有结果均为 5 次独立评估的平均值及 95% 置信区间，部分任务在微调前会对辅助头进行 1 个 epoch 的预训练。

在编程任务中，由于存在大量跨 token 的语义单元，例如 Python 中的" _name_ "会被分为" _"、" name "、" _"三个 token，但需整体理解，所以借助HumanEval 数据集，判断 CAFT 能否让模型能够整体理解这类编程概念。

实验结果表明，LoRA CAFT 在准确率上从 40.9% 提升至 45.1%，Full CAFT 则从 40.5% 提升到 49.3%。

然后将题目按概念密度分类，发现 CAFT 在高概念密集题目上提升更显著（+11.67%vs+7.59%），证实了概念学习的有效性。

在数学推理上，LoRA CAFT 在MATH-500 数据集里性能提升了 1.7%（22.9% 到 24.6%），Full CAFT 则是 1.5%（23.7% 到 25.2%）。

而当 CAFT 置于临床文本中，由于医学文本充满复杂专业术语，被拆分后往往失去意义，此时让 CAFT 完成医学术语整体理解极具挑战性。

但 CAFT 仍然在MIMIC-IV-BHC 数据集上表现良好，在 ROUGE 等指标上全面优于传统方法，其中 ROUGE-1 从 44.57 提高到 45.93，ROUGE-2 从 22.94 提高到 24.44，ROUGE-L 从 32.17 提高到 33.76，说明其能更好地捕捉长文本中的概念。

在官能团结构理解上，由于化学分子包含功能性"官能团"，如苯环、酰胺基团等，而 SMILES 序列中的官能团是典型的多 token 概念，传统方法很难整体学习。

CAFT 可以很好地弥补这一点，准确匹配率从原来的 0.14%，提升了4 倍，到 0.54%，有效分子比例从 92.38% 改进到 97.14%，结构相似性也得到了显著改善。

进一步进行官能团学习验证，发现苯环识别中 F1 分数大幅提升、酰胺识别中准确率和召回率双重改善、羧酸识别中复杂分子的识别能力增强。

另外为考验 CAFT 泛化能力，让 CAFT根据功能设计蛋白质序列，由于蛋白质使用氨基酸编码，与自然语言差异极大，测试环境相当极限。

实验结果显示，序列同一性从 20.32% 提升到 22.14%，序列对比分数也从原来的负值（-16.01）提升到正值 ( 3.18 ) ，结构置信度从 52.60 变为 54.30，结构相似性从 33.07% 变为 35.12%。

其中，25.0% 的生成序列具有高结构置信度 ( >70 ) ，比传统方法的 20.0% 有了显著提升。

最终，研究团队通过在广泛领域中实验，验证了 CAFT 实现 multi-token prediction 在微调阶段的可行性，其易用性和低成本也展示了其可能替代现有 next-token prediction 的巨大潜力，为理解模型内部机制提供了新视角。

论文链接：https://www.arxiv.org/abs/2506.07833

项目链接： https://github.com/michaelchen-lab/caft-llm

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 点亮星标 � �

科技前沿进展每日见股票场内配资

富明证券提示：文章来自网络，不代表本站观点。

股票场内配资突破单token预测局限！南洋理工首次将多token预测引入微调，编程任务准确率提升11.67%

配资炒股免费云内动力连续2个交易日收盘价格涨幅偏离值累计达21.22%

配资操盘股票【华创汽车】周报：上海车展带动板块反弹，中大型SUV云集

在线炒股配资中原证券: 给予长电科技买入评级

配资可靠炒股配资门户卡帕西点赞特斯拉餐厅，马斯克：兄弟，你再回来吧

网上股票配资公司牦牛“排气”太猛，科学家出手了！青藏高原减排有新招