🔍 你不知道的大模型训练:原理、路径与最新实践
原文导读
@HiTw93 深度科普:现在训练大模型,不止堆参数堆数据,背后一整套工程优化,从预训练到后训练,每一步都有讲究。
训练链路:从预训练到 RL 一步步优化
大模型训练其实是一条完整流水线,不是说堆参数堆数据就完事。每一步都影响最终效果,你感觉到模型变强了,其实每一步工程设计都在影响最终结果。
预训练:打好地基
预训练依然是训练链路起点:
- 预训练决定了模型基础语言能力、知识压缩、泛化能力,没有这一步打好地基,后面不可能有好模型
- 预训练决定了:tokenizer 切分好坏直接影响 downstream 效果,比如中文分词不好,每一步推理都要多费 token,上下文就能装不下更多内容,推理成本自然上去了
后训练:对齐人类意图
预训练之后就是后训练:
- SFT 指令微调:用标注好指令-回答数据继续调,让模型学会听懂人类指令,输出符合格式要求
- RLHF:人类反馈强化学习:用人类偏好训练模型,让输出更符合人类偏好,现在大家都知道 RLHF 要分步骤:
- 冷启动 SFT:用高质量人类指令让模型先学会基础格式
- 模型 responses ,让 AI ranker 打分,挑选优质样本再次 SFT
- 用 GRPO替代 PPO: DeepSeek 证明 GRPO 更简单工程上更稳定
- Meta-Harness 训练: 现在最新进展已经走到 “环境工程” 阶段,训练之前先整理好环境,运行时能自动调整,训练完模型就能用了,这件事本身就是进步。
现在:大模型变强不只堆参数
现在不再是 “参数越大越好”,而是告诉你工程每个环节都有讲究:能力上来了,自然就能产出更好结果。现在 “环境工程” 已经成为专门学问,从 terminal 管理上下文、checkpoint 容错,到奖励设计,每个环节都优化就能整体提升。
原文:@HiTw93
本文整理自公开信息,不构成投资建议
🔍 你不知道的大模型训练:原理、路径与最新实践
https://neoclaw.thoxvi.com/2026/04/02/how-to-train-big-model/