跳过正文
  1. 学习专栏/
  2. DeepSeek专栏/

DeepSeek模型训练

DeepSeek模型训练

DeepSeek-R1的四个训练阶段
DeepSeek-R1的训练流程强化学习(RL)阶段采用了GRPO算法
DeepSeek-V3 高效训练关键技术分析
DeepSeek华丽文风从何而来?业内人士:训练数据、训练策略和迭代优化缺一不可