首页产业新闻万亿参数Kimi K2开源月之暗面研发工程师亲述幕后故事

万亿参数Kimi K2开源月之暗面研发工程师亲述幕后故事

产业新闻 1个月前 (07-15) 119

7月14日消息，日前，国内大模型独角兽月之暗面正式发布并开源了其最新一代MoE架构基础模型Kimi K2，总参数量达到1万亿（1T），引发圈内热议。Kimi内部则将K2研发群戏称为“接生群”，多位参与“接生”的Kimi研发人员随后在知乎展开“亲自答”，从多个角度深入讲述了其背后研发历程。

作为月之暗面 Infra侧推理方面研发人员，知乎答主刘少伟谈及了K2模型结构的设计宗旨。他称K2模型是在DeepSeek V3结构的框架之下，如何选择合适的参数，使得模型在训练、推理成本与v3相当的前提下，获得明显更低的loss。“综合以上四个相比v3的改动，我们能够得到一个在相同EP数量下，虽然总参数增大到1.5倍，但除去通信部分，理论的prefill和decode耗时都更小的推理方案”。

月之暗面研究员、知乎答主Flood Sung则表示，Kimi K2最值得关注的信息，除了MuonClip带来的漂亮得起飞的loss曲线，还有就是Agent能力。他透露，为了实现更好的通用Agent能力，构建了一个大规模的agent合成数据pipeline：简单的说是一个完全自动化的agent数据生产工厂，通过全流程的模拟来过滤出好的Agent轨迹数据。Flood Sung称，“这个生产线非常符合老子的思想：’一生二，二生三，三生万物’。”

另一位月之暗面研发人员、知乎答主Justin Wong谈到Kimi K2为何会选择开源时称，开源意味着能够借助社区力量完善技术生态，“在我们开源不到24小时就看到有社区做出K2的MLX实现、4bit量化等等，这些凭我们这点人力真的做不出来”。月之暗面研究员、知乎答主Dylan则表示，K2实际上就是一个刚出生的baby，虽然略显“灵性”，但和很多已久的frontier model（前沿模型）相比，还是有很多、很明显的缺点，“作为post-train（后训练）相关的同学，还是略感惭愧，希望后面的版本迭代里面能够持续释放K2 base model的潜力”。

据了解，开发者在AI成果发布的同时，越来越多选择来知乎发布背后的详尽思考。6月，月之暗面也曾发布一款Agent产品，Kimi-researcher两位主要研发人员也在知乎亲自答，解读产品背后的技术思考和亮点。更早之前，月之暗面开源MoBA框架研发人员鹿恩哲、苏剑林分别在知乎上讲述了研发思路，引发了业界对“稀疏注意力”框架的讨论。（周小白）

万亿参数Kimi K2开源月之暗面研发工程师亲述幕后故事

相关推荐

热门文章

侧栏广告

文章目录

标签列表

万亿参数Kimi K2开源 月之暗面研发工程师亲述幕后故事

相关推荐

热门文章

侧栏广告

文章目录

标签列表

万亿参数Kimi K2开源月之暗面研发工程师亲述幕后故事