首页产业新闻 DeepSeek——中国大模型产业的“春雷”，A股市场的“惊蛰”

DeepSeek——中国大模型产业的“春雷”，A股市场的“惊蛰”

产业新闻 1年前(25-02-10) 251

本文为西京研究院发表的第808篇文章，根据研传会旬度直播内容整理，有删节。

春节期间，杭州的80后小伙突然打破了世界科技舞台上沉默许久的平静，也同步给全球资本市场带来了巨大扰动，特别是对以英伟达为代表的美股巨头造成了直接冲击。这对靠AI产业支撑的美股来说，无疑是一只黑天鹅。虽然这几天英伟达股价有所修复，但巨大的跳空缺口及被打击的信心何时能够完全修复仍需更多时间观察。对于投资而言，我们需要了解的是，这到底是一次短暂的技术冲击，还是一次具有深远意义的技术相变。

我们之前强调过924是一次政策相变——货币大放水，显示了顶层经济思路的改变也彰显了维护资本市场的信心，推动了一次估值水平的整体修复。新的政策看跌期权保证了指数在3200点左右的新中枢开始运行，即使再有波动也不会轻易打破那一次的低点。从924相变后，科技板块已经取得非常明显的上涨，科技股估值中枢已大幅上移。目前，我们需要考虑的是科技端是否也存在趋势性提升的可能，Deepseek是否正在促发一场革命性、颠覆性的科技领域相变。

一、一次重大的工程创新

当前我们首先需要思考的是Deepseek的影响该如何定义？要抛开自媒体“国运论”与“闹剧论”简单的极端论述，客观的从技术研究本身对其进行思考。首先，先谈我的结论，通过这些天较为深入的调研、研究，我想说的是目前我对Deepseek的最新认知与我前些天那篇《DeepSeek是国运崛起还是一个奇迹》的观点仍保持一致。虽然不能说Deepseek是一次伟大的技术革命，但它确实是一次里程碑式的工程创新，是中国工程师文化内核优势的再一次完美体现。

我们可以把技术革命分为科学革命和工业革命两个过程去看。人工智能的发展也一样，人工智能其实早已有着很长的研究与发展历史，差不多从上世纪60年代就已经正式开始。如果从图灵提出的相关概念开始算起，那时间会更早。而真正让Ai被大家所认知的则是微软的阿尔法Go，与GPT相似他们都采用了强化学习（RL）方式，通过大量实际交互在与高手过招的过程中进行学习。阿尔法Go的厉害之处在于它并非完全基于过去的预训练，而是依靠记忆能力不断地学习和强化，是人工智能革命中一次重要的技术里程碑。

汽车不是中国发明的，但今天的中国是汽车第一生产大国，新能源汽车的核心技术也不是中国发明的，但中国现在的新能源车可以横扫全球。要知道，欧洲中世纪的圣经抄写工作非常昂贵，而中国的活字印刷术传到欧洲后，使得圣经变得非常便宜且迅速流行，让每个人都可以阅读圣经。知识不再被垄断，人的价值就被凸显出来，这直接导致了欧洲的宗教革命、科学革命和文艺启蒙等一系列变革，也就是所谓的启蒙运动。真正让美国人能开得起汽车的是福特流水线的功劳，它是流程优化，是成本降低。究竟是发明汽车的科学家伟大，还是让每个人都开上汽车的工程师伟大？

人工智能也是如此，如果没有Deepseek的出现，那我们这个世界距离大模型应用的平民化就还有很长一段距离。许多海外公司，包括硅谷的工程师甚至一些海外传统的不友好媒体，对Deepseek的评价其实是很高的，有的甚至赞不绝口。可以说这是一次重大的工程改造，甚至可以认为是人工智能领域的一次工业革命。

二、从deepseek的崛起看Ai的发展路径与趋势

2017年，Google推出了一个专门从事机器翻译的架构模型，它引入了自注意力机制，能够更高效地捕捉序列数据中的长距离依赖关系，而且支持并行计算，大大提高了训练和推理的速度，这就是Transformer架构。依靠这一优势特点，Transformer迅速扩展到自然语言处理的其他领域，并逐渐成为大语言模型处理的主流架构，从实质上推动了生成式人工智能的发展。

人工智能的本质是数学与物理的运用问题，是在电力革命和芯片革命等物理学革命的基础上逐渐实现的，而模型的工作原理其实并不难，是非常典型的数学应用问题，主要运用三个数学理论，即线性代数，统计学与微积分。首先运用线性代数将文字转化为数字向量，之后使用语言统计学将文字形成一串数字编码，并进行回归运算。人工智能通过海量的数据运算，利用空间的广度实现无限可能，如果时间足够长，空间足够大，就可能演化出各种运算结果。

硅谷的数学家和物理学家是一批有理想的知识精英，他们引领了这场技术革命。然而，他们往往忽视工程学问题，比如如何节约成本和提高效率。Deepseek的厉害之处就在于它用Fp8，也就是8位二进制数值的浮点计算能力，解决了国外Fp32运算能力所能实现的工作，让硅谷高傲的精英模型突然变成了拼多多，让更多普通大众能够用的起Ai。但在旨在追求星辰大海的硅谷科学家来看，对比先进的 Fp32 浮点格式，使用Fp8 是一种倒退，即使 Fp8 可以大幅降低成本，可以说方法都是逼出来的。DeepSeek在训练端和推理端都进行了重大的工程优化，特别是蒸馏技术的应用。

硅谷的科学家们往往专注于前沿技术的开发，在要钱有钱，要芯片有芯片的优渥环境中，他们容易忽视成本的问题。但高端芯片价格高昂，大模型训练成本巨大，普通人难以参与。这种分化导致了技术的门槛越来越高，而且未来可能会更加严重，只有少数人能够引领技术的发展。而且随着历史可用数据的不断消耗，以及训练成本越来越高，模型预训练效果难以持续提升，预训练时代也可能即将结束。所以有的公司开始探索新的训练方法，比如强化学习和监督微调，以减少对预训练的依赖，从而在降低成本的同时提高模型的效率。此外，还有一些公司还采用了混合专家模式和多头注意力机制，进一步优化了推理过程。通过这种方式，模型可以在推理时只调用必要的参数，从而节省大量算力。新技术的应用可能会带来一场新的工业革命，推动全球技术生态的发展。

我认为这场技术革命不仅会改变科技行业，还会对整个社会产生深远影响。成本的降低可能会使更多人能够使用这些技术，推动工业化制造能力的提升和人类认知平权事业的发展。同时，这也可能会引发一系列社会和经济问题，需要我们密切关注。

最后，我再次做个提示供大家思考，就是这次deepseek引发的大模型工程创新，会不会蓄力2024年924以来的A股牛市，从“货币牛”转换到“科技牛”，类似2022年11月chatgpt横空出世以后的美股。当然，美股的“科技牛”七成靠七巨头，中国的“科技牛”有没有这样的七巨头支撑呢？我保持着一定程度的乐观。

DeepSeek——中国大模型产业的“春雷”，A股市场的“惊蛰”

相关推荐

热门文章

侧栏广告

文章目录

标签列表