Changewant's Blog

Changewant's Blog

DeepSeek V3是什么?

2025 / 1 / 1

DeepSeek V3 是2024年12月25日发布的,来自杭州的量化基金公司幻方量化。一经发布,它就引起了国际范围的轰动。

它在多个参数上,击败 了 OpenAI 公司最新的 o1 模型。目前,它在大模型排行榜上排名第7,要知道前十名里面,只有它是开源模型 ,而且是最少限制的 MIT 许可证,其他都是大公司的专有模型。

而且,它的运行效率很高,训练成本估计只有 Meta 公司的 Llama 3.1 405B 模型的11分之一,而后者的效果还不如它。这就是说,DeepSeek 找到了高效使用硬件、提高模型效果的方法。

西方媒体就非常好奇,DeepSeek 是怎么做到的?

幻方量化创始人梁文锋,跟其他 AI 模型的研究者不同,没有海外经历,毕业于浙江大学电子工程系人工智能方向。

原始的中文访谈得一读,我分享他说的几段话,展示了中国顶级研究者的视野和抱负。

(1)我们要做的不是生成式 AI,而是通用人工智能 AGI。前者只是后者的必经之路,AGI 会在我们有生之年实现。

(2)任何 AI 公司(短期内)都没有碾压对手的技术优势,因为有 OpenAI 指路,又都基于公开论文和代码,大厂和创业公司都会做出自己的大语言模型。

(3)在颠覆性的技术面前,闭源形成的护城河是短暂的。即使 OpenAI 闭源,也无法阻止被别人赶超。我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。

(4)我们不会闭源。我们认为先有一个强大的技术生态更重要。

(5)当前阶段是技术创新的爆发期,而不是应用的爆发期。大模型应用门槛会越来越低,创业公司在未来20年任何时候下场,也都有机会。

(6)过去很多年,很多的中国公司习惯了别人做技术创新,拿过来做应用变现,自己等着摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。中国也要逐步成为贡献者,而不是一直搭便车。

(7)大部分中国公司习惯 follow,而不是创新。中国创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才。我们没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

(8)我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。

(9)我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。

(10)我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。

(11)中国产业结构的调整,会更依赖硬核技术的创新。很多人发现过去赚快钱很可能来自时代运气,现在赚不到了,就会更愿意俯身去做真正的创新。

(12)我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。以后硬核创新会越来越多,因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。