2024 的年度总结,比以往时候来得更晚一些,倒也不是变懒了,只是确实太“卷”了 …
今年最后几个月,公众号也断更了,也是确实没空写字了 …
趁着年关,还是先停下来,写点文字,记点流水账 …
一入 AI 深似海,从此周末是路人
今年最大的感悟是,AI 大模型太 “卷” 了
前年过年,GPT 3.5 是热议话题,去年过年被 Sora 震惊,今年过年 DeepSeek 都火到了美国
下半年有幸参与了 AI 推理业务,也是切身体会到其中的 “卷”
有一次,同事顺嘴问了一句,最近周末去哪里玩,我才意识到,好像都没有周末了 …
之前听一些分享,说国外的 AI 厂商也很卷,很多都是自愿加班开卷,完全不是以往 work-life balance 的形势
参与其中之后才深刻体会,AI 大模型就是一阵旋风,只要进来,就会自然卷了 …
记得阿里有个提法,叫 “饱和式投入 AI”,所谓饱和式,那就是多头下注,不允许错过
不只是对外多方投资,对内也是鼓励不同方向的尝试,有点重复建设也不是啥问题
如此行业级的重兵投入,不卷成麻花,那才怪了 …
自然卷
之所以会自然 “卷”,主要还是发展太快了,新东西太多了,完全学不过来
以往学习,还可以找经典的教材,而现在的学习,必须得看新材料,读论文,层出不穷的论文
因为要想参与其中,干点事情,首先就得跟上发展趋势
大约年中的时候,跟合作方聊起推理引擎的调度算法(半年前调研的材料),说网关上可以搞点事情
结果,对方说,那个都是去年的了,现在都不这么玩了…
对于网络这种 infra 的角色,需要面对多方的快速发展,对下得跟上各种硬件的发展,对上还得了解大模型,各种算法的发展
只会让人觉得脑容量不够,时间不够
单纯的求知欲,就足够驱使人停不下来了,更何况还有外部高强度的竞争
还卷得动
那么,还卷得动么?嗯,至少目前还是卷得动
那么,面对全新的领域,饱和式投入,以往十年的工作经验,还有用么?
有用,但是不多 …
对于传统的 CPU 计算应用,已经沉淀了一套成熟的微服务架构体系,每个服务的逻辑都不是那么复杂,计算量也相对较小,单个 CPU core,就足够支持不低的并发了
到了 AI 大模型,因为庞大的计算量,天然就需要并行计算,几十 B 模型的推理,就需要多卡并行计算了,更别提几千上万卡的大规模训练集群了
而并行计算,也带来了一次通信的升级,从机内的 NVLink,HCCS,到机间的 InfiniBand,RoCE 都是大模型业务带来的腾飞
虽然很多也还不懂,但是,今年卷了几个月,也算有些眉目,自我感觉还不错,至少还卷得动
更何况,这一波是划时代的升级,把时间拉长,暂时的不懂,影响也不那么大,拥抱变化,迎头赶上,赶上这波浪潮才是关键
流水账
好吧,可能确实有点卷过头了,脑子里就剩下大模型了
还是稍微回顾下,今年都干了啥
上半场
今年跟去年有一点很类似,就是上下半场风格完全不同
去年年终总结的时候,还想的是安心搞好网关,等着推理业务起来,迎来一波行业大发展,带动一波网关业务的红利
所以,上半年,主要还是在搞老本行,云原生网关
只是,更多在内部落地,需要有节奏的推进把控,也不轻松,开源搞得也相对少了
AI gateway
印象中 2023 年,蚂蚁就提了 AI First 战略,也知道公司有在训练大模型,但是感觉离得很远
到了 23 年底,原来的网关玩家,都开卷 AI gateway,做推理 API 的统一入口
虽然 API gateway 的底色很浓重,但是也确实有些推理 API 的亮点
今年初,也想在公司里搞个 AI gateway 的业务场景玩玩,只是问了一圈,也没有找到落地点
先训练再推理
不只是蚂蚁,很多国内大厂,都想卷自己的大模型,而不甘心用别人的大模型,来搞新应用
所以在资源投入上,更多在买卡先搞训练,先让自己的模型跻身业界一线,保持模型不掉队
而 AI gateway 是用在推理,搞新应用的场景 …
开卷 AI Gateway
到了下半年,又有了一些新的变化,推理被更多的提起,很幸运我们找到了合作方,可以开卷 AI gateway 了
作为专业的 Gateway 团队,我们首先卷的是性能
按照传统的网关分类划分,AI Gateway 应该属于业务网关,这类网关一般被认定为业务量不大,性能要求不高的
但是,在推理将成为大趋势的共识下,卷性能也很有意义了
好在基于过去几年的技术积累,我们的 MoE 架构,使用 Golang 来开发扩展,很快就支持了 AI Gateway 的落地
性能也比原来的 Java 实现了 10x 提升,之前折腾的 cgo 优化,也派上了用场
大模型推理
搞 AI Gateway,除了卷性能,也更多的了解了大模型推理的业务
Gateway 再卷也属于原来的舒适区,背后的推理业务,才是全新的挑战
AI Gateway 下一站
当前推理成本过高,是行业级的问题
每一层都在解决这个问题,NVIDIA 在造性价比更高的硬件,模型层也在优化,比如 MiniMax-01 的线性 Attention,还有推理引擎运行时,各种算法、架构的优化
那么,AI Gateway 作为推理流量入口,最适合的是,做全局最优调度,提升整理资源效率
推理过程微服务化
另外,大模型推理的自回归特性,也存在明显的 Prefill 和 Decode 两个阶段,对应不同的计算模式
年中,kimi 的 PD 分离架构 + 全局 KVCache 调度,将推理服务拆分推到了一个新的高度,有点类似通算业务的微服务拆分了
而对应的,中间的 KVCache 传输,就需要高速的网络传输方案,也有点类似于通算场景的 RPC 框架
最后
10 月的时候,听了老黄在印度的演讲
有一点触动很大,过去几十年,围绕 CPU 的编程生态,一直在享受摩尔定律的红利,现在摩尔定律失效了,是时候开始新的编程模式,CUDA 编程了
最后,祝大家新年快乐,在新的浪潮下都有自己的 aha moment ~