“天下苦CUDA久矣!”这句在AI开发者圈子里流传已久的感慨,道出了中国乃至全球AI产业面临的一个核心困境,即顶尖的模型与算法,被牢牢锁死在英伟达用十五年时间筑起的CUDA生态高墙之内。
近日,来自深圳的一支团队,正用AI本身的力量,在这堵墙上凿开一道裂缝。
凿开裂缝的这把“破壁之锤”,是一款名为KernelCAT的AI智能体工具。它由深圳市大数据研究院孵化、成立仅5个月的智子芯元(深圳)科技有限公司打造。它的目标是让开发者用一句自然语言指令,就能将原本需要顶尖工程师耗时数周甚至数月的模型迁移与算子开发工作,压缩到小时乃至分钟级别。
我们日常使用的大模型,它每一次推理或训练,都由无数最基础的数学运算单元——算子(Kernel)完成。它如同芯片的“母语”,是将算法逻辑翻译成硬件指令的“翻译官”。
当我们将一个在英伟达GPU上训练好的模型(比如DeepSeek)搬到华为昇腾等国产芯片上时,就需要大量重写或优化这些“翻译官”。
然而,算子开发是AI领域公认的“手工作坊”式工作。它面临“三高”难题:门槛高,需融合算法、硬件、编译等多领域顶尖知识;成本高,每面对一种新硬件或新模型,几乎意味着推倒重来;周期长,手工开发动辄数周,完全跟不上AI模型“周级”迭代的速度。
这正是CUDA生态难以撼动的根源——它用极高的工程复杂度,构筑了最深的护城河。
而KernelCAT的破题思路,不是复制另一个CUDA,而是从根本上改变游戏规则:将人类专家的经验,转化为AI可复用的智能。它不是简单的代码生成器,我们可以简单理解为一个具备深度领域知识的“计算加速专家”智能体。
开发者无需深究底层硬件,只需用自然语言描述需求,比如“将这个视觉模型迁移到昇腾平台并优化性能”。KernelCAT便能自主完成环境配置、依赖分析、代码生成、性能调优乃至错误修复的全流程。其核心秘诀在于 “AI+数学运筹优化”双引擎驱动。
大模型(AI)负责“广度”,理解任务、阅读论文、生成初步方案和代码。
运筹优化(OR)负责“深度”,将复杂的性能调优问题(如选择最优的并行策略、内存分块大小)抽象为数学模型,在万亿级的参数组合空间中,用算法系统性地搜索并锁定那个理论上的“全局最优解”。
“这标志着算子调优从传统的经验驱动,走向了算法驱动。”智子芯元联合创始人丁添总结道。以优化华为昇腾芯片上的FlashAttentionScore算子为例,KernelCAT通过自动化建模与搜索,在无需人工干预下,实现了延迟降低最高22%、吞吐量提升近30%的效果。
在实际应用上表现也相当优秀。1月27日,DeepSeek团队发布了复杂的多模态OCR模型DeepSeek-OCR-2。将其迁移到华为昇腾平台,传统做法上工程师要直面最令人头疼的“版本地狱”——vLLM、PyTorch、NPU驱动之间错综复杂的依赖冲突。
然而,KernelCAT接手后,直接变“自动驾驶”。它自动识别并解决了所有环境依赖,精准定位模型中依赖CUDA专属算子的部分,并自动替换为昇腾原生实现,彻底剥离了对CUDA的依赖。整个过程,从开发者输入指令到迁移验证完成,总耗时仅38分钟。
更惊人的是性能。迁移完成后,经过KernelCAT的自动优化,在BF16精度下,模型在昇腾平台上的推理吞吐量飙升至550.45 tokens/s,相比初始的Transformers方案,实现了高达35倍的加速。
而在前序的DeepSeek-OCR模型任务中,加速效果甚至达到了139倍。这意味着,原本需要一支专家团队耗时数周才能完成的艰巨任务,现在只需一杯咖啡的时间,且效果远超预期。
KernelCAT的横空出世,其意义远不止于效率提升。它直击了国产算力“有芯片,无生态”的核心痛点。国产芯片并不缺乏纸面算力,缺的是能让这些算力充分释放的、丰富且高性能的算子库与便捷工具。
“过去我们靠‘堆人’追赶,但AI发展太快,根本追不上。”丁添坦言,“现在有了自动化工具,英伟达十几年的领先,原来要用人一步一步走,现在可以用‘AI+数学’自动走,几周的任务变成几十分钟,这是革命性的速度提升,能大幅缩短追赶时间。” 这或许是国产芯片实现弯道超车、换道超车的一条关键路径。
“KernelCAT是破局的利器,但一棵树撑不起一片森林。”丁添强调。建设一个成熟的、可与CUDA抗衡的国产AI生态,是一项庞大的系统工程。它需要硬件持续迭代、开源社区繁荣、人才培养体系完善、政策与资本支持多方形成合力。
发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论