叫停5个月后,特斯拉Dojo超算“换芯”归来

作者 | 章涟漪
编辑 | 邱锴俊
在短暂叫停之后,特斯拉Dojo项目又“杀”回来了。这次,它换上了全新的思路。
1月19日,特斯拉创始人马斯克在X平台发文宣布,随着AI5芯片设计完成,公司将重启超级计算机项目Dojo 3的开发工作。同时,他发出“英雄帖”,招聘人才参与研发“世界上产量最高的芯片”,并要求用三个要点介绍自己解决过的最棘手技术难题。

五个月前,特斯拉曾全面叫停Dojo项目。彼时,马斯克回复网友称,特斯拉分散资源并同时开发两种截然不同的AI芯片设计是没有意义的。特斯拉的 AI5、AI6及后续芯片在推理方面将表现出色,至少在训练方面相当不错,所有努力都将集中在这些芯片上面。
如此,伴随着Dojo 3超级计算机项目的重启,特斯拉自研AI算力战略再次回归,并进行了一次策略修正。
01
一场激进的技术豪赌
Dojo是特斯拉自主研发、专为AI训练设计的超级计算集群。其核心目标是处理特斯拉全球车队收集的海量视频数据,以极快速度训练和迭代其全自动驾驶(FSD)系统。
2021年特斯拉AI Day上,首款用于打造Dojo的芯片D1亮相,采用分布式结构和7纳米工艺,搭载500亿个晶体管、354个训练节点,仅内部的电路就长达17.7公里,实现了超强算力和超高带宽。

从马斯克透露的消息来看,D1的设计哲学是极致优化,即通过剥离一代通用计算功能,打造出一个精简的、大规模并行的训练“猛兽”,其激进架构主要体现在两方面。
一是无缓存的双层存储系统。Dojo 的D1计算芯片完全摒弃了传统的缓存层次结构和虚拟内存,354个内核都能直接访问1.25MB 的本地SRAM。这通过去除复杂的内存管理硬件,最大化了计算密度和功耗效率。
二是“无胶化(Glueless)”的晶圆级互连。Dojo的真正核心是其互连设计,由于其“边缘”都是一个速度高达40TB/s的互联连接器。这意味着D1芯片可以直接以“边对边”的形式连接,并由此组成了一个Dojo超级计算机的单个训练模块。
后者由25个D1芯片组成,因每个D1芯片之间都是无缝连接在一起,相邻芯片之间的延迟极低,训练模块最大程度上实现了带宽的保留,配合特斯拉自创的高带宽、低延迟的连接器;在不到1立方英尺的体积下,算力高达9PFLOPs(9千万亿次),I/O带宽高达36TB/s。
基于此,马斯克提出:将使用D1芯片打造的超级计算机集群Dojo ExaPOD。其由120个节点、总共3000块D1芯片组成,计算单元数超过100万(3000*354),在BF16/CFP8精度下的算力达到1.1ExaLOPS,远超目前全球最快的超级计算机富岳,后者算力为44.201 TFlops。

彼时,马斯克还在推特上回复网友时表示,ExaPOD的运算能力足以模拟人脑。而这仅仅是一个开始,他称下一代Dojo还将得到10倍的性能提升。
02
三重困境导致项目搁浅
然而,这一超前设计在2025年遭遇重挫。
2025年8月8日,有外媒报道称,特斯拉正在解散其Dojo团队,其负责人Peter Bannon也将离开公司,该团队剩余的员工将被重新分配到特斯拉内部的其他数据中心和计算项目,公司计划增加对外部技术合作伙伴的依赖。
对此,马斯克本人给出的解释是,分散资源设计两款不同的芯片没有意义。

但这显然并不是全部,其背后是技术、人才、成本三重困境的叠加。
技术上,架构复杂难以驾驭,产业链存在制造瓶颈。
Dojo项目的核心矛盾源于其颠覆性的设计理念。该架构摒弃了传统CPU/GPU的通用性设计思路,专注于将 AI 训练负载的计算密度与能效推向极致。然而,这种对特定目标的极致追求,导致其在内存和互连系统上引入了极高的技术复杂度。
架构复杂性的直接后果是极低的制造良率。在晶圆尺寸的模组上,任何微小的布线缺陷或25颗D1芯片中任一的贴装瑕疵,都可能导致高价值的Training Tile整体报废。低良率使得规模化部署的成本高昂,较难具备商业上的经济可行性。
这种设计在理论上性能卓越,但在工程实践和量产中面临的挑战巨大,成为项目失败的根本原因。
人才上,则是核心团队集体流失。

DensityAI 创始团队。资料来源:华泰证券
据彭博社报道,2023年Dojo负责人Ganesh Venkataramanan离开后,成立了竞对初创公司DensityAI,随后陆陆续续约20名核心工程师离开特斯拉并加入DensityAI。
成本上,充分考虑效益平衡,并开始依靠外部合作伙伴。
马斯克长期将Dojo定位为高风险、高回报的“前瞻性项目”,其可行性核心在于:定制化架构在性能上的优势能否足以抵消所需的巨额投入与研发难度。然而,随着英伟达Blackwell、Rubin系列及AMD MI350、MI400系列等高性能芯片相继推出,Dojo的潜在性能领先空间明显收窄。
在内部成本持续攀升、项目进度多次延期且需从其他战略重点转移资源的背景下,特斯拉在充分考虑成本效益平衡下,转而倾向于外部成熟方案。

Dojo分布式架构示意图
因此,特斯拉在2025年7月转向务实路线:与三星签订165亿美元的AI6芯片代工合同,并在训练算力上加强依赖英伟达与AMD等。
03
Dojo 3.0“务实”回归
作为“第一性原理”的坚定信徒,马斯克并未放弃自研算力的梦想。此次回归,他带来的是一个截然不同、更为务实的Dojo 3.0方案。
重启的关键前提,是特斯拉新一代车端AI芯片(AI5/AI6) 取得进展。
根据马斯克透露,特斯拉AI5芯片已接近设计完成,而AI6芯片目前处于早期阶段,后续还将推出AI7、AI8、AI9,目标是在9个月内完成设计周期。
其中,AI5用于智能汽车和机器人。AI6则是机器人和数据中心都能用。AI7将瞄向太空算力。

这一速度明显快于行业平均水平。目前,主流芯片厂商通常采用一年左右的更新周期。
不过,外界对马斯克这一言论存有质疑。据此前公开表态,马斯克曾在2023年7月称AI5芯片已经“设计完成”。若此说法属实,则当前再度提及“接近完成设计”便显得前后不一。
但无论如何,AI5对特斯拉确实非常重要。
AI5是特斯拉用于车端的下一代辅助驾驶芯片,即HW(Hardware)系列的延续。
马斯克透露,AI5芯片将主要用于自动驾驶系统的训练与推理计算,并为特斯拉人形机器人Optimus提供算力基础。目前,特斯拉在售车型主要依赖AI4(HW4)芯片来运行FSD系统。
根据马斯克描述,AI5芯片单颗SoC性能大致相当于英伟达Hopper级别,双芯配置则接近Blackwell级别,但其成本极低,功耗也更低。

特斯拉剧透AI5芯片性能
“解决AI5芯片问题对特斯拉来说至关重要。”马斯克解释道:“如今AI5进展顺利,我们终于有了一些余力,可以重新启动Dojo 3的研发工作了。”
尽管Dojo重启,但与此前相比,还是进行了一定的调整。
与此前不同,Dojo 3项目的核心在于架构重构与成本优化,彻底摒弃了前两代Dojo依赖自研D1芯片及晶圆级封装的复杂路径。
根据特斯拉战略规划,Dojo 3本质上是将512颗AI5或AI6芯片密集集成于单块主板,形成超级计算机集群,这种设计能将网络布线复杂性与硬件成本降低数个数量级,同时保留大规模并行计算能力。其中AI6芯片将采用2纳米制程工艺,计划整合原Dojo架构优势,实现车辆、Optimus机器人与数据中心的AI生态适配。
这一转变的好处是颠覆性的。
成本与复杂度骤降:直接采用成熟、可大规模生产的芯片,绕过了D1恐怖的制造良率陷阱。马斯克称,这能将网络布线复杂性和成本“降低几个数量级”。
生态协同:实现了车端、机器人、云端数据中心的算力底层统一。芯片研发成果可多处复用,极大提升了研发效率和生态凝聚力。
风险可控:芯片制造依赖三星等成熟代工厂,特斯拉专注于自己更擅长的系统架构与集成创新。
特斯拉Dojo项目的重启,不是一次简单的“复活”,而是一场战略进化。它标志着特斯拉的AI算力战略从追求极致的单一架构探索,演进为更务实、更系统化的生态构建:即以车端AI芯片为核心基点,通过架构创新将其扩展为高效的云端训练集群,从而实现车辆、机器人、数据中心三位一体的算力协同。
如果成功,Dojo 3或将不仅为特斯拉的自动驾驶与机器人梦想提供澎湃动力,更可能重塑AI时代算力基础设施的构建范式。
-END-
原文标题 : 叫停5个月后,特斯拉Dojo超算“换芯”归来


分享










发表评论
登录
手机
验证码
手机/邮箱/用户名
密码
立即登录即可访问所有OFweek服务
还不是会员?免费注册
忘记密码其他方式
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论