墨芯C轮近10亿应推理时代而生，AI芯片竞争从跑分走向TCO

2026-06-12 17:14

AI芯片行业的竞争逻辑正在步入残酷的极致推理成本时代。

过去几年，大模型浪潮将训练算力推至产业中心。峰值性能、集群规模、卡间互联和基准测试成绩，构成了AI芯片竞争的主要评价体系。但随着大模型逐步进入搜索、办公、编程、金融、工业、社会治理等真实业务系统，产业关注点开始从模型“能否抢先训练出来”，转向“能否以可控成本持续运行”。

这一变化的核心，是推理成本的显性化。

训练成本通常属于阶段性资本投入，而推理成本则是持续性经营成本。每一次Token生成、问答交互、Agent任务执行，都会对应算力、电力、设备折旧和运维投入。调用量越大，推理侧成本压力越明显；AI应用越接近商业化，客户对单位成本、稳定性和部署效率的要求也越严格。

在这一节点上，墨芯人工智能完成C轮近10亿元融资，并宣布全新一代计算卡SparsePrime将于年内推出。这笔融资的观察价值，并不仅仅在于金额，更在于墨芯所代表的技术路线：通过稀疏计算减少无效运算，提升有效算力，进而降低推理场景下的单位成本。实现精度不降，算力翻番的背后，墨芯需要证明的，已非稀疏计算能否成立，而是这一技术路线能否在推理时代形成可验证、可复制的成本优势。

墨芯C轮近10亿应推理时代而生，AI芯片竞争从跑分走向TCO

图片：墨芯人工智能

据公开信息，本轮融资汇聚深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等产业资本及市场化机构，凯旋创投、创享投资、盛景嘉成等老股东继续参与；融资资金将重点投向SparsePrime的量产与商业化，以及全国算力网络版图扩张。

从训练走向推理

AI芯片进入成本敏感阶段

AI芯片行业过去几年的高光，主要缘于大模型训练对算力的爆炸性需求。

在大模型参数规模持续扩大的阶段，模型厂商和云厂商首先要解决的问题，是如何完成大模型训练。因此，训练效率、峰值算力、集群规模、硬件供给和生态兼容性，成为上一阶段AI芯片竞争的核心指标。

但随着大模型应用走向规模化，算力消耗结构正在发生变化。训练更像一次集中投入，而推理是持续发生的成本项。只要用户持续调用模型，推理成本就会不断累积，并最终影响产品定价、毛利率和商业化可持续性。

“过去两年，市场需求最大的变化，是客户越来越清楚自己为什么买卡。”墨芯人工智能董秘兼企业发展及资本市场部总经理王率宇在接受维科网专访时表示，早期不少客户采购AI芯片时，训练和推理需求并存；但随着大模型应用规模扩大，推理成本已成为更明确的产业痛点。

这一变化背后，是大模型商业模式的重心迁移。

在训练阶段，模型公司更关注模型能否尽快发布、能力能否领先、市场身位能否建立。训练成本虽然高，但仍具有阶段性投入特征。进入推理阶段后，成本被拆解到每一次调用、每一个Token和每一次用户交互中。对C端应用、B端API和行业模型服务商而言，推理成本直接影响订阅定价、API价格、客户毛利率和长期商业回报。

王率宇认为，大模型应用进入规模化调用后，模型公司的成本核算会从单次训练投入，转向持续推理服务的单位经济模型。其中，Token收入、Token成本和调用频次，将成为衡量推理服务商业可持续性的关键变量。推理侧降本之所以成为AI基础设施核心议题，正是因为它直接影响模型服务的毛利率、定价能力和规模化边界。

权威产业研究也在强化这一判断。中国信通院人工智能研究所联合中国人工智能产业发展联盟发布的《大模型推理优化关键技术及应用实践研究报告（2026年）》指出，随着大模型迈入规模化落地新阶段，产业发展重心已由模型训练转向推理服务；在多模态应用普及、长上下文需求激增、Agentic AI快速爆发等因素驱动下，推理需求呈爆发式增长，成本与性能的平衡成为产业核心命题。报告还提到，我国日均Token调用量两年增长超1400倍，2026年初突破140万亿，推理优化正从单点优化走向系统级协同优化。

因此，AI芯片的评价体系正在从“峰值参数”转向“有效产出”。推理时代，客户不再只关注单卡理论算力，而是同时更关注真实负载下的吞吐、延迟、稳定性、迁移成本、能耗表现和单位Token成本，以及可持续交付、可规模部署、可算清经济账的有效算力。

从峰值算力到有效算力

墨芯为什么选择稀疏计算

在多数AI芯片公司继续沿着提升峰值算力的路径推进时，墨芯从创立早期就更为关注有效算力，选择了稀疏计算。

峰值算力描述的是芯片理论上能够达到的计算上限；有效算力则关注在真实模型、真实负载、真实业务系统中，客户实际能够使用多少算力，以及为此付出多少成本。随着推理场景成为AI算力消耗的长期主体，有效算力的重要性正在上升。

相较于传统稠密计算将所有矩阵运算完整执行，稀疏计算试图在保证精度和业务可用性的前提下，识别并跳过部分无效或低价值计算，从而提升有效算力和能效比。

王率宇将其概括为：“稀疏计算的核心，是少算那些无效和冗余的部分，把算力用在真正影响结果的地方。”

在墨芯的技术体系中，稀疏计算并不是单一的模型压缩方法，而是算法、软件和硬件的协同设计。公司通过基于稀疏张量的硬件处理单元，减少涉及零元素的存储、搬移和计算，并结合模型稀疏化工具、编译器、运行时Runtime、AI算子库和框架等软件栈，形成端到端推理加速能力。

墨芯更强调的是泛化能力，而不是针对单一模型的一次性定制。大模型迭代速度很快，客户很难接受每更换一个模型就重新进行重度适配。因此，稀疏计算真正进入商业化场景，关键在于能否在保证精度和稳定性的前提下，对不同模型、不同版本和不同推理负载提供持续支持。

这也构成了墨芯路线的Know-how壁垒：稀疏率、精度、吞吐、延迟、功耗、迁移成本之间需要反复权衡，算法策略也必须被芯片架构、软件工具链和客户现场稳定承接。稀疏计算的难点不只是“少算”，而是让这种“少算”在真实业务中实现可复制、可部署与可持续。

从S系列到SparsePrime

稀疏路线走向产品验证

一条AI芯片技术路线是否成立，最终要回到产品和客户现场。

对墨芯而言，S4、S30、S40以及即将推出的SparsePrime，构成了一条从技术验证到产品验证、再到规模化交付的路径。

据王率宇回顾，S4、S30、S40本质上都是基于墨芯第一代芯片构建的不同规格计算卡，并非简单代际替换，而是围绕不同时期客户需求形成的产品形态：早期更多面向安防、视觉识别等小模型和边缘AI场景，后续逐步适配更复杂的推理需求、更多行业客户和更高算力场景。

墨芯C轮近10亿应推理时代而生，AI芯片竞争从跑分走向TCO

▲墨芯S4

墨芯C轮近10亿应推理时代而生，AI芯片竞争从跑分走向TCO

▲墨芯S30

公开信息显示，墨芯旗下S30、S40等计算卡曾在MLPerf Inference测试中连续三届夺冠，并在视觉、自然语言处理、大模型等主流模型任务上展现出能效比和单位算力推理吞吐优势。

但基准测试只是起点。

王率宇认为，MLPerf的意义在于证明稀疏计算“从理论到硬件产品之间的鸿沟可以被填平”。换言之，墨芯早期首先需要证明稀疏计算不是停留在算法或论文中的概念，而是可以被做成芯片、计算卡，并在第三方标准测试中获得验证。

更重要的是，权威测试为AI芯片公司进入客户验证体系提供了“面试资格”。对于大模型厂商、云厂商、智算中心和行业头部客户而言，测试一张新卡意味着投入工程、适配和运维资源。客户只有在初步判断技术路线和经济账成立后，才会开放模型、数据和真实负载进入深度测试。

SparsePrime正是在这一背景下被推向前台。公开资料显示，SparsePrime是一款面向智算中心和数据中心的高性能AI通用推理计算卡，基于墨芯自研Antoum 2.0芯片架构，专为大模型与复杂推理场景优化设计；其广泛适用主流Transformer模型，并配备工具链，支持开发者现有基于PyTorch、TensorFlow的模型代码，以及vLLM等推理框架近乎零代码修改迁移部署。

这意味着，SparsePrime承担的任务已经不只是证明稀疏计算能否跑起来，而是验证它能否在更大规模的大模型推理场景中被客户使用。

对智算中心客户而言，产品指标最终都会汇总为几个现实问题：真实负载下单位Token成本能否下降，单位机柜产出能否提高，迁移和运维是否可控，规模部署后能否保持稳定。

因此，对AI芯片公司来说，跑分是技术表现进入客户视野的起点，但真实部署能力才是从技术可信走向商业可信的分水岭。

客户成本账本与融资后考题

AI芯片公司的商业化，最终绕不开客户成本账本。

在训练算力紧缺阶段，客户可能更愿意为性能和供给付出溢价；但在推理场景中，模型调用变成高频、长期、持续的成本项，客户决策会更加注重实际产出和总成本。

王率宇将客户评估逻辑拆成两层。

第一层是performance，即性能表现，包括吞吐、稳定性和精度。只有这些指标达到业务要求，客户才会进入下一轮成本评估。一张卡如果成本再低，但真实业务表现达不到客户红线，就不具备生产级部署价值。

第二层是TCO，即总体拥有成本。TCO不只包括单卡价格，还包括服务器、机柜、网络、电费、散热、部署、迁移、人力运维等一系列成本。最终，客户会将这些投入摊到单位业务产出上，例如单Token成本、单位请求成本和单位时间吞吐。

这也是稀疏计算商业价值展开的关键位置。

在云端大模型推理场景，客户关注的是大规模调用下的成本结构；在边缘端和行业场景，客户还会进一步关注功耗、散热、噪声、空间、数据安全和本地实时性。例如，酒店、地铁、楼宇、工业质检、生物信息等场景，并不一定适合将全部数据上传云端，而更适合通过边缘推理实现本地处理、快速响应和数据闭环。

因此，AI芯片的商业价值不再停留于单卡参数，而是能否嵌入业务流程，解决具体运营问题。

完成C轮近10亿元融资后，墨芯进入了新的验证阶段。对AI芯片公司而言，大额融资的意义不仅是补充研发资金，更是为产品量产、供应链建设、客户交付、生态适配和算力网络扩张提供支撑。

王率宇表示，融资之后，墨芯接下来最重要的任务首先是SparsePrime的量产和商业化。公司希望通过这一代产品，在互联网、行业客户和算力中心三类场景中继续推进推理生态建设。

相应地，墨芯面对的考题也会更复杂。卖卡主要考验芯片、板卡、软件栈和客户适配能力；进入算力网络，则同时考验硬件、软件、调度、运维、客户服务、供应链和商业模式。王率宇认为，下一阶段需要验证的核心关键词，不再只是技术先进，而是量产、交付、复制和生态。

结语

大模型产业场景渗透加速正在把AI芯片行业带入一个更务实的阶段。

过去，行业习惯用峰值算力、制程、参数和跑分衡量一颗AI芯片的价值；但当AI应用进入企业业务系统，成本、功耗、迁移门槛、稳定性和交付能力，开始成为决定客户是否买单的关键变量。

墨芯的稀疏计算路线，正在这一变化中获得新的话语权和发展空间。它要证明的不是简单“少算一点”，而是能否通过减少无效计算，为AI推理提供更低成本、更高能效、更易部署的优质算力。

因此，墨芯C轮融资的意义，也不只是一家AI芯片公司获得资本认可。更重要的是，它折射出AI芯片竞争范式，正经历从训练走向推理、从峰值算力走向有效算力、从单卡性能走向TCO、从技术验证走向规模化交付的切换期。

如果墨芯能够完成下一阶段验证，它证明的将不仅是一家公司的成长，也可能代表一种新的AI算力逻辑在推理时代的成立。

本地收藏打印推荐给朋友

声明： 本网站所刊载信息，不代表OFweek观点。刊用本站稿件，务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像，违者将依法追究法律责任。

发表评论

共0条评论，0人参与

立即登录即可访问所有OFweek服务

忘记密码

其他方式

请输入评论内容...

请输入评论/评论长度6~500个字

暂无评论

图片新闻