
芯片铁幕落下:中国AI算力困局有多严峻
2023年10月,美国商务部将英伟达H800和A800两款专为中国市场设计的”合规芯片”列入出口管制清单。这意味着中国AI企业连最后一扇”合规窗”也被关闭了。此后的2024年,限制进一步升级,连RTX 4090这样的消费级显卡也未能幸免。
表面上看,这是一场针对GPU的禁运战;实质上,这是在源头上卡住大模型训练的脖子。OpenAI训练GPT-4使用了约25000张A100 GPU,耗时数月;Meta训练LLaMA 3的70B模型,调用了超过2000颗H100。即便是中等规模的百亿参数模型训练,也需要数百颗高端GPU的算力支撑。
而中国企业的处境是:英伟达H100/H200性能领先国内最强芯片约1.5到2倍,且生态成熟度差距更大。一位大模型公司技术负责人私下透露:”同等算力下,我们的训练效率可能只有美国同行的60%到70%。”
算力焦虑的本质:不只是买不到芯片那么简单
性能代差:数字背后的真实困境
让我们看一组具体数据:英伟达H200的FP8算力达到1979 TFLOPS(每秒1979万亿次浮点运算),H100为989 TFLOPS。而华为昇腾910B作为国产旗舰芯片,算力约为256 TFLOPS。这意味着昇腾910B的单卡算力大约是H100的四分之一,是H200的八分之一。
差距不仅体现在纸面参数上。一位参与过国产大模型训练的工程师告诉笔者,在实际训练中,由于国产芯片的互联带宽较低、内存容量较小,多卡并联训练时的效率损失远大于英伟达方案。”8000张A100能跑通的任务,换成等算力数量的昇腾910B,可能需要12000张甚至更多,而且调试周期要长得多。”
生态壁垒:CUDA这座大山
比硬件性能差距更难逾越的,是软件生态的壁垒。
全球超过90%的AI开发者在使用英伟达的CUDA架构。PyTorch、TensorFlow等主流深度学习框架对CUDA进行了深度优化,无数开源模型、工具库都建立在CUDA生态之上。这种生态优势不是靠政策扶持或资金投入就能快速追赶的——它需要数十年的积累和整个行业的共同选择。
国产芯片厂商采用的方案是兼容CUDA。华为昇腾支持MindSpore框架和CANN算子库,可以通过自定义后端接入PyTorch;天数智芯、摩尔线程等厂商也在推进与主流框架的适配。但”兼容”意味着永远在追赶,永远慢半拍。当PyTorch推出新特性时,CUDA版本总是第一时间支持,而国产芯片的适配往往要滞后数月。
更关键的是,兼容性适配无法发挥国产芯片的全部潜力。就像用英特尔的编译器去优化AMD处理器,总会差那么一层。某AI芯片公司技术总监坦言:”我们要花30%到40%的研发精力去做生态适配,这些精力本可以用来做真正的创新。”
突围之路:三条路径的机遇与挑战
路径一:国产替代加速,华为昇腾扛起大旗
禁令收紧后,华为昇腾成为国产替代的绝对主力。公开信息显示,华为昇腾910B已经进入批量出货阶段,百度、科大讯飞、腾讯等公司都在测试或采购。2024年,有报道称字节跳动与华为达成算力合作,计划采购超过14万片昇腾910B。
但产能是最大瓶颈。知情人士透露,昇腾910B的产能目前约为每月数千片,距离满足国内AI产业的需求还有相当距离。更重要的是,昇腾910B采用的是7nm工艺,核心代工依赖台积电——这意味着如果美国进一步收紧限制,这条路也可能被堵死。
国产芯片厂商面临的另一个挑战是:即使性能追上来,生态建设也需要时间。一个开发者在英伟达生态下积累的经验,无法直接迁移到国产平台上。这种转换成本,是企业最不愿意承担的。
路径二:算法创新,用更少的算力做更多的事
既然硬件差距短期难以弥补,很多团队开始从算法侧寻找突破口。
模型蒸馏和量化是最直接的方向。微软的Phi-3-mini模型仅用38亿参数,通过精心设计的训练数据和知识蒸馏,达到了媲美百亿参数模型的效果。国产公司DeepSeek发布的DeepSeek-V2,通过架构创新和MLA注意力机制,将训练成本降至GPT-4的十分之一以下。
混合专家(MoE)架构是另一个重要方向。通过让模型在不同任务中激活不同的”专家”子网络,可以大幅降低实际计算量。GPT-4据传就是采用MoE架构,这让它能够用更少的算力实现更高的智能水平。国内智谱AI、百度等公司也在积极探索这一方向。
但需要清醒认识的是,算法优化是”锦上添花”,而非”雪中送炭”。最强大的模型依然需要最强大的算力支撑。当GPT-5需要十万颗H100训练时,算法优化无法替代硬件差距。
路径三:换道竞争,存算一体与光子计算
有远见的团队已经开始探索绕过硅基GPU的新路径。
存算一体架构将计算单元嵌入存储单元之中,从根本上解决”内存墙”问题。传统GPU在AI计算中,大量时间浪费在数据搬运上;存算一体可以让数据”原地计算”,理论上能实现数量级的能效提升。国内壁仞科技、后摩智能等公司正在这一领域布局。
光子计算则利用光子代替电子进行计算,光速传输的特性让它在特定场景下具有天然的速度优势。曦智科技是国内光子计算的先行者,其产品已在部分AI推理场景中实现了商业化落地。
然而,这些新技术目前仍处于早期阶段。存算一体芯片的量产工艺还不成熟,光子计算的应用场景相对有限。在可预见的未来,它们还无法替代GPU成为大模型训练的主力。
写在最后
算力焦虑不会是短期现象,它将伴随中国AI产业相当长的时期。这不是简单的”卡脖子”问题,而是半导体产业、基础研究、工程能力、生态建设等多维度的系统性差距。
但焦虑不等于绝望。国产替代在加速,算法创新在突破,新架构探索在推进。更重要的是,外部压力正在倒逼整个产业生态走向成熟——从芯片设计到制造,从框架优化到工具链建设,每一个环节都在被迫成长。
差距是真实的,挑战是巨大的,但机会也是存在的。在这场算力竞赛中,最终的胜者不会是跑得最快的那一个,而是能够持续奔跑、不断进化的那一个。
整理自 公开资料 | 2026年06月21日