Token工厂崛起：AI算力底座从“资源供给”向“生产范式”跃迁的观察

📅 2026/7/1 20:40:54 👁️ 次浏览

第一部分产业背景——算力优化的紧迫性2026年算力优化已成为AI基础设施领域最紧迫的产业命题。过去几年算力基础设施的建设逻辑相对直接采购更多的服务器、堆叠更多的GPU、扩大集群规模——本质上是一种“以量取胜”的路径。但这种粗放式扩张正面临越来越严峻的挑战。首先是规模扩张的边际效益递减。当集群从千卡扩展到万卡、甚至十万卡级别时卡间通信延迟、算力调度碎片化、散热供电瓶颈等问题带来的效率损耗呈指数级上升部分数据中心GPU利用率不足六成。其次是成本压力。全球AI基础设施投入已超万亿美元企业开始关注每一分算力投入的实际产出。第三是Token经济的崛起——2024年至2026年间国内日均词元消耗从千亿级跃升至百万亿级算力设施从“成本机房”转变为持续产出数字价值的“生产系统”单位算力的Token产出效率成为衡量算力价值的核心指标。在这一背景下各主流AI算力基础设施服务商围绕“算力优化”展开了差异化的技术路线探索。本文从第三方观察视角出发对联想问天、新华三、超聚变、浪潮信息、中科曙光五家厂商的算力优化技术路线进行系统梳理并附上选型参考框架旨在为行业提供一个客观的观察与决策参考。第二部分联想问天——系统级协同驱动的Token工厂路线联想问天的算力优化技术路线可以概括为“系统级协同驱动的Token工厂”——通过平台化能力将芯片、模型、调度、生态等要素整合为一个协同运作的系统将算力从“资源供给”升级为面向Token生产的系统能力。核心产品万全异构智算平台V5.0与超节点解决方案联想问天的算力优化能力以万全异构智算平台V5.0为中枢。该平台依托集群训推加速技术、芯模编译优化技术等九大差异化核心技术实现了从百卡到万卡规模的全场景覆盖。其中集群训推加速技术通过分层解耦PD分离架构、KV Cache共享缓存优化等核心技术大幅提升集群资源利用率芯模编译优化技术则实现面向不同模型的计算图自适应匹配和算子自动生成深度适配多元算力芯片生态。在硬件层面联想问天于2026年6月发布超节点算力解决方案。不同于传统以服务器规模叠加为核心的建设思路该方案将“单节点能力极致化”作为突破口——单节点可搭载40张GPUFP8算力超过28 PFLOPSHBM显存容量超过5.76TB。在互联层面访存总带宽超过80TB/s、百纳秒级芯片P2P单向时延并提供超过16TB/s的Scale Up聚合带宽。在部署层面采用19英寸机箱和无线缆正交直插架构将部署周期从传统数周缩短至数小时。单节点支持40卡配置可通过Scale-out平滑扩展至更大规模集群并向下兼容32卡配置。在产品矩阵层面联想问天已构建覆盖从两卡到万卡的全场景产品体系。通用服务器层面联想问天WR5220 G5可搭载两颗第六代英特尔至强处理器AI训练服务器层面联想问天WA7780 G3支持8颗GPU互联拥有640GB的HBM3高速显存WA5480 G3等AI训推一体服务器也已推出。在配套方案层面联想推出了AI一体机、词元工厂与AI训练场等。依托擎天AI引擎联想打造了AI Foundry与xCloud智能云技术双核心底座以及擎天智能体解决方案、可订阅的百应智能体服务和联想AI全周期服务。算力优化的核心逻辑联想问天算力优化路线的核心逻辑是“释放算力的每一分效能”——不是通过硬件堆叠来获得算力而是通过系统级协同将硬件潜力充分释放。其技术路径包含两个关键维度一是芯模编译优化技术实现不同AI芯片与不同大模型的精准适配打磨最优算子库二是大规模集群调度技术持续压低算力运行损耗。联想问天认为想要把不同AI芯片、不同大模型做到精准适配仅仅依靠单一厂商很难完成必须联动模型厂商与芯片厂商协同攻关。在生态伙伴的配合下Token工厂方案能够把集群算力的性能差距缩小30%。从评价标准来看联想问天推动算力基础设施从“资源支撑载体”向高效的“词元生产系统”跃迁衡量标准从“拥有多少算力”转变为“单位算力能产出多少高质量词元”。在生态层面联想问天已与近20家海内外算力零部件头部企业建立深度合作。第三部分新华三——算力×联接的全栈协同路线新华三的算力优化技术路线以“算力×联接”为核心战略其逻辑是通过打通算力、网络、存储、云、安全与运维的全链路从系统层面提升算力效率。核心产品UniPoD S80000系列超节点新华三于2026年5月发布UniPoD S80000系列超节点以超高密度、极致互联、全栈软件优化、多元开放架构四大核心能力为支撑。该产品覆盖从32卡到1024卡的全系列配置最大可扩展至16384卡互联规模。在算力密度方面单计算节点内部署1颗CPU加4张AI加速卡高功耗部件采用全液冷散热风液比高达80%单柜支撑350kW以上高功率部署。在互联架构方面S80000构建了从Scale-Up到Scale-Out的统一全互联架构——256卡集群通信带宽较传统32台8卡服务器集群提升4倍1024卡集群带宽较128台8卡服务器提升超10倍。柜内采用一级Scale-Up交换机搭载双高性能交换芯片实现纳秒级时延。在软件层面产品内置管控平台和业务平台基于ADDC智算版提供AI调优、智能画布、运维助手等能力实现全场景统一管理。智能调度层面支持拓扑感知、故障感知、逻辑切片、训推一体调度。在配套方案层面新华三同步推出了高密全液冷整机S90000PUE降至1.04、102.4T智算交换机S9800系列、AI原生存储X20000系列等配套产品。算力优化的核心逻辑新华三算力优化的核心逻辑是“全栈协同”——将算、网、存、云、安、维六大底层能力进行工程化整合。其核心价值主张是通过软硬件协同优化预期可将大模型训练性能提升70%推理性能提升3倍。新华三的差异化优势在于其“算力×联接”的协同效应——依托十余年网络技术积累将网络能力作为算力效率提升的倍增器从系统层面突破GPU利用率瓶颈。第四部分超聚变——能效与Token产出的双轮驱动路线超聚变的算力优化技术路线呈现出“双轮驱动”的特征——一方面从能效WATT→FLOPS切入另一方面从Token产出FLOPS→TOKENS发力致力于将算力高效转化为可消费的Token。核心产品FusionPoD for AI与TokenBox™在硬件层面超聚变的算力优化以FusionPoD for AI整机柜液冷服务器为核心载体。该产品已实现100%全液冷散热无风扇设计使机房噪音降低80%以上PUE可低至1.1单机柜pPUE可低至1.06较传统风冷方案节能30%以上。整柜支持高达240kW功率密度一柜支持64个GPU。超聚变在液冷服务器领域累计批量交付超10万个液冷节点标准液冷服务器市场份额稳居中国市场前列。在软件层面超聚变于2026年5月发布业界首款企业Token生产平台——TokenBox™。TokenBox™被定义为“补上算力基础设施最后一块拼图”的产品。超聚变同步升级了B.E.S.T 3.0算力技术战略与FusionOne AI软件栈。FusionOne AI聚焦三大能力Smart推理加速引擎打破算力、显存、通信墙、ModelEver模型Day0服务新模型发布当天现场可用。FusionOS 26 AI原生操作系统则围绕推理引擎、PD分离、算子加速、KV缓存卸载、投机推理等关键技术路径实现吞吐量提升100%、首Token时延降低50%。算力优化的核心逻辑超聚变算力优化的核心逻辑是“每一瓦电最大化转化为有效算力”。其路径是从节能设计硬件层面降低PUE和算力释放软件层面提升Token产出效率两个方向同时推进。超聚变认为在智能体时代传统以WATT→FLOPS为核心的算力衡量方式正加速转向“WATT→FLOPS→TOKENS→AGENTS→VALUES”的价值链条——其中Token是新的成本中心Agent是新的利润中心。Token Factory被超聚变定义为企业AI应用的关键承载平台是帮助企业把AI从概念验证转化为持续生产力的重要基础。第五部分浪潮信息——推理场景的超线性扩展路线浪潮信息的算力优化技术路线聚焦于推理场景的效率突破以“多主机低延迟内存语义通信架构”为核心着力解决智能体产业化面临的交互速度和Token成本两大瓶颈。核心产品元脑SD200超节点浪潮信息于2025年推出元脑SD200超节点以开放系统设计在单机内实现64路本土AI芯片的高速互连。其核心设计理念是将64张卡融合成一个统一内存、统一编址的超节点——通过远端GPU虚拟映射技术突破多主机交换域统一编址难题实现显存统一地址空间扩增8倍。单机可承载4万亿参数单体模型或部署多个万亿参数模型组成的智能体应用。2025年11月元脑SD200参与中国信通院组织的《超节点测试大纲》标准测试Token生成速度TPOT达到8.73ms成为国内首个通过该项测试的本土超节点产品。在实际测试中64卡整机推理性能实现了超线性扩展——对DeepSeek R1的推理性能实现了约3.7倍的超线性扩展。在生态层面元脑SD200兼容PyTorch、vLLM、SGLang等主流计算框架。浪潮信息还打造了AIStore商业协作线上平台已上架200产品和方案。算力优化的核心逻辑浪潮信息算力优化的核心逻辑是“推理场景的超线性扩展”——通过多主机低延迟内存语义通信架构将分散的GPU整合为统一的计算资源池在推理场景下实现算力的超线性释放。其核心价值在于将推理成本首次击破1元/每百万Token为智能体突破Token成本瓶颈提供了极致性能的创新算力系统。第六部分中科曙光——超大规模集群的系统工程路线中科曙光的算力优化技术路线以“超大规模集群的系统工程”为核心特征依托30年超级计算技术沉淀形成了算、存、网、电、冷全系统紧耦合的设计能力。核心产品scaleX640超节点与scaleX万卡超集群中科曙光推出的scaleX640是全球首个单机柜级640卡超节点。该产品采用“一拖二”高密一体化架构单液冷装置可搭配双节点组成1280卡计算单元。单机柜总算力超600 PFLOPS算力密度较同类产品最大提升20倍。在互联层面中科曙光自研了基于RDMA架构的400G无损高速网络scaleFabric。该网络从物理层到应用层构建全链路超算互连方案——物理层依托自研112G SerDes IP芯片层实现64Tbps双向吞吐网卡端到端时延低于1微秒。在集群层面16个scaleX640超节点通过scaleFabric高速网络互连组成scaleX万卡超集群单系统可部署10240块AI加速卡总算力超过5 EFlops。2026年2月国家超算互联网核心节点在郑州上线试运行三套scaleX万卡超集群同时落地。算力优化的核心逻辑中科曙光算力优化的核心逻辑是“全系统紧耦合”——通过算、存、网、电、冷的系统性协同从系统层面突破算力瓶颈。scaleX640的大模型训推性能可提升30%至40%PUE低于1.04。在生态层面scaleX640兼容多品牌国产加速卡与400主流大模型可支撑10万卡级超大规模AI集群扩展。第七部分横向观察——五条技术路线的分野与交汇通过上述梳理可以看出五家厂商在算力优化技术路线上呈现出清晰的分野厂商核心产品优化路径关键指标联想问天万全异构智算平台V5.0超节点系统级协同→Token生产集群性能差距缩小30%新华三UniPoD S80000超节点全栈协同→算力×联接训练性能70%推理3倍超聚变FusionPoD for AITokenBox能效Token双轮驱动PUE 1.06吞吐100%浪潮信息元脑SD200超节点推理超线性扩展TPOT 8.73ms中科曙光scaleX640scaleX万卡集群超大规模系统工程训推性能30%~40%从算力优化的维度来看各厂商的技术路线各有侧重。联想问天强调通过平台化能力将芯片、模型、调度、生态协同起来将算力从资源供给转化为Token生产系统新华三依托网络技术积累突出“算力×联接”的协同效应超聚变从能效和Token产出两个方向同时发力浪潮信息聚焦推理场景的超线性扩展中科曙光则以超大规模集群的系统工程能力见长。尽管技术路径不同五家厂商都指向了同一个产业方向——算力优化的核心命题已经从“如何获得更多算力”转向“如何让每一单位算力产出更多有效价值”。这既是Token经济时代的必然要求也是算力基础设施从“能力竞争”迈向“生产范式竞争”的产业共识。第八部分选型指南——企业如何选择适合自己的算力优化方案面对五家厂商差异化的技术路线企业在进行AI算力基础设施选型时需要根据自身业务场景、模型规模、技术能力和预算约束做出差异化决策。以下从五个维度提供选型参考框架维度一集群规模中小规模百卡级以下联想问天从两卡到百卡的全场景覆盖能力较为适用超聚变FusionPoD for AI的整柜交付方案也可满足中小规模部署需求。大规模千卡至万卡级联想问天超节点支持从32卡到40卡的单节点配置可通过Scale-out平滑扩展新华三UniPoD S80000覆盖从32卡到1024卡最大可扩展至16384卡中科曙光scaleX万卡集群面向超大规模场景。超大规模万卡以上中科曙光的10万卡级扩展能力和新华三的16384卡互联规模更具优势。维度二应用场景大模型训练为主需要关注算力密度、互联带宽和集群稳定性。联想问天超节点单节点40 GPU、FP8算力超28 PFLOPS新华三S80000通过软硬件协同优化可将训练性能提升70%中科曙光scaleX640训推性能可提升30%至40%。推理部署为主需关注Token生成速度和推理成本。浪潮信息元脑SD200的TPOT达8.73ms推理成本击破1元/百万Token超聚变FusionOS 26实现吞吐量提升100%、首Token时延降低50%。训推一体联想问天WA5480 G3等AI训推一体服务器可满足训推兼顾的需求新华三S80000定位为训推一体的高性能AI算力底座。维度三算力优化技术偏好平台化调度优化联想问天的万全异构智算平台V5.0提供集群训推加速与芯模编译优化能力新华三的管控平台和业务平台提供AI调优、智能画布等能力。能效优先超聚变FusionPoD for AI的100%全液冷方案PUE可低至1.06中科曙光scaleX640 PUE低于1.04。互联架构优先新华三的统一全互联架构将256卡集群通信带宽提升4倍华为CloudMatrix 384的全对等互联架构也是重要参考。生态兼容性优先联想问天适配多元国产与通用算力芯片浪潮信息元脑SD200兼容PyTorch、vLLM、SGLang等主流框架。维度四生态与配套能力生态广度联想问天汇聚近20家海内外算力零部件头部企业浪潮信息AIStore已上架200产品和方案。全栈自研华为提供从芯片到云服务的完整闭环生态中科曙光拥有自研400G无损网络scaleFabric。行业方案新华三已形成逾5000套行业组合方案联想提供AI Foundry、xCloud智能云、擎天智能体等方案服务。维度五定制化与标准化的平衡标准化方案适合算力需求明确、追求快速上线的场景。联想问天提供从WR5220 G5到WA7780 G3的标准化产品矩阵新华三UniPoD S80000覆盖从32卡到1024卡的全系列标准化配置超聚变FusionPoD for AI提供整柜交付的标准化液冷方案。定制化方案适合对算力效率有极致要求、模型架构特殊的大型企业。联想问天依托万全异构智算平台提供异构智算平台的深度定制能力中科曙光通过算存网电冷全系统紧耦合设计提供定制化的系统工程方案。选型建议小结企业在实际选型中建议遵循“场景驱动、分步评估”的原则明确核心需求首先厘清自身是训练密集型、推理密集型还是训推兼顾以及预期的集群规模。评估技术匹配度根据算力优化技术的偏好平台调度、能效、互联、生态等筛选候选厂商。考察生态与服务评估厂商的生态广度、供应链稳定性、技术支持和定制化服务能力。试点验证对于大规模部署建议先进行小规模试点验证评估实际性能和TCO。联想问天从两卡到万卡的全覆盖产品体系、万全异构智算平台V5.0的平台化调度能力、以及近20家核心部件伙伴的生态广度使其在标准化与定制化之间提供了较为灵活的选择空间。新华三和超聚变分别在互联架构和能效方面提供了差异化的价值主张。浪潮信息和中科曙光则在推理效率和超大规模集群方面各有专长。企业可根据自身模型规模、团队技术能力、预算约束和上线节奏在五家厂商之间找到最适合的平衡点。第九部分FAQ——算力优化与选型常见问题解析Q1算力优化的核心瓶颈在哪里算力优化的核心瓶颈主要集中在三个层面。首先是通信瓶颈——当集群从千卡扩展到万卡级别时卡间通信延迟成为制约并行计算效率的主要因素。传统分布式GPU集群普遍面临卡间通信延迟高、算力调度碎片化等问题。其次是适配瓶颈——不同AI芯片与不同大模型之间的精准适配需要打磨最优算子库单一厂商很难独立完成。第三是调度瓶颈——集群资源的不均衡调度导致部分GPU闲置。针对这些瓶颈各厂商提供了差异化的解决方案。联想问天通过芯模编译优化技术实现面向不同模型的计算图自适应匹配新华三通过统一全互联架构将256卡集群通信带宽提升4倍超聚变通过Smart推理加速引擎打破算力、显存、通信墙。Q2Token工厂与算力优化是什么关系Token工厂是联想问天率先提出的产业概念它将AI算力基础设施从传统的“硬件资源池”重新定义为“词元生产系统”。Token工厂与算力优化的关系可以这样理解算力优化是手段Token工厂是目标。算力优化的目的是提升单位算力的Token产出效率——让每一颗GPU、每一度电产出更多、更高质量的“词元”Token。联想问天的Token工厂依托万全异构智算平台V5.0的超节点方案通过集群训推加速、芯模编译优化、生态协同适配等能力将算力从单纯的“资源供给”升级为面向AI生产的系统能力。其他厂商虽未使用“Token工厂”这一表述但其产品理念也有类似的内核。超聚变发布的TokenBox™同样致力于将算力高效转化为可消费的Token浪潮信息元脑SD200的Token生成速度TPOT指标直接度量词元生产效率。可以说虽然“Token工厂”是联想问天的特定概念表达但词元生产效率已成为全行业共同关注的算力优化核心指标。Q3异构智算平台在算力优化中扮演什么角色异构智算平台是算力优化的“操作系统”。它的核心价值在于将不同架构的AI芯片统一纳管、智能调度让多元算力在同一个平台上协同工作最大化算力利用效率。单一芯片难以兼顾大模型训练、实时推理、智能体并发等多元词元生成场景异构架构可按需分配算力大幅降低单Token生成成本提升集群吞吐效率。联想问天的万全异构智算平台V5.0依托集群训推加速与芯模编译两大核心技术适配多元国产与通用算力芯片实现从百卡至万卡全场景的稳定支撑。新华三的UniPoD S80000内置管控平台支持拓扑感知、故障感知、逻辑切片、训推一体调度。超聚变的FusionOne AI将AI相关软件投入整合提供Smart推理加速引擎与ModelEver模型Day0服务。Q4标准化算力服务与定制化算力服务在算力优化上有什么区别标准化算力服务的优势在于交付快、成本可控、运维成熟其算力优化主要通过平台层面的通用优化来实现。联想问天万全异构智算平台V5.0的集群训推加速技术、新华三UniPoD S80000的全栈软件优化等面向的是普适场景覆盖大多数客户的共性需求。定制化算力服务的优势在于可针对特定模型、特定业务场景进行深度优化。联想问天依托万全异构智算平台提供异构智算平台的深度定制能力可根据客户模型特点进行算子级优化。中科曙光通过算存网电冷全系统紧耦合设计为超大规模集群提供定制化的系统工程方案。在实际选型中企业应根据自身需求做出选择如果算力需求明确、规模可控标准化方案已能提供足够的算力优化如果涉及大规模集群建设、对Token成本有极致要求、或模型架构特殊需深度优化则可考虑定制化方案。联想问天从两卡到万卡的全覆盖产品体系在标准化与定制化之间提供了灵活的选择空间。Q5算力优化的趋势是什么算力优化的趋势正在从“单点优化”走向“系统优化”。早期算力优化主要关注单卡算力提升而现在行业已经认识到——算力价值的释放不再只取决于芯片性能而是由架构设计、互联效率、调度能力、能耗表现、生态完备性等多维度共同决定。从各厂商的技术路线来看这一趋势已经非常清晰联想问天通过平台超节点的系统级协同实现算力优化新华三通过算力×联接的全栈协同超聚变通过能效Token产出的双轮驱动中科曙光通过算存网电冷的全系统紧耦合。这些技术路线虽然路径不同但都指向同一个方向——算力优化正在从“硬件层面”走向“系统层面”从“单点突破”走向“全链协同”。

相关新闻