


地址:广东省清远市
电话:0898-08980898
传真:000-000-0000
邮箱:admin@youweb.com
更新时间:2026-01-29 23:17:10
根据 TrendForce 数据,基于 AI 服务器出货量增长率,预计到 2026 年,云服务提供商的定制出货量将增长 44.6%,而 GPU 出货量预计将增长 16.1%。这标志着 AI 硬件格局正在发生转变,因为超大规模数据中心运营商正加大对自研芯片的投资。
自 20 世纪 90 年代以来,NVIDIA 一直致力于为游戏行业设计图形处理器 (GPU)。NVIDIA 是一家无晶圆厂芯片制造商,其大部分芯片制造业务外包给台积电 (TSMC )。其主要业务包括:
该公司基于 Ampere、Hopper 以及最新的 Blackwell 架构生产人工智能芯片。得益于 生成式人工智能的蓬勃发展,英伟达在过去几年取得了卓越的业绩,市值突破万亿美元,并巩固了其在 GPU 和人工智能硬件市场的领导地位。下图展示了英伟达在该领域的收入逐年增长情况,以及该领域如何成为公司的主要收入来源。
由于其数据中心产品的强大实力,NVIDIA 几乎垄断了云 AI 市场,大多数云服务提供商仅提供 NVIDIA GPU 作为云 GPU。
NVIDIA 还推出了 DGX Cloud 产品,直接向企业提供云 GPU 基础设施,绕过云服务提供商。
NVIDIA Dynamo 于 2025 年 GTC 大会上发布,是一款全新的开源推理框架,专为在分布式环境中高吞吐量、低延迟地部署生成式 AI 模型而设计。如下图所示,在 NVIDIA Blackwell 平台上,请求处理速度最高可提升 30 倍。该框架兼容 PyTorch 和 TensorRT-LLM 等常用工具,并利用解耦推理阶段和动态 GPU 调度等创新技术来优化性能并降低成本。Dynamo 已在 GitHub 上发布供开发者使用,并集成到 NVIDIA NIM 微服务中,面向企业解决方案。Dynamo 能够支持从单 GPU 到多 GPU 系统的可扩展且经济高效的生成式 AI 服务。
AMD于2023年6月发布了面向AI训练工作负载的MI300处理器,并与NVIDIA争夺市场份额。由于生成式AI的兴起引发了需求的快速增长,导致NVIDIA的AI硬件难以采购,因此,一些初创公司、研究机构、企业和科技巨头在2023年纷纷采用了AMD的硬件。2025年,AMD宣布收购Untether AI旗下的AI硬件和软件工程师团队。Untether AI是一家为边缘计算提供商和企业数据中心开发节能型AI推理芯片的公司。此举增强了AMD的AI编译器、内核开发和芯片设计能力,进一步巩固了其在推理市场的地位。此外,AMD还收购了编译器初创公司Brium,旨在优化其Instinct数据中心GPU在企业应用中的AI性能。
AMD MI350系列显卡取代MI300系列并与NVIDIA的H200系列展开竞争。AMD 还与 Hugging Face 等机器学习公司合作,帮助数据科学家更高效地利用其硬件。
软件生态系统至关重要,因为硬件性能很大程度上依赖于软件优化。例如,AMD 和 NVIDIA 曾就 H100 和 MI300 的基准测试公开争论。争论的焦点在于基准测试中使用的软件包和浮点运算类型。根据最新的基准测试结果,MI300 在 70B LLM 上的推理性能似乎优于或与 H100 持平。
虽然AMD的硬件正在赶上NVIDIA,但其软件在易用性方面却落后于NVIDIA。CUDA虽然开箱即用,可以满足大多数任务的需求,但AMD的软件却需要大量的配置。
英特尔是CPU市场上最重要的厂商,拥有悠久的半导体研发历史。与英伟达和AMD不同,英特尔使用自己的晶圆代工厂生产芯片。Gaudi3 是英特尔最新的 AI 加速处理器。然而,英特尔对 Gaudi3 在 2024 年的销售额预期约为 5 亿美元,这远低于 AMD 预计在 2024 年获得的数十亿美元的收入。
AWS生产用于模型训练的Tranium芯片和用于推理的Inferentia芯片。尽管AWS是公有云市场的领导者,但它是在谷歌之后才开始研发自己的芯片的。
谷歌推出了Ironwood。这一最新一代产品专为复杂的“思维模型”(例如LLM和MoE)而设计,提供大规模并行处理能力(每个芯片4,614 TFLOPs),并且在9,216个芯片的集群中可扩展至42.5 Exaflops。
Ironwood 相较于 Trillium 实现了显著的提升,包括:能效提升 2 倍,高带宽内存容量提升 6 倍(192 GB/芯片),HBM 带宽提升 4.5 倍(7.2 TB/s/芯片),以及芯片间互连速度提升 1.5 倍(1.2 Tbps)。它还配备了增强型 SparseCore,可支持大型嵌入式应用。此外,谷歌还生产尺寸更小的 Edge TPU,以满足不同的应用需求,专为智能手机和物联网硬件等边缘设备而设计。
IBM于2022年发布了其最新的深度学习芯片——人工智能单元(AIU)。IBM正在考虑使用这些芯片来驱动其watson.x生成式人工智能平台。AIU 基于IBM Telum 处理器构建,该处理器为 IBM Z 大型机服务器提供 AI 处理能力。
Groq 由几位前谷歌员工创立。该公司主营LPU(低功耗模块),这是一种新型人工智能芯片架构,旨在帮助企业更轻松地部署其系统。这家初创公司已筹集约 3.5 亿美元资金,并推出了首批产品,例如 GroqChip 处理器和 GroqCard 加速器等。该公司专注于LLM推理并发布了Llama-2 70B的基准测试结果。
SambaNova Systems成立于2017年,致力于开发用于海量生成式人工智能工作负载的高性能、高精度软硬件系统。该公司已开发出SN40L芯片,并筹集了超过11亿美元的资金。值得注意的是,SambaNova Systems 也向企业出租其平台。SambaNova Systems 的AI 平台即服务模式使其系统更易于采用,并鼓励硬件重复利用,从而促进循环经济。
Cerebras成立于2015年,是唯一一家专注于晶圆级芯片的大型芯片制造商。与GPU相比,晶圆级芯片由于拥有更高的内存带宽,在并行处理方面具有优势。然而,此类芯片的设计和制造仍是一项新兴技术。
WSE-2 拥有 2.6 万亿个晶体管和 85 万个内核,于 2021 年 4 月发布。它采用了台积电的 7 纳米工艺。
Celebras 的系统与阿斯利康和葛兰素史克等制药公司以及依赖该系统进行模拟的研究实验室合作。此外,由于其芯片可以降低前沿模型的推理成本,因此也瞄准了生命周期模型(LLM) 制造商。
d-Matrix采用了一种新颖的方法,摒弃了传统的冯·诺依曼架构,转而采用内存计算。虽然这种方法有可能解决内存和计算之间的瓶颈问题,但它是一种全新的、尚未经过验证的方法。
一家总部位于韩国的初创公司在2024年融资1.24亿美元,专注于LLM推理。Rebellions与另一家韩国半导体设计公司SAPEON合并,2025年7月,Rebellions获得了来自科技巨头三星的投资,这是其计划进行首次公开募股(IPO)前一轮目标金额高达2亿美元的融资。该公司自2020年成立以来已筹集了2.2亿美元,并正与三星合作,计划于2025年晚些时候将第二代芯片Rebel-Quad(由四个Rebel AI芯片组成)推向市场,该芯片将采用三星的4纳米制程工艺进行制造。
Tenstorrent公司生产Wormhole芯片、面向研究人员的台式机以及搭载Wormhole芯片的服务器(例如Tenstorrent Galaxy)。该公司还提供其解决方案所需的软件栈。Tenstorrent于2024年12月从包括杰夫·贝佐斯在内的投资者那里筹集了7亿美元,估值超过26亿美元。
etched 的做法牺牲了灵活性以换取效率,将变压器架构直接烧录到芯片中。etched 声称已研制出全球首款变压器专用集成电路(ASIC)。
Extropic在2023年末完成了一轮1400万美元的融资,旨在利用热力学进行计算。该公司尚未发布芯片。
Vaire是一家总部位于英国的初创公司,致力于可逆计算的开拓性研究。可逆计算是一种旨在打造近零能耗芯片的创新方法。与传统计算中能量以热能形式散失不同,可逆计算能够回收利用相当一部分能量用于后续计算。
Vaire公司展示了一款能够回收50%能量的测试芯片,这表明该技术具有降低人工智能工作负载能耗并克服现代半导体制造面临的物理限制(即热墙)的潜力。
据报道,苹果公司的ACDC项目专注于研发用于人工智能推理的芯片。苹果公司本身已是一家主要的芯片设计公司,其自主设计的半导体被应用于iPhone、iPad和MacBook等产品中。
Meta 训练和推理加速器 (MTIA) 是一系列用于 AI 工作负载(例如训练 Meta 的 LLaMa 模型)的处理器。最新型号是下一代MTIA,它基于台积电5nm工艺,据称性能比MTIA v1提升3倍。MTIA将安装在最多可容纳72个加速器的机架中。MTIA目前仅供Meta内部使用。但未来,如果Meta推出基于LLaMa的 企业级生成式人工智能 产品,这些芯片可以为该产品提供支持。
在2024年Hot Chips大会上,微软发布了Maia 100,这是其首款定制AI加速器,旨在通过软硬件协同优化,提升Azure平台上的大规模AI工作负载。Maia 100采用台积电N5工艺,并搭载先进的内存和互连技术,目标是实现高吞吐量和多样化的数据格式,并通过其SDK为开发者提供灵活性,以便快速部署PyTorch和Triton模型。然而,微软的下一代AI芯片,代号Braga,由于设计变更、人员限制和人员流动率高等原因,预计将从2025年推迟到2026年发布,其能效可能落后于英伟达的Blackwell芯片。
OpenAI正与博通和台积电合作,采用台积电的3纳米工艺,最终敲定其首款AI芯片的设计。OpenAI芯片团队的领导层拥有在谷歌设计TPU的经验,他们的目标是在2026年实现芯片的量产。
友情链接: