很多人第一次听到 TPU,往往是因为谷歌,第一次真正理解 GPU,往往是因为英伟达。于是一个很自然的问题就来了:
TPU 到底是什么?和 GPU 有什么区别?谁更强?谁更有未来?
在了解什么是TPU之前,我们需要先了解什么是 ASIC,因为TPU属于ASIC范畴,了解了什么是ASIC之后,我们可以更好的理解TPU和GPU的区别。
ASIC 是 Application-Specific Integrated Circuit 的缩写,中文全称为 “专用集成电路”,平时我们常说的专用芯片指的就是ASIC。
简答来说,ASIC是为了某一特定用途而定制化设计的专用芯片,与我们常见的CPU(通用处理器)相比,CPU像是一个”全才“,什么都能做,ASIC像是一个“专才”,只精通某项特定任务。
CPU (通用芯片): 像一把瑞士军刀。它有剪刀、开瓶器、小刀等各种工具,能应付日常各种情况(计算、逻辑控制、图形处理等),但每样工具都不是最顶尖的。
ASIC (专用芯片): 像一把专用手术刀。它没有开瓶器功能,也没法剪指甲,但如果你要进行精密手术,它在切割效率和精准度上远超瑞士军刀。
比特币矿机芯片: 专门为了运行 SHA-256 哈希算法而生,效率比顶级显卡高出成千上万倍。
手机里的 ISP/编码器: 手机拍照时的降噪处理、视频录制时的硬件压制,通常由芯片内部的专用 ASIC 单元完成。
网络路由器: 里面的交换芯片专门负责极速转发数据包。
GPU(图形处理器),全称 Graphics Processing Unit,本来是为图形图像而生的。
它最早的使命不是训练大模型,而是处理游戏画面、3D 渲染、视频等大量并行计算任务。后来人们发现,AI 训练里最核心的很多操作——尤其是矩阵乘法、卷积、注意力计算——本质上也特别适合并行处理,于是 GPU 就从“显卡”一步步进化成了 AI 时代的主引擎。
CPU 更像一个“擅长单兵作战的指挥官”,适合串行、复杂控制逻辑;GPU 更像一个“成千上万士兵同时干活的军团”,特别适合把大任务拆成很多小块一起跑。AI 模型中的大量张量计算,天生就适合这种模式。
现代 NVIDIA 数据中心 GPU 不是只会“画图”,还通过 Tensor Cores 专门强化矩阵运算;Tensor Core 用来加速矩阵数学,而 cuDNN、cuBLAS 等库又把 attention、matmul、convolution、pooling、normalization 这些常见深度学习操作做了高度优化。
很多时候,硬件不是输在芯片本身,而是输在“没人会用”“迁移太麻烦”“工具链不顺”。NVIDIA 的 CUDA 平台和 CUDA-X 库生态,本质上就是一整套开发、优化、部署体系。开发者能用 C++、Python 等语言,也能直接调用 PyTorch、各类加速库和工具。这意味着:GPU 不只是一个芯片,而是一整套可落地的工业体系。
很多公司买英伟达的GPU,买的不是单纯的 GPU 算力,而是“GPU + CUDA + 现成生态 + 工程可交付性”。
TPU(张量处理单元),全称 Tensor Processing Unit。它是谷歌自研的 ASIC(专用集成电路),从设计之初就不是为了图形,而是为了机器学习。注意ASIC,这也是上文我们介绍的内容,TPU和GPU的的核心区别是专用!
如果说GPU先做图形,再兼容通用并行计算,再成为 AI 主力是一种巧合,那么TPU一开始就是奔着AI来的。
GPU 是一支装备很全的特种部队,TPU 是一座专门为了“矩阵乘法”这项工艺修建的超级工厂。在 AI 尤其是大模型时代,矩阵乘法是绝对的“耗电大户”和“时间大户”,谁能把这一步做得更快、更省电、扩展得更大,谁就更有资格成为基础设施的底座。
理解 TPU,最好的方法不是死记定义,而是看它“牺牲了什么、换来了什么”。
| 特性 | TPU v5p (2024) | TPU v6 Trillium (2025/26) | TPU v7 (2026/27 预期) |
|---|---|---|---|
| 算力提升 | 基准 | 4.7x (vs v5e) | 预计进一步提升 2x+ |
| 内存技术 | HBM3 | 2x 内存容量 & 带宽 | 更高性能的 HBM4 / NPO 互连 |
| 主要卖点 | 训练大模型的能力 | 极致推理效率与扩展性 | 光学互连、极低功耗 |
| 软件支持 | JAX 为主 | JAX/PyTorch 双原生支持 | 代理式 AI |
它不像 GPU 那样天然覆盖图形、科学计算、仿真、通用并行任务等非常广的场景。它更专注于 AI,尤其是大规模训练和推理。Google Cloud 现在也明确把 TPU 定位成训练和推理大模型的核心加速器,并持续推进从 Trillium 到 Ironwood 的演进。Trillium 是第六代 TPU,Google 在 2024 年宣布其进入预览;到 2025 年,Google 又发布了第七代 TPU Ironwood,并明确称其是第一个专门面向推理时代设计的 TPU。
因为谷歌既做芯片、又做系统、还做框架适配和云平台,所以它能把硬件、编译器、集群、软件栈一起协同优化。Cloud TPU 可以跑 JAX、PyTorch/XLA 等框架;PyTorch/XLA 文档也强调,开发者只需做较少改动,就能把 PyTorch 模型运行到 TPU 上。
| 特性 | Google TPU v7 (Ironwood) | NVIDIA Rubin (R100/B300) |
|---|---|---|
| 单芯片算力 (FP8) | ~4.6 PetaFLOPS | ~5.2 PetaFLOPS (预估) |
| 显存带宽 | 7.37 TB/s (HBM3e) | 8-10 TB/s (HBM4/HBM3e) |
| 最大集群规模 | 9,216 芯片 (单 Pod) | 576 芯片 (单超节点) |
| 功耗 (TDP) | ~350W - 400W (极省电) | 1000W - 1200W (功耗巨兽) |
| 核心优势 | 成本极低、MoE 模型首选 | 算法通用性强、单卡性能最猛 |
这背后的逻辑很像苹果:
不是单点最强,而是整机协同最好。
所以从某种意义上说,TPU 的竞争力,不只是“芯片算得快”,而是:
Google 能不能把芯片、编译器、框架、网络、云资源、模型系统一起拧成一股绳。
GPU 出身图形,后来进入 AI。 TPU 出身就是 AI。
GPU 强在大规模并行和广泛适配,并通过 Tensor Cores 强化矩阵计算。 TPU 强在直接围绕矩阵乘法、深度学习主路径进行专门设计,典型代表是脉动阵列。
GPU 胜在 CUDA 生态非常庞大,开发工具、优化库、框架支持都很成熟。 TPU 则依赖 Google 的软件栈和 XLA 路线,和 Google Cloud 的结合更深。
GPU 更通用,除了 AI,还广泛用于数据处理、科学计算、图形图像等。 TPU 更聚焦 AI,尤其是 Google 自身及 Google Cloud 体系下的大模型训练与推理。
GPU 更像“卖通用平台”。 TPU 更像“卖垂直一体化 AI 基础设施”。
我们可以确定TPU会威胁GPU,但方式不是“正面硬碰硬地全面取代”,TPU 对 GPU 的威胁,更多体现在这几个层面:
如果谷歌自己能够在内部和云端更多使用 TPU,那么原本可能采购更多外部 GPU 的需求,就会有一部分被内部消化。这种逻辑和 AWS 的 Trainium、Inferentia 有相似之处:云厂商希望把最贵、最关键的 AI 基础设施尽量掌握在自己手里。这个趋势本身就说明,AI 加速器正在从“通用采购”走向“平台自研”。Google 官方已经明确把 TPU 放在其 AI Hypercomputer 体系中持续推进。
如果某类模型、某类推理任务在 TPU 上能获得更好的性能、成本或能效,那企业就不一定非要用 GPU。尤其在推理时代,成本控制会越来越重要。Google 在 2025 年发布 Ironwood 时就明确把它定义为推理时代的 TPU。
虽然 CUDA 仍然强大,但如果 JAX、PyTorch/XLA、编译器和模型部署工具越来越成熟,那么“只能上 GPU”的软件壁垒会慢慢变成“GPU 仍最方便,但不再唯一可用”。Google Cloud 近年持续推进 TPU 开发资源、PyTorch/XLA、推理软件栈,也是在做这件事。
TPU 会分走一部分高价值 AI 工作负载,但 GPU 在相当长时间内仍会是最广谱、最成熟的主平台。
不对。 “更专用”不等于“全面更强”。 专用硬件的优势,往往体现在特定任务、特定软件栈、特定部署体系里。脱离这些条件,专用不一定比通用更有优势。
不对。 今天的数据中心 GPU,早已不是消费者理解中的“打游戏显卡”。它已经进化成 AI、HPC、数据处理、科学计算的通用加速平台。NVIDIA 官方就把其定位为 accelerated computing 的核心基础设施。
不准确。 Google Cloud 已把 TPU 作为对外提供的可扩展资源,官方持续发布 TPU 文档、开发者资源、版本迭代和 AI Hypercomputer 体系更新,这说明 TPU 不是实验室项目,而是云端商业基础设施的一部分。
谷歌已与Anthropic达成100万片TPU合作,与Meta洽谈数十亿美元采购计划。
一个生动的案例是Midjourney的迁移故事。这家AI图像生成公司从GPU集群迁移到TPU v6e后,月度推理支出从210万美元骤降至70万美元以下,降幅高达65%,年化节省超过1600万美元,同时保持产出量不变。这组数据让市场对TPU的经济性刮目相看。
真正值得关注的,不只是“TPU 和 GPU 谁更牛”,而是 AI 基础设施正在从单一硬件竞争,走向系统级竞争。
过去你看芯片,可能只看制程、算力、单卡性能。
但现在更关键的变量,已经变成了:
Google 的 TPU 路线,说明大厂正在用“芯片 + 云 + 软件 + 模型”的方式重新定义 AI 基础设施;NVIDIA 的 GPU 路线,则说明通用平台一旦建立起完整生态,护城河会极深。
所以从产业趋势看,未来不是只有一种赢家。
GPU 是“通用型 AI 发动机”,TPU 是“为 AI 深度定制的专用引擎”。前者靠广泛适配和生态称王,后者靠垂直优化和系统协同突围。
TPU 和 GPU 的关系,不是谁取代谁,而是 AI 工业化进程里,两条不同路线对“算力效率”的竞逐:
一条赢在开放生态 一条赢在垂直优化。
而这场竞逐,才刚刚开始。
本文采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
借助npm的scripts功能,添加了npmrundeploy脚本命令,而不是在每次发布前先敲gitpull然后npminstall,等到install完然后在build,或者npmrunserve等等。现在只需要npmrundeploy便可自动运行发布的命令流程。shel...
要掌握一个学科的精髓,不能从细枝末节开始。人脑的能力很大程度上受限于信念。一个人不相信自己的时候,他就做不到本来可能的事。信心是很重要的,信心却容易被挫败。如果只见树木不见森林,人会失去信心,以为要到猴年马月才能掌握一个学科。所以我们不从“树木”开始,而是引导读者一起来探索...