谷歌 TPU 超级算力大模型已超英伟达

文章编号:918 网站运营 2024-02-24 狂人网络

尽管目前尚无与 ChatGPT 匹敌的AI大型模型,但在计算能力方面,领导者可能并非微软和 OpenAI。目前,谷歌发布了其基于 TPU 的超级计算机在训练大型语言模型方面的详细信息,该超级计算机在速度和能效方面已经超过了英伟达的同类产品。 TPU v4 谷歌张量处理器(Tensor Processing Unit,TPU)是该公司为机器学习定制的专用集成电路(Application-Specific Integrated Circuit,ASIC)。自2016年发布第一代以来,TPU 便成为了 AlphaGo 背后的算力。与 GPU 相比,TPU 采用低精度计算,在几乎不影响深度学习处理效果的前提下显著降低了功耗并加快了运算速度。此外,TPU采用了脉动阵列等设计来优化矩阵乘法和卷积运算。目前,谷歌90%以上的人工智能训练任务都在使用这些芯片,而TPU支持了包括搜索在内的谷歌的主要业务。图灵奖获得者、计算机架构领域的杰出人物大卫・帕特森(David Patterson)在2016年从 UC Berkeley 退休后,以杰出工程师的身份加入了谷歌大脑团队,为几代 TPU 的研发做出了突出贡献。 大卫・帕特森 如今,TPU 已发展至第四代。4月11日,由 Norman Jouppi、大卫・帕特森等人发表的论文《TPU v4: An Optically Reconfigurable Supercomputer For Machine Learning with Hardware Support for Embeddings》详细阐述了谷歌如何利用自研光通信器件将 4000 多个芯片并联组成超级计算机,从而提升整体效能。相较于 TPU v3,TPU v4 性能提升了2.1倍,功耗性能比增加了2.7倍。基于 TPU v4 的超级计算机拥有 4096 个芯片,整体速度提升约10倍。与类似规模的系统相比,谷歌的 TPU v4 比 Graphcore IPU Bow 快4.3-4.5倍,比 Nvidia A100 快1.2-1.7倍,功耗降低1.3-1.9倍。除了芯片本身的计算能力外,芯片间互连已成为构建AI超级计算机的企业间竞争的关键因素。近期,大型语言模型(LLM)如谷歌的 Bard 和 OpenAI 的的规模正呈爆炸式增长,计算能力已经成为显著的瓶颈。由于大型模型通常具有千亿级的参数量,数千个芯片必须共同分担训练任务,且训练过程可能持续数周甚至更长时间。谷歌的PaLM模型——迄今为止该公司披露的最大规模语言模型——在训练过程中被分配到两台拥有4000个TPU芯片的超级计算机上,耗时50天。谷歌表示,通过光电路交换机(Optical Circuit Switch, OCS),其超级计算机可以轻松地动态重新配置芯片间的连接,有助于避免问题并实时调整以提高性能。下图展示了 TPU v4 4×3 配置中的6个“面”的连接方式。每个面包含16条链路,每个模块总共有96条光链路连接到 OCS。为了提供3D环面的环绕连接,相对侧的连接必须接入相同的 OCS。因此,每个4×3模块的TPU连接到6×16÷2=48个 OCS。Palomar OCS 具有136×136规格(128个端口加上8个用于链路测试和修复的备用端口),因此来自64个4×3模块(每个包含64个芯片)的48对电缆共连接了48个 OCS,总计并联4096个 TPU v4 芯片。 TPU v4 4×3 配置中的6个“面”的连接方式 根据这样的排布,TPU v4(中间的 ASIC 加上 4 个 HBM 堆栈)和带有 4 个液冷封装的印刷电路板 (PCB)。该板的前面板有 4 个顶部 PCIe 连接器和 16 个底部 OSFP 连接器,用于托盘间 ICI 链接。随后,八个 64 芯片机架构成一台 4096 芯片超算。 4096 芯片超算 在超级计算机中,工作负载由不同规模的算力承担,称为切片,如64芯片、128芯片、256芯片等。下图展示了在主机可用性从99.0%到99.9%不等,以及在没有 OCS 时,不同切片大小的“有效输出”。若无 OCS,主机可用性必须达到99.9%才能提供合理的切片吞吐量。对于大多数切片大小,OCS 在99.0%和99.5%的可用性下也表现出良好的输出。 OCS性能输出展示 与Infiniband相比,OCS 具有更低的成本、更低的功耗和更快的速度,占据系统成本不到5%,系统功率不到3%。每个 TPU v4 都包含 SparseCores 数据流处理器,能将依赖嵌入的模型加速5至7倍,但仅占用5%的裸片面积和功耗。谷歌研究员 Norm Jouppi 和谷歌杰出工程师大卫・帕特森在一篇关于该系统的博客文章中写道:这种切换机制使得绕过故障组件变得容易,其灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。TPU v4 比当代 DSA 芯片速度更快、功耗更低,如果考虑到互连技术,功率边缘可能会更大。通过使用具有 3D 环面拓扑的 3K TPU v4 切片,与 TPU v3 相比,谷歌的超算也能让 LLM 的训练时间大大减少。下图展示了谷歌自用的推荐模型(DLRM0)在不同芯片上的效率。TPU v3 比 CPU 快 9.8 倍。TPU v4 比 TPU v3 高 3.1 倍,比 CPU 高 30.1 倍。 DLRM0)在不同芯片上的效率 性能、可扩展性和可用性使 TPU v4 超级计算机成为 LaMDA、MUM 和 PaLM 等大型语言模型 (LLM) 的主要算力。这些功能使 5400 亿参数的 PaLM 模型在 TPU v4 超算上进行训练时,能够在 50 天内维持 57.8% 的峰值硬件浮点性能。谷歌表示,其已经部署了数十台 TPU v4 超级计算机,供内部使用和外部通过谷歌云使用。

 湖北公务员报名时间  网络教学专升本好考吗河南  专升本群浙江  嘉楠耘智官网  做梦梦到怀孕是什么意思  机械跨考哪些专业  专升本新生必看  天津大学博士招生简章 
本文地址: https://www.q16k.com/article/b0727caac436330a243b.html
Dreamcast

该站点未添加描述description...

极击网

极击网是国内首家游戏玩家社交网站,轻松游戏,以玩交友

凤凰网汽车

凤凰网汽车以服务全球华人汽车用户为己任,提供最新买车汽车报价、汽车图片、现车购买及互动论坛,第一时间发布汽车新车、试驾、评测、用车等丰富内容,是面向人群最广泛的专业门户汽车网站!

孕期知识,分娩知识,婴幼儿健康,育儿经验心得大全,爱宝宝育儿网

爱宝宝育儿网给大家分享怀孕期间孕期知识,分娩知识,婴幼儿健康,育儿经验心得大全

鏄庡崌闆嗗洟

该站点未添加描述description...

爱码网

爱码网是一个全网技术分享站,零门槛技术分享。在这里不需要积分,不需要注册,不需要充值,纯粹的技术分享。

品牌Outlets

该站点未添加描述description...

石青万能邮件助手

这是一款基于手机邮箱的qq邮件群发工具,可以使用99%以上的发件箱,群发国内国外邮箱,不进垃圾箱,稳定高效。

哈尔滨人才网

该站点未添加描述description...

热门手游排行榜

22下载站分享手游通关攻略、app使用教程,并且提供海量的优质手机app/手机游戏供网友免费下载,本站的软件库和资讯攻略更新及时,内容丰富,是你玩转手机的好帮手!

17音乐

17音乐专注于高品质乐器曲谱的发布于分享,提供:吉他谱、钢琴谱、尤克里里谱、小提琴谱、简谱等曲谱的下载服务。

手机浏览

该站点未添加描述description...

何氏宗亲网

何氏宗亲网建站于2014年,是民间公益网站,是何氏文化传播与交流的综合性网站。其主旨是弘扬中华何氏文化,为全球何氏宗亲建立一个精神家园。

云音乐视频解析下载

网易云音乐视频在线解析下载工具支持解析任何网易云音乐视频,包括MV、音乐短视频、好友动态视频等,并支持下载视频和视频封面到本地,手机和电脑上都适用.可谓是最简单的网易云音乐MV(视频)下载方法.

ae模板下载

『3dmax低模』专注3d低模下载与3d模板模型制作和拓扑低模Lowpoly下载『ae模板』打造最新ae教程与最新ae特效相结合的ae素材cg插件下载『cg动画』更有cg动画的下载与制作教程