谷歌超级计算机使用光学开关重新配置芯片连接,提升性能

   时间:2023-04-05 10:00 来源:ITBEAR

【ITBEAR科技资讯】4月5日消息,Alphabet Inc.旗下谷歌公司周二公布了其用于训练人工智能模型的超级计算机的新细节。该系统使用自主设计的名为“张量处理单元”(TPU)的芯片,可以用于诸如用人类语言回答问题或生成图像等任务。

谷歌的 TPU 现在已经是第四代了。据了解,谷歌的 TPU 现在已经是第四代了,谷歌周二发表了一篇科学论文,详细介绍了他们如何使用自己定制开发的光学开关将 4000 多个芯片串联成一台超级计算机。谷歌表示,其超级计算机可以轻松地实时重新配置芯片之间的连接,有助于避免问题并提高性能。谷歌研究员 Norm Jouppi 和谷歌杰出工程师 David Patterson 在一篇关于该系统的博文中写道:“电路切换使我们很容易绕过故障部件。这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速 ML(机器学习)模型的性能。”

为谷歌的 Bard 或 OpenAI 的 ChatGPT 等技术提供动力的所谓大型语言模型的规模已经爆炸性增长,这意味着它们太大,无法存储在单个芯片上。这些模型必须被分割到数以千计的芯片中,然后这些芯片必须协同工作数周或更长时间来训练模型。谷歌的 PaLM 模型 —— 迄今为止其公开披露的最大的语言模型 —— 是通过将其分散到 4,000 个芯片的两台超级计算机上,历时 50 天进行训练的。

据ITBEAR科技资讯了解,谷歌表示,对于同等规模的系统,其超级计算机比基于 Nvidia A100 芯片的系统快 1.7 倍,节能 1.9 倍。谷歌表示,之所以没有将其第四代产品与 Nvidia 目前的旗舰产品 H100 芯片进行比较,因为 H100 是在谷歌的芯片之后上市的,而且是用更新的技术制造的。谷歌暗示他们可能正在开发一种新的 TPU,与 Nvidia H100 竞争。

 
 
更多>同类内容
全站最新
热门内容