当前位置: 网站首页 > 数码配件 > 详情

4000 多个芯片串联而成的电路(4000 多个芯片串联而成的电路图)

2024-04-08 18:34:04 数码配件 0

Alphabet Inc.旗下的谷歌周二公布了用于训练人工智能模型的超级计算机的新细节,称这些系统比英伟达的类似系统更快、更节能。

谷歌独立设计了一款名为张量处理单元(TPU)的芯片,用于训练人工智能模型。公司90%以上的人工智能训练工作都使用这些芯片。这些模型可用于诸如用人类语言回答问题或生成图像等任务。

4000 多个芯片串联而成的电路(4000 多个芯片串联而成的电路图)

谷歌的TPU 现在已经是第四代了。谷歌周二发表了一篇科学论文,详细介绍了如何使用自己定制开发的光学开关将4000 多个芯片串成一台超级计算机。

改善这些连接已成为构建人工智能超级计算机的公司之间竞争的关键点,因为为Google 的Bard 或OpenAI 的ChatGPT 等技术提供支持的所谓大型语言模型的规模已经爆炸式增长,这意味着它们太大,无法存储在单个芯片上。

这些模型必须划分为数千个芯片,然后这些芯片必须一起工作数周或更长时间来训练模型。 Google 的PaLM 模型—— 是迄今为止公开披露的最大的语言模型,通过将其分布在两台拥有4,000 个芯片的超级计算机上进行了50 多天的训练。

谷歌表示,其超级计算机可以轻松地实时重新配置芯片之间的连接,有助于避免问题并提高性能。

“电路切换使我们能够轻松绕过有故障的组件,”谷歌研究员Norm Jouppi 和谷歌杰出工程师David Patterson 在一篇有关该系统的博客文章中写道。 “这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速ML(机器学习)模型的性能。”

虽然谷歌现在才公布其超级计算机的详细信息,但它已于2020 年上线,在俄克拉荷马州梅斯县的一个数据中心运行。谷歌表示,初创公司Midjourney 使用该系统训练其模型,该模型可以在输入文本后生成图像。

谷歌在论文中表示,对于相同规模的系统,其超级计算机比基于Nvidia A100 芯片的系统速度快1.7 倍,能效高1.9 倍。谷歌表示,它不会将其第四代产品与Nvidia 目前的旗舰H100 芯片进行比较,因为H100 是在谷歌芯片之后上市的,并且采用了更新的技术。谷歌暗示他们可能正在开发一种新的TPU 来与Nvidia H100 竞争。