智能手表|一家英国明星芯片公司“悄然”入华!叫板英伟达A100( 二 )


概括来说 , GPU 主要应用在主流 AI 平台 , 它并不是为 AI 而生的处理器 。 Graphcore 进行大量分析后发现 , AI 计算具有高度并行、低密度计算等特点 , 不管做图像处理模型、还是语言处理模型 , 都会在底层表达成一个计算图 。 卢涛认为 , 真正面向未来的 AI 处理器 , 必须是针对计算图来进行处理 , 而 Graphcore 的IPU 正是以计算图为核心的智能处理器 。
三项变革性技术:计算、数据、通信进入中国后 , Graphcore 一直努力接近开发者 , 卢涛在 9 月 19 日中关村论坛的演讲结尾 , 特意提到该公司在中文网站 graphcore.cn、微信和知乎的开发者创新社区 , 并鼓励更多开发者来到上述平台 , 获取 Graphcore 的资源和支持来进行创新 。
对此做法 , 他解释称 , Graphcore 希望将权利移交给创新者 。 那么 , 首先要给创新者提供新的平台 , 让他有新的可能性 。 如果开发者的算法不适合 GPU , 并不一定代表你的算法无效 , 而是你需要一个新平台 。 基于此 , Graphcore 提供了非常先进的AI 处理器、以及大规模 IPU 集群系统 。
2020 年 7 月 15 日 , Graphcore 发布基于 7nm 的第二代 IPU 处理器——GC200 , 以及用于 Mk2m IPU 和 IPU 系统产品的技术:计算、数据、通信 。
图 | GC200(来源:Graphcore)
GC200 基于台积电 7nm 工艺 , 有 594 亿个晶体管 , 是当前单一芯片最大规模的处理器 。 GC200 仍然延续了第一代的“同构众核”架构 , 所不同的是 , 制造工艺从16nm , 提升为最新的 7nm 。
GC200 的处理器片上存储也从 300MB 提升到 900MB , 晶体管数量超出英伟达2020 年 5 月发布最新旗舰 A100 。 GC200 的处理器核心从上一代的 1217 提升到1472 , 能执行 8832 个单独的并行线程 , 系统性能提升 8 倍以上 。 在数据处理方面 , GC200 延续之前的高带宽高容量表现 , 这对于应对一些复杂 AI 模型及算法很有帮助 , 官方表示它可支持具有数千亿个参数的最大模型 。
此外 , Graphcore 还首次提出 IPU-EXCHANGE-MEMORY , 这是一种交换式的储存架构 。 Graphcore 在 M2000 每个 IPU-Machine 里面通过 IPU-Exchange-Memory 技术 , 提供了将近超过 100 倍的带宽以及大约 10 倍的容量 , 这对于很多复杂的 AI 模型算法是非常有帮助的 。
针对 AI 计算集群 , Graphcore 打造了 IPU-Fabric 技术 , 这是为 AI 横向扩展而生的通信技术 , 它的优点是弹性大、低时延 。 有了 IPU-Fabric 之后 , 用户可以轻松构建出超低弹性的计算平台 。 M2000 是 Graphcore 推出的基于 GC200 的刀片型服务器 , 每片能提供 1PetaFlop 的算力支持 。 M2000 可以被看作是 Graphcore IPU 系统产品部署的最小单元 , 基于它可以很方便地创建各种规模的集群 。
图| IPU-Fabric(来源:Graphcore)
Graphcore 协同 IPU 从零打造了一个以图为抽象编程模型的软件 Poplar 。 通过这套软件 SDK , 不管是使用浪潮还是戴尔的服务器 , 更或者是使用单个 M2000 以及大规模计算系统 IPU-POD , Graphcore 都能使用同一套软件进行编程 。
Graphcore 还在 Poplar 层面上 , 提供了很多软件库 。 以神经网络库为例 , 其可以支持标准的 PyTorch、TensorFlow 与 ONNX 等 。 同时 , Graphcore 认为 , 对一个系统而言 , 运维和管理也非常重要 。 为此 , Graphcore 基于开源做了集群管理套件 。
在整个处理器研发过程中 , Graphcore 认为开放非常重要 。 卢涛表示 , 开源是因为创新需要对底层有很多可见度 。 Graphcore 认为要把权利移交给开发者 , 并于2020 年 7 月开源了所有的计算图库源代码和机器学习算法模型 。
在构建社区方面 , Graphcore 在金山云上构建了一个开发者云 , 其主要面向商业用户、高校、科研机构和个人研究者 。 卢涛表示 , 这一且都是为了帮助创新者 , 可以在在机器智能中实现下一波突破 , 以及帮助用户实现在 CPU、GPU 上没有办法实现的创新 。


推荐阅读