行业互联网|英国AI芯片创企发力中国训练/推理赛道，7月新品覆盖“云边端” |AI人工智能|

本文插图

智东西
文 | 董温淑
智东西7月28日消息，今天，英国AI芯片创企Graphcore的高级副总裁兼中国区总经理卢涛、Graphcore技术应用总负责人罗旭与智东西等媒体分享Graphcore产品的性能及Graphcore在中国的市场策略。
Graphcore成立于2016年，经过4年潜心研究，专为AI任务打造的第一代IPU（智能处理单元）于2019年落地。本月中旬， Graphcore发布其第二代IPU产品。卢涛称，在运行图像分类训练任务时， 8个基于IPU的刀片机性能相当于16个NVIDIA DGX A100 GPU ，且价格更为低廉。
卢涛称，中国市场作为AI芯片发展的一个重要市场，也是Graphcore布局的重点。 Graphcore将通过寻求云合作伙伴、OEM合作伙伴、渠道合作伙伴布局中国市场。
据悉，今年7月份以来， Graphcore接连推出多款软硬件产品，致力于在计算、数据、通信三方面实现颠覆性技术突破。
回顾Graphcore 7月份在中国市场的动作。 7月7日，软件开发工具Graphcore Poplar SDK 1.2发布、Graphcore Poplar计算图库源代码正式开源；7月8日， Graphcore推出基于IPU的开发者云；7月15日，专为AI任务设计的第二代IPU、机器智能刀片式计算单元IPU-M2000面世。一、IPU MK2：比MK1系统性能提升8倍以上
Graphcore推出的IPU（智能处理单元）是一种专为AI训练、推理任务设计的新型处理器，采用大规模并行同构众核架构，卢涛将其描述为“世界上最复杂的处理器” 。

本文插图

Graphcore第一代IPU MK1于2019年推出，据称相比NVIDIA V100 GPU ，能将自然语言处理（NLP）处理速度可提升20%～50% ，为图像分类带来6倍的吞吐量而且是更低的时延，在一些金融模型方面训练速度能够提高26倍以上。
第二代IPU MK2采用台积电7nm制程技术，在823平方毫米的面积上集成594亿个晶体管，算力可达250TFlops ，具有900MB处理器内存储，采用1472个独立处理器内核、8832个单独的并行线程。
相比第一代IPU MK1 ， IPU MK2系统性能提升了8倍以上。相比MK1 ， MK2达到2倍以上的吞吐量峰值、6倍以上的处理器内有效存储，具有超过446GB的IPU-Machine流存储，支持用于大规模横向扩展的IPU-Fabric横向扩展结构。

本文插图

在数据传输方面， Graphcore IPU采用的Exchange-Memory通信技术相比NVIDIA采用的HBM技术，带宽提升100多倍，容量提升大于10倍。
据悉， NVIDIA HBM技术的带宽为1.6TB/秒， IPU-Exchange-Memory技术带宽为180TB/秒；NVIDIA HBM技术的容量为40GByte ， IPU-Exchange-Memory技术容量为450GByte 。

本文插图

为了优化通信效果， Grapgcore采用专为AI设计的横向扩展结构IPU-Fabric 。该结构能达到2.8Tbps的超低时延，支持64000个IPU之间的横向扩展，可直接连接和/或通过以太网交换机连接，支持集合和全缩减操作。
卢涛称，在运行AI任务时，数据稀疏性越高， IPU的优势越明显。随着数据稀疏性升高， IPU性能可领先GPU 10倍～50倍。

本文插图

二、8个IPU-Machine M2000性能比肩16个NVIDIA A100
Graphcore IPU-Machine M2000是一款即插即用的机器智能刀片式计算单元，由Graphcore全新的7纳米Colossus第二代GC200 IPU提供动力，由Poplar软件栈提供支持。

本文插图

IPU-Machine M2000可提供1个PetaFlop的机器智能计算、450GB的Exchange-Memory ，具备2.8Tbps的IPU-Fabric超低时延通信。
另外， M2000的配置具备“弹性” ，从配置1个M2000到配置64个M2000均可。

本文插图

基于IPU-Machine M2000 ， Graphcore推出用于超大计算规模的模块化机架规模解决方案IPU-POD 。 IPU-POD基于IPU-POD64参考架构，每个机架最多部署两个IPU-POD64 ，最多可部署512个机架。
IPU-POD可无缝扩展多达64000个IPU ，这些IPU作为一个整体或作为独立的细分分区，可以处理多个工作负载以及满足不同用户需求。

本文插图

IPU-POD64参考架构可进行大规模、分散的横向扩展，从而将高性能的机器智能计算扩展到超级计算规模。

本文插图

根据Graphcore官方数据， M2000性能优于NVIDIA A100 GPU 。
用8个NVIDIA A100 GPU与8个Graphcore M2000进行比较，结果显示M2000解决方案的FP32算力超过A100解决方案12倍、AI计算算力超过A100解决方案3倍、AI存储能力大于A100解决方案10倍。

本文插图

在运行EfficientNet-B4图像分类训练任务时， 8个IPU-M2000可达到与16个NVIDIA DGX A100相同的运行效果。
价格方面， 8个IPU-M2000建议售价为259600美元， 16个NVIDIA DGX A100售价超过三百万美元。

本文插图

三、IPU开发者云：支持5种先进AI模型训练、推理任务
7月8日， Graphcore推出中国首款基于IPU的开发者云。 Graphcore IPU开发者云部署在金山云上，使用了IPU-POD64、浪潮IPU服务器NF5568M5和戴尔IPU服务器DSS8440 。
IPU开发者云支持一些当前最先进和复杂的AI模型的训练和推理。具体包括：
1、自然语言处理类，比如BERT；2、高级计算机视觉应用类，即以分组卷积为代表的一些机器视觉类的应用，比如ResNeXt、EfficientNet、ResNet；3、时序分析类，比如LSTM、RNN、GRU等大量应用于语音应用、广告推荐、金融算法的模型；4、排名与推荐类，比如Deep Autoencoder；5、概率模型，比如MCMC等用于算法交易的模型。

本文插图

目前， Graphcore IPU开发者云面向商业用户评测、高校研究项目、部分个人开发者提供免费试用。四、Poplar SDK：已开源计算图库源代码
底层硬件形态之上， Graphcore还推出了软件开发包The Poplar SDK 1.2 。
The Poplar SDK 1.2与领先的机器学习框架集成，具有强大灵活的低级别API ，增强了用于IPU上的PyTorch和Keras框架支持，具备新的库支持和功能，可用于改善机器学习模型的性能，支持用TensorFlow和PopART中的多机数据进行并行训练，公开Exchange-Memory的管理功能。
目前， Graphcore Poplar计算图库源代码已经开源，并可在GitHub上使用。罗旭称， Poplar工具将助力各位开发者“创建下一代机器智能” 。

本文插图

结语：Graphcore发力全球市场，将开设东京办公室
经过前期的潜心研发， Graphcore的IPU产品已迭代至第二代。与GPU不同， Graphcore研发的IPU是专为AI任务设计的处理器，在运行特定AI任务时性能优于传统的GPU 。
卢涛指出，目前Graphcore还未实现盈利，但对于一个新产品来说，前期的大量投入是不可避免的。他认为随着AI训练、推理的发展， IPU将拥有更大的市场。
【行业互联网|英国AI芯片创企发力中国训练/推理赛道，7月新品覆盖“云边端”】在产品更新迭代的同时， Graphcore开始在全球市场布局。目前， Graphcore在全球拥有13个分支机构，下一步计划在日本东京开设办公室。

行业互联网|英国AI芯片创企发力中国训练/推理赛道，7月新品覆盖“云边端”

推荐阅读

上海消防网|上海消防深入校园做好“开学日”火灾防控工作

婚姻中，脾气好的女人，往往都教不出好老公

星空|A股公司要入主罗永浩的公司，尚纬股份谋求星空野望控股权

烹饪|美食推荐：青椒炒杏鲍菇，荔枝虾仁，辣椒炒鸡，鸡蛋炒笋片

郑州情话女王|金牛不撞南墙不回头，摩羯撞了也不回，感情中特别执着的4个星座

大国鉴|将美轰炸机赶出内海，这才是大国实力！，大批苏35挂导弹起飞

传承发展工|回眸2020｜有关菏泽非遗的12件大事，条条都是重磅

羊血怎么做好吃法大全,羊血怎样做好吃羊血做法

青春励志偶像剧(18部超级甜的青春偶像剧)

「张敏」向华胜宠张敏9年，为她得罪红姑暴打王晶，为何转身恋上张玉珊？

华为：华为“p40”26日9点发布，爆料总结！

『巴塞罗那』本是无心插柳的一笔买卖，却可能为巴萨带来惊喜！

?身上脸上起了很多疙瘩

『利息』面对巨额的债务和逾期，保持理智很重要，不要傻傻的只会还钱

【】罚款2000元！深圳开出全国首张电子烟罚单

对于一个南方女生，独自去北上打工应该注意啥咋看〒_〒?

「约会」这样和你联系的男人，多半是在“消遣”你，直接拉黑就好

上海发布|松江又将多一处滨水休闲新去处！淀浦河景观带二期开工

小娘子|你才知道所谓的英伦风到底是怎么回事？，到了英国

华西都市报|北大“考古女孩”：希望好好学习不被外界过多打扰