亚马逊|亚马逊网络服务启动Nvidia Ampere驱动的实例
亚马逊网络服务(AWS)宣布了一个新的基于GPU的实例Amazon P4d的可用性,该实例基于Nvidia的新Ampere架构,并且两家公司都在宣称性能 。
AWS十年来一直提供基于GPU的实例,最新一代的实例称为P3 。AWS和Nvidia都声称,与P3实例相比,P4d实例在机器学习培训和高性能计算工作负载方面的性能提高了三倍,成本降低了60%,GPU内存增加了2.5倍 。
根据Nvidia的说法,与默认的FP32精度相比,使用FP16实例可以将机器学习模型的训练时间减少三倍,而使用TF32则可以将训练时间减少多达六倍,但是还可以训练更大,更复杂的模型 。
这些也是一些重量级的实例 。在一个EC2实例中,具有八个Nvidia A100 GPU的P4d实例能够提供高达2.5 petaflops的混合精度性能和320GB的高带宽GPU内存 。AWS表示,P4d实例是第一个通过Elastic Fabric Adapter(EFA)和Nvidia GPUDirect RDMA网络接口提供400 Gbps网络带宽的设备,以实现跨服务器的GPU之间的直接通信,从而降低延迟和提高扩展效率 。
每个P4d实例还提供96个Intel Xeon可扩展(级联湖)vCPU,1.1TB系统内存和8TB本地NVMe存储,以减少单节点训练时间 。通过将上一代P3实例的性能提高一倍以上,P4d实例可以将训练机器学习模型的成本降低多达60% 。
“随着数据变得越来越丰富,客户正在训练具有数百万甚至数十亿个参数的模型,例如用于自然语言处理以进行文档摘要和问题解答,用于自动驾驶汽车的对象检测和分类,用于大规模内容审核的图像分类等参数,电子商务网站的推荐引擎,以及智能搜索引擎的排名算法,所有这些都需要增加网络吞吐量和GPU内存 。” AWS在一份声明中说 。
该公司表示,客户可以使用带有Amazon Elastic Kubernetes服务(Amazon EKS)或Amazon Elastic Container Service(Amazon ECS)库的AWS深度学习容器运行P4d实例 。为了获得更全面的管理体验,客户可以通过Amazon SageMaker使用P4d实例,该实例旨在帮助开发人员和数据科学家快速构建,训练和部署ML模型 。
HPC客户可以将AWS Batch和AWS ParallelCluster与P4d实例结合使用,以帮助协调作业和集群 。P4d实例支持所有的ML学习框架,包括TensorFlow,PyTorch和Apache MXNet,使客户可以灵活地选择他们喜欢的框架 。
【亚马逊|亚马逊网络服务启动Nvidia Ampere驱动的实例】P4d实例在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区可用,并计划在不久的将来提供更多的可用性 。AWS实例的起价为每小时32.77美元,但一年保留实例的价格降至每小时19.22美元,三年下来为11.57美元 。
推荐阅读
- 新冠病毒疫苗|烟台即将有序启动新冠病毒疫苗接种
- iter|国际热核聚变实验堆(ITER)产氚实验包层项目在成都启动
- 钟南山|广东又一重大科研平台启动建设,钟南山寄予厚望
- 月光花|见识一下:最罕见的亚马逊月光花花开瞬间
- 毅力号|NASA“毅力号”首次启动并在火星表面留下足迹
- 广东|投票啦!广东省十佳科普教育基地评选活动启动,你心水的是哪个?
- 乙肝|乙肝在研新药VBI-2601,联合2期研究,预计第一季度启动
- 亚马逊热带雨林|被称为地球禁区的亚马逊雨林,为什么没人穿越,可怕在哪些地方?
- 新冠病毒|“活体”试验?英国将启动使用健康人感染新冠病毒的实验
- 新冠疫苗|这地启动大规模接种!节后接种第二剂次新冠疫苗,一定要注意这些事
