业务|云计算十年:阿里云第三代神龙云服务器如何挑战摩尔定律极限

业务|云计算十年:阿里云第三代神龙云服务器如何挑战摩尔定律极限
图片

经济观察网采访人员 陈伊凡 7月15日 , 一袭粉色衬衫的张献涛站在屏幕前 , 通过钉钉直播2020阿里云弹性计算产品年度发布会 , 在会上宣布推出第三代神龙云服务器——目前整体算力最强的服务器 , 比目前全球最顶级云服务器的综合性能要快30%以上 。
张献涛是阿里云弹性计算产品线负责人 , 经历云计算从无到有、从弱到强 , 在云计算一线已经工作15年 。 过去十年 , 阿里云的存储性能提升了2000倍 , 网络性能提升了500倍 , 整体算力以平均每12个月翻一番的速度增长 , 向摩尔定律的极限发起挑战 。 “十年时间的发展 , 我们重构了整个计算的服务模式 。 ”张献涛说 。
在阿里内部 , 神龙架构已经大规模应用于淘宝、天猫、菜鸟等业务 , 解决高峰值的性能瓶颈问题 。 在发言和后续的采访中 , 张献涛解释了当初为何阿里决定自研神龙 , 十年间企业需求的变化以及未来迭代的方向 。
变化的客户需求
“十年前 , 我们可能更多是劝客户上云 , 但今天是和他们一起探讨如何选好云、用好云 , 解决性能、稳定性、弹性等这些方面的诉求 。 ”这是在一线的张献涛发现的变化 。
客户们的诉求 , 在过去10年间变得更加清晰 , 第一诉求是业务永续 , 第二是性能极致 , 第三就是对资源的极速、弹性诉求 , 第四个是自助服务 。
这样的需求变化其实不难理解 。 对于传统数据中心 , 经常会碰到各种由于硬件故障或IDC故障导致宕机的问题 , 这些企业上云后 , 期待云计算能够解决他们业务永续的问题 。
这也给云计算带来新挑战 。 “过去几年 , 我们不断做产品和技术方面的创新 , 我们有上百万台服务器 , 积累大量硬件故障相关的信息 , 通过人工智能及其学习的模式 , 对一个即将要发生故障的硬件进行提前预测 , 在发生故障之前 , 就把客户的业务通过热迁移模式 , 迁移到一台好的机器上 , 避免业务中断 。 ”
此外 , 企业上云的另一个关注点就是如何提高业务性能 。 阿里的做法是自研神龙计算平台、盘古存储平台和洛神网络平台 , 通过这种软硬件结合的方式提升计算的效率 。 去年 , 阿里云发布了自研的针对人工智能业务的含光芯片加速器 。
每个业务都可能有波峰波谷 , 当波峰到来时 , 对应的平台算力就要提升 , 否则业务就会受到影响 。 像有社会热点发生时 , 微博需要弹出几倍算力去应对热点事件 , 需要在几分钟内弹出几十万核甚至上百万核的算力 , 去应对突增的业务访问请求 。
张献涛解释 , 这在传统IT时代很难完成 , 因为IT资源的扩充需要以月为单位来满足 。 “云计算时代 , 使用弹性计算产品可以在几分钟内弹出50万核来应对这种突发业务 。 ”他们现在在底层平台也进行一些优化 , 和达摩院的算法科学家进行合作 , 对客户的业务负载做一些预测 。
除了以上三点变化 , 客户还体现出自助服务的诉求 。 “也许客户没有提出这个诉求 , 但我们在和他们沟通的过程中发现 , 他们其实遇到了这方面的问题 , 在迁云阶段 , 也为了解决迁移上云难的问题 , 开发了一键式的迁移上云服务中心 , 还有一些自动化诊断、自动化运维编排的能力 , 能够让企业们免去人力运维 。 ”
自研神龙
一直以来 , 性能损耗是虚拟化技术无法规避的难题 , 无论服务器多先进 , 只要是虚拟化 , 就一定会有部分性能要用在虚拟化调度上 , 这也是整个云计算行业尚未被解决的问题 。
很多企业使用虚拟机和虚拟化管理系统的宿主机是 “共处一室” , 这会导致资源的争抢 , 带来虚拟机计算能力的波动 。 云厂商没法把这台机器的全部算力给到客户 。 例如 , 一个32核的物理服务器 , 云厂商只能把16核或20核给到客户 , 剩下的12核需要对存储、网络进行虚拟化 。


推荐阅读