大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路


把时钟向回拨过半年 , 2019年的双11购物狂节 , 似乎和每年的双11没有什么不同 , 依然是刷新着日订单世界纪录 , 尽管54.4万笔/秒的订单量 , 已经是2009年第一次双11的1360倍 , 但这一切放在阿里巴巴身上 , 就感觉是那么的理所应当 。
其实 , 这个没有硝烟的战场背后 , 却有着不同寻常的故事 , 阿里巴巴早已悄悄将数以十万计的服务器迁移到了公有云上 , 做到了核心系统100%跑在阿里云公共云上 。 而核心电商业务应用大规模部署在自研的神龙裸金属服务器上 , 这亦是“神龙”首次经受真正意义上的大规模实战考验 。
我们都知道 , 神龙云服务器的诞生是为了获得超越物理机的性能 , 并兼有有虚拟机的体验 。 换言之 , 神龙解决虚拟化损耗的初衷 , 就是为了获得极致性能而来的 。
所以从2017年到2020年 , 三代神龙服务器的架构迭代 , 本质是就是对服务器性能极限的一次“冲刺” 。
大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图

7月15日 , 阿里云宣布推出第三代神龙云服务器 , 与上一代相比 , 第三代神龙云服务器的综合性能提升高达160% , 比目前全球最顶级云服务器还要快30%以上 , 整体算力全球最强 。
弹性的代价 , 虚拟化之殇
从2006年 , 亚马逊正式发布AWS算起 , 公有云行业已经足足走过了14年 。 云计算从理念被接受 , 到公有云形成互联网的技术洪流 , 最近几年才到了企业客户上云的时代 。 我们知道 , 企业客户本身通常有传统IT的基础 , 它们对云的思考维度更多 , 思维也更缜密 。
早期的公有云 , 较为粗放的通过虚拟机来分配计算力 , 但虚拟机的计算能力、平稳性、弹性由下沉的虚拟化软件 , 而不是虚拟机来完成的 。 所以 , 必然会导致资源争抢、算力损失、性能瓶颈 , 同时也难以支持裸机服务 。
虚拟化固然是云计算的基础 。 软件定义的方式来管理数据中心的计算资源 , 让云计算厂商可以根据企业需求输出计算能力 , 但弹性能力的代价则是以牺牲性能损耗的形式来换取的 。
正是这些原因让当时的企业用户对公有云产生了一些排斥 , 部分企业在尝试了上云之后 , 又回归传统IT的怀抱 , 但这绝非公有云之过 , 而是虚拟化之殇 。
大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图

阿里云弹性计算负责人张献涛说 , 企业用户需要更强的计算性能、需要更快的网络接入、更高的存储读写能力 , 存储的IOPS要高、网络的PPS要高、网络的带宽存储能力要高 。 解决所有这些问题的根源就在于变革虚拟化技术 。

在阿里云的成立之初 , 也是采用了开源虚拟化软件XEN , 做到了准虚拟化 , 后来在2014年升级到KVM架构 , 后者在在虚拟机和硬件之间加了一个软件层 , Hypervisor , 直接运行在物理硬件之上 , 大幅降低了虚拟化性能损耗 。
但这并不足够 , 一个大胆的想法 , 慢慢在阿里内部滋生 。
三代神龙 , 冲刺极限性能 2016年阿里云秘密启动了一项代号为“X-Dragon”的项目 , 次年即推出了首款自研神龙云服务器第一代 。
神龙诞生的本质就是软硬融合的虚拟化技术 。 而最早的神龙第一代服务器 , 还做不到追求真正的极致性能 。 它更多的是解决上云后如何支持裸机服务 , 但是又不能是传统的物理机 , 需要充分和云计算基础设施融合 。
大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路
本文插图
【大数据&云计算|阿里云神龙Ⅲ:极限性能的探索之路】

为了实现超越物理机的性能 , 有虚拟机的体验 , 阿里云设计了神龙MOC卡 , 通过神龙芯片做高速数据面的转发 , 并通过芯片加速引擎 , 存储EBS、网络 , 所有管控面的东西 , 都下沉到芯片中 , 让所有的接口都和虚拟机保持一致 。 最终实现了一张芯片其实解决所有问题 , 物理机可以使用云存储、VPC网络、挂载本地盘的问题 。


推荐阅读