我们需要一次怎样的数据架构变革?( 二 )

2.现代化应用需要什么样的数据架构作为支撑?既然现有数据架构难以支撑现代化应用的实现,一场数据架构变革势在必行 。这个新型数据架构要能够解决上述提到的问题,即需要拥有更高的扩展性、能够适应多样化的数据形态、有更高的数据处理能力和更低的延迟,当然还要有实现的路径和工具 。
相关技术方案与创新
当下,IT 界的最佳技术组合可能就是“云计算 + 人工智能” 。云计算解决了扩展性、数据存储、性能等问题,而人工智能技术则大大提高了数据分析和处理效率 。
云计算可以为现代化应用的峰值需求“无限续杯”与平稳运行时的“最佳能耗” 。作为云计算模型之一的 Serverless,在理论上可以自动适配应用从零到无穷大的需求峰值,更加擅长解决扩展性的问题 。
Serverless 架构的好处在于可以按需加载,这样应用便不会持续占用资源,只有在请求到达或有事件发生时才会被部署和启动,避免了成本浪费 。同时,Serverless 应用原生支持高可用,可以更好地应对突发的高访问量 。当数据库也 Serverless 化,就可以实现高度扩展性及容量自动伸缩,做到按量付费、降低支出成本,进一步解放数据库的管理和运维 。2012 年亚马逊公司推出的 Amazon DynamoDB 就是 Serverless 数据库 。
2007 年,亚马逊公司发表的关于 Key-value 存储的划时代论文《Dynamo: Amazon's Highly Available Key-value Store》解决的核心诉求就是满足“永远在线”的用户体验,提升其数据库的可用性、扩展性和性能,被认为是 NoSQL 的开山之作,之后催生了一系列 NoSQL 分布式数据库 。而 Amazon DynamoDB 就是 Dynamo 理念的正统实现,它正在驱动那些传统数据库难以承载的新一代高性能、互联网规模应用 。
以 Serverless 数据库为代表,云数据库正在迅速发展成熟,并带来更好的可访问性和高可用性,还有高扩展性与可迁移性 。此外,云数据库也降低了部署的难度和成本,不会给企业造成特别大的负担 。
面对大规模数据,传统数据库组件还存在业务类型不敏感、自动运维能力弱等问题,机器学习算法可以分析大量数据记录,标记异常值和异常模式,还可以在系统运行时自动、连续、无人工干预地执行修补、调优、备份和升级操作,尽可能减少人为错误或恶意行为,确保数据库安全、高效运行 。而亚马逊云科技在 re:Invent 上最新发布的 Amazon DevOps Guru for RDS 就可以帮助检测数据库问题、执行根本原因分析和推荐更改建议,甚至能够自动修复数据库问题 。
现代化应用最终是面向全球的,现在很多企业也在做全球化布局 。在这个过程中,全球分布式应用系统成为企业首选 。分布式系统中各个节点通过一个通信网络互联在一起,不仅方便通信还可以实现资源共享,也加快了计算速度 。不过,这也让企业的运维压力变大,同时存在一定的数据传输安全问题 。所以,自动化的、安全的部署非常重要 。
技术的选择永远伴随着一定性能的牺牲,很难有一个产品能够在性能、功能和可用性等方方面面都做到极致 。传统数据库厂商“一个数据库打天下”的做法已经无法满足需要 。按照不同的目的、使用场景构建不同类型的数据库产品,做到“专库专用”则是新数据架构的核心 。专库专用可以适配各种不同规模的应用程序,优先提供应用程序最需要的性能,可用性大大提高 。
3.如何实现架构现代化?架构的通俗理解就是,企业可以使用现代的数据架构来摆脱传统数据库的束缚,并有专用工具来完成基础设施的现代化 。当然这并不容易,很大程度上取决于厂商的能力 。
根据 Gartner 2020 全球云数据库魔力象限报告,亚马逊云科技持续保持创新与领先 。因此,我们以亚马逊云科技为例,看看其是如何为企业数字驱动转型助力的 。
三大重要特性,两大重要支持
首先,亚马逊云科技开创了 Serverless 数据库,来实现数据库的弹性伸缩,进一步简化企业创建、维护和扩展数据库的操作 。
亚马逊云科技旗下有五大 Serverless 数据库:Amazon Aurora、Amazon DynamoDB、Amazon Timestream(一种时间序列数据库服务)、Amazon Keyspaces(兼容 Apache Cassandra 的托管数据库服务)和 Amazon QLDB(一种全托管的分类账数据库) 。其中,Amazon Aurora 已经进化到 v2 版本,可以在一秒内将数据库工作负载从数百个事务扩展到数十万个事务,与为峰值负载配置容量的成本相比,最多可节省 90% 。
那么,Serverless 数据库的表现如何呢?华米科技健康云可以算得上是一个典型案例 。截至 2021 年 2 月 2 日,华米科技智能可穿戴设备记录的累计步数为 151 万亿步,累计睡眠记录 128 亿晚,心率记录总时长 1,208 亿小时 。华米科技健康云每天需要完成 TB 级数据的收集和存储,不仅需要存储的数据量巨大,同时还必须保证极高的数据安全性、稳定性和低延迟响应 。为了解决这些难题,华米科技健康云使用 Amazon DynamoDB 作为核心数据库,存储用户的健康及与运动相关的数据 。而 Amazon DynamoDB 在任何规模下都能提供延迟不超过 10 毫秒的一致响应时间,支持构建具有无限吞吐量和存储空间的应用程序,满足了华米健康云的数据存储需求 。此外,Amazon DynamoDB 的无服务器架构使用户无需预置、修补和管理任何服务器,也无需安装、维护或运行任何软件 。


推荐阅读