下一个十年,我们需要一款什么样的 OLAP 数据库?

作者 | 陈明雨 责编 | 梦依丹
身处在日新月异的时代,我们见惯了技术的兴起与繁荣、变迁与衰落,甚至是朝荣夕灭 。信息技术以前所未有的速度更迭,给周遭事物带来了颠覆性地变化 。数据库亦是如此,无数数据库悄然湮没在技术更迭的浪潮里,直到在浩渺如海的代码片段中都找不到些许印记 。而有的则历久而弥新,经受了时间的考验,彰显出强大的生命力,并以更加繁茂的姿态扎根生长 。

下一个十年,我们需要一款什么样的 OLAP 数据库?

文章插图
十年对于数据库意味着什么?
十年对于数据库而言,可能是一段从诞生到消逝的完整软件生命周期,也可能是迈过里程碑之后的全新旅程 。
所以从 MySQL 1.0 版本诞生,到具备颠覆性意义的 MySQL 5.7 版本正式发布,时间跨度刚好是十年,而十年之后的故事,大家已经都知道了 。
所以从 Benoit、Thierry、Marcin 联合创建 Snowflake,到在纽交所成功上市、成为软件行业有史以来最大规模的 IPO,再到全面开启云数据仓库时代,时间跨度也差不多十年 。
而对于 Apache Doris,十年意味着什么?
留个悬念,在回答这个问题之前,我们不妨来回顾下社区发展历程 。
尽管最早的历史可以追溯到 2008 年的百度凤巢广告系统,但彼时非 SQL 的单机查询引擎加 KV 存储系统在产品形态上与 OLAP 还有着较大的差异 。
正式确立 OLAP 数据库这一形态是在 2013 年 。通过自研全列式存储引擎 OLAP Engine 并基于 Apache Impala 改造了全新的 MPP 查询引擎,自此,Doris 真正成为了具备大数据量下高效支持数据分析能力的 OLAP 数据库,并在百度内部大规模应用,成为了百度内部统一的 OLAP 分析平台 。
往往一个内部项目的发展会有两种演进模式,一种是随着需求的增加系统架构日益臃肿,当面对较为灵活的需求,常因改动成本过大而被彻底重构 。另一种则是长期服务某一固定场景、需求逐渐收敛乃至停滞,最终被快速革新的外部技术彻底取代 。而开源则是内部项目的一场新生,在更广阔的应用场景、更多样的开发者群体以及更高效的研发模式加持下开启新的篇章 。
于是在数个版本的迭代与优化后,2017年 Doris 的前身在 GitHub 上开源,2018 年进入 Apache 基金会孵化,并正式更名为 Apache Doris 。(GitHub 地址:https://github.com/apache/doris)
时至 2022 年,正是 Apache Doris 在 OLAP 领域深耕的十年之际 。
Apache Doris 2022 回顾
2022 年,外部世界正处在前所未有的变化之中,无数魔幻时刻在现实中发生 。需要庆幸的是,技术和开源的力量帮助我们穿越了许多不确定性 。而这一年势必成为 Apache Doris 发展历程中有着浓墨重彩的一年,我们从几个角度来回顾一下 Apache Doris 过去一年的发展:
社区重要指标
下一个十年,我们需要一款什么样的 OLAP 数据库?

文章插图
过去一年中:
  • 社区累计贡献者的数量从 200 余位增长至近 420 位,同比增长超过 100%,目前仍在持续上升中 。
  • 每月活跃贡献者的数量从 50 位增长至 100 位,同样呈现翻倍增长的趋势 。
  • GitHub Star 数量从 3.6k 增长至 6.8k,多次登上 GitHub Trengding 日/周/月度榜单前列 。
  • 全部 Commits 数量从 3.7k 增长至 7.6k,过去一年新提交代码量超越了以往多年累加总和 。

下一个十年,我们需要一款什么样的 OLAP 数据库?

文章插图
从这些数据中,我们可以感受到 2022 年是 Apache Doris 全面爆发的一年,各个维度数据指标几乎都有了 100% 的增长 。这一年的努力也使 Apache Doris 成为了全球大数据和数据库领域最为活跃的开源社区之一,上方 GitHub Contribution 增长趋势图更是证明了这一点 。而这一切,正是由社区所有的用户和开发者共同创造的 。
另外值得纪念的是,在 2022 年 6 月,Apache Doris 迎来了开源以来最重要的里程碑之一,正式从 Apache 孵化器毕业、成为了 Apache 顶级项目 。
下一个十年,我们需要一款什么样的 OLAP 数据库?

文章插图
开源用户规模
得益于社区成立的专职工程师团队,为 Apache Doris 社区用户提供义务的技术支持,2022 年我们在用户连接与沟通方面变得更加顺畅,可以更直面用户、去倾听用户真实的声音 。
在过去的一年里,Apache Doris 已经在互联网、金融、电信、教育、汽车、制造、物流、能源、政务等数十个行业应用落地,尤其是在以海量数据著称的互联网行业 。在中国市值或估值排行前 50 的互联网公司中,有 80% 企业在长期使用 Apache Doris 来解决自身业务中的数据分析问题,其中包含了百度、美团、小米、腾讯、京东、字节跳动、网易、新浪、360、 米哈游、知乎等头部知名企业 。


推荐阅读