引领先锋|阿里P8大佬,由原理和实战出发,带你深入大规模分布式存储系统
写在前面随着社交网络、移动互联网、电子商务等技术的不断发展 , 互联网的使用者贡献了越来越多的内容 。 为了处理这些内容 , 每个互联网公司在后端都有一套成熟的分布式系统用于数据的存储、计算以及价值提取 。 Google 是全球最大的互联网公司 , 也是在分布式技术上相对成熟的公司 , 其公布的Google分布式文件系统GFS、分布式计算系统MapReduce、分布式表格系统Bigtable都成为业界竞相模仿的对象 , 最近公布的全球数据库Spanner更是能够支持分布在世界各地上百个数据中心的上百万台服务器 。 Google的核心技术正是后端这些处理海量数据的分布式系统 。 和Google类似 , 国外的亚马逊、微软以及国内互联网三巨头阿里巴巴、百度和腾讯的核心技术也是其后端的海量数据处理系统 。
分布式存储和当今同样备受关注的云存储和大数据又是什么关系呢?分布式存储是基础 , 云存储和大数据是构建在分布式存储之上的应用 。 移动终端的计算能力和存储空间有限 , 而且有在多个设备之间共享资源的强烈的需求 , 这就使得网盘、相册等云存储应用很快流行起来 。 然而 , 万变不离其宗 , 云存储的核心还是后端的大规模分布式存储系统 。 大数据则更近一步 , 不仅需要存储海量数据 , 还需要通过合适的计算框架或者工具对这些数据进行分析 , 抽取其中有价值的部分 。 如果没有分布式存储 , 便谈不上对大数据进行分析 。 仔细分析还会发现 , 分布式存储技术是互联网后端架构的“九阳神功” , 掌握了这项技能 , 以后理解其他技术的本质会变得非常容易 。
在这里 , 小编为大家推荐一篇前阿里高级技术专家整理撰写的 , 系统讲解构建大规模存储系统的核心技术和原理 , 详细分析Google、Amazon、Microsoft和阿里巴巴的大规模分布式存储系统的原理的学习秘籍 。
本书的目标是介绍互联网公司的大规模分布式存储系统 , 共分为四篇:
基础篇基础知识包含两个部分:单机存储系统以及分布式系统 。 其中 , 单机存储系统的理论基础是数据库技术 , 包括数据模型、事务与并发控制、故障恢复、存储引擎、数据压缩等;分布式系统涉及数据分布、复制、一致性、容错、可扩展性等分布式技术 。 另外 , 分布式存储系统工程师还需要一项基础训练 ,即性能预估 , 因此 , 基础篇也会顺带介绍硬件基础知识以及性能预估方法 。
【引领先锋|阿里P8大佬,由原理和实战出发,带你深入大规模分布式存储系统】本章首先介绍CPU、I0、网络等硬件基础知识及性能参数 , 接着介绍主流的单机存储引擎 。 其中 , 哈希存储引擎是哈希表的持久化实现 , B树存储引擎是B树的持久化实现 , 而LSM树(LogStructureMergeTree)存储引擎采用批量转储技术来避免磁盘随机写人 。 最后 , 介绍关系数据库理论基础 , 包括事务、并发控制、故障恢复、数据压缩等 。
分布式系统中有两个重要的协议 , 包括Paxos选举协议以及两阶段提交协议 。 Paxos协议用于多个节点之间达成一致 , 往往用于实现总控节点选举 。 两阶段提交协议用于保证跨多个节点操作的原子性 , 这些操作要么全部成功 , 要么全部失败 。 理解了这两个分布式协议之后 , 学习其他分布式协议会变得相当容易 。
推荐阅读
- 引领时尚新时代|她是饶雪漫书中的模特,和鹿晗在一起被赞般配,笑起来碾压林允!
- 引领时尚新时代|传闻她被渣男骗钱骗大肚子,无奈生下孩子给母亲抚养,气质美上天
- 引领时尚新时代|她是典型中国好媳妇,却嫁给相识不到20天的男友,穿搭霸气侧漏
- 引领时尚新时代|她从小就被亲爸说是捡来的,出道10年没谈过恋爱,美得让人着迷
- 集团|蚂蚁集团回复首轮问询函:与阿里业务范围有明显差异
- 封面新闻|7年投入近7000万 鼓励8253人 阿里巴巴发布2020年度正能量报告
- 首轮|蚂蚁集团回复首轮问询函:与阿里业务范围有明显差异
- 阿里巴巴|马云,江湖再见
- 阿里巴巴|华为和阿里巴巴谁的国际影响也更大,马云:你见过特朗普吗?
- 「宁静」宁静不管穿了个啥都能引领时髦,嫌T恤配牛仔裤不够炫,再加薄纱
