Couchbase完美的分布式 NoSQL数据库 viber宣布使用Couchbase替换Mongo

简介
官网地址：https://www.couchbase.com/
Couchbase是一个较新的、发展迅速的nosql数据库技术。 2014年， viber宣布使用Couchbase替换Mongodb ，以适应10亿级的用户量，目前， Couchbase已大量运用于生产环境，国内使用的公司主要有新浪，腾讯等。
Couchbase是CouchDB和MemBase的合并。而memBase是基于Memcached的。因此Couchbase联合了Couchbase的简单可靠和memcached的高性能，以及membase的可扩展性。
灵活的数据模型：Couchbase中使用json格式存储对象和对象之间的关系。
【Couchbase完美的分布式 NoSQL数据库】Nosql数据库的一个特性是不需要定义数据结构，在Couchbase中，数据可以存储为key-value对或者json文档，不需要预先定义严格的格式，由于这种特性， couchbase支持以scaleout（水平扩展）方式扩展数据量，提升io性能，只需要在集群中添加更多的服务器就行了。相反，关于数据库管理系统scaleup（纵向扩展），通过加更多的CPU ，内存和硬盘以扩展容量。

文章图片
Couchbase可用于单机环境，也可以和其他服务器一起提供分布式的数据存储。
特点
CouchBase是在memcached和redis之类缓存组件的基础上发展而来的，被称作为可能是最好的缓存系统。所以必然能满足之前的前辈所满足不了的地方。传统的缓存组件包括memcached和redis有着这种或者那种的缺点：
Cluster支持完善度不够或者直接没有Cluster
没有良好的高可用性机制，持久化支持的亦不是很完善
扩容和故障恢复能操作维护复杂
其他
而CouchBase则对上面的一些缺点都有着良好的支持。或者说
CouchBase所提供的任何单一功能，在市面上基本上都能找到一款数据库能够满足。但是这些数据库实际使用的话总是会有各种各样的妥协，性能很好的话，扩展性可能很差之类的。而CouchBase的目标就是建立一个大系统，各种功能都包含可用，所谓接近完美的数据库。
技术特征
数据存储
Couchbase通过使用buckets提供数据管理服务， buckets相当于关系数据库中的库， Couchbase中没有表的概念，保存数据时，先建bucket ，然后就直接插入数据了。 buckets可以供集群中的多个客户端程序访问。 Couchbase通过Buckets组织，管理和分析数据资源。
Couchbase中有两种类型的数据bucket ，当启动Couchbase服务的时候，可以选择需要的类型。
1)memcachedbuckets 。只将数据存储在内存中。提供了一个分布式的(横向扩展) ，纯内存的， key-value缓存。 Memcachedbuckets设计用于关系数据库的缓存，可以缓存经常访问的数据，由此减少web程序中数据库的查询次数。
2)couchbasebuckets 。存数据在内存和硬盘。提供高可用性和可动态重新配置的分布式数据存储，提供数据持久化和复制服务。 couchbasebuckets100%兼容开源的分布式缓存memcached
内存分配
ServerQuota：
Couchbase服务初始化时会给服务器分配内存限额，表示这个服务器中可用的最大内存，是node级的。初始配置在集群中的第一台服务器(node)上，所有服务器的内存配额都是一样的。例如集群中有10台服务器，服务器内存配额是16G ，整个集群中共160G可用内存。如果需要加2个新的服务器，每个新的服务器需要16G的可用内存，集群中可用的内存数将是192G 。
BucketQuota:
Bucket内存配额是分配给一个bucket的可用内存。配置在每个节点上，是从serverquota中分配出去的。例如，如果你创建了一个新的bucket ，限额是1GB ，在10个节点的集群中，汇总后会有10G 。如果添加两个节点，集群中汇总后会有12G的bucket限额。

文章图片
从图上可以看出，增加新的节点就可以扩展总的可用内存，从而增加存储的数据量。通过bucket限额系统可以判断数据是否应该调出内存。
vBucket
vBucket相当于一个key的子集，保存的是客户端存储对象的key值， vBuckets用于在集群的节点间分配数据和备份数据。是couchbase实现autosharding ，在线动态增减节点的重要基础。不是用户可访问的组件，但是至关重要。
通过vbucket ，客户端直接访问保存信息的服务器，不需要通过中间代理或者其他架构，因此可以从数据中抽象出物理拓扑结构。这种方式使couchbase易扩展。
这种架构不同于memcached使用的架构， memcached的做法是用key算出一个hash ，得到服务器列表中的对应服务器。这个列表需要动态维护，还需要一个hash算法用于处理集群拓扑结构的变化。
如以下代码所示：
servers=['server1:111','server2:112','server3:113']server_for_key(key)=servers[hash(key)%servers.length]
这种算法很简单，也很容易理解，但也有几个问题：
1、如果一台服务器失效，会造成该分片的所有key失效。
2、如果服务器容量不同，管理非常麻烦。
3、运维、配置非常不方便。
为了把key跟服务器解耦， couchbase引入了vBucket 。每个key都属于一个vbucket ，查找对应的value时先用hash函数计算这个key属于哪个vbucket ，再从vBucket与服务器对应表中查找这个vbucket属于哪个服务器，映射表保存vbucket和服务器的对应关系，一个bucket一行，一个服务器可以对应多个vbucket 。
1、keyhash对应一个vBucket ，不再直接对应服务器。
2、集群维护一个全局的vBucket与服务器对应表。
例如，集群中有3个服务器，客户端要查找一个key对应的value值，首先计算key属于哪个Vbucket ，在这个例子中， hash结果是vB8 ，通过查映射表，客户端确定vB8对应到服务器C ，然后get操作直接发送到服务器C 。

文章图片
一段时间后，需要加一个新的服务器D到集群， vbuckets映射表更新为：

文章图片
这时，客户端再想取key对应的value值， hash算法结果仍为vB8 ，但是新的映射表会将vB8映射到服务器D 。
由于vBucket把key跟服务器的静态对应关系解耦合，基于vBucket可以实现一些非常强大有趣的功能，例如：
Replica ，以vBucket为单位的主从备份。如果某个节点失效，只需要更新vBucket映射表，马上启用备份数据。
动态扩容。新增加一个节点后，可以把部分vBucket转移到新节点上，并更新vBucket映射表。
缓存管理
Couchbase自动管理缓存层，确保有足够的内存空间以维持性能。 couchbase后台有个进程，专门把一定时间没有被访问的数据移出内存，这个进程的扫描时间和数据的最大无活动时间都是可以设置的。 couchbase在对数据进行增删时会先体现在内存中，而不会立刻体现在硬盘上，从内存的修改到硬盘的修改这一步骤是由couchbase自动完成，等待执行的硬盘操作会以writequeue的形式排队等待执行，也正是通过这个方法，硬盘的I/O效率在writequeue满之前是不会影响couchbase的吞吐效率的，而writequeue的长度是可以设置的。通过writequeue执行大量写数据库操作时用户可能会感受到很短时间的内存飙升，但是异步特性和queue的使用使读写速度都非常快。
对于所有文档couchbase都会建立一个额外的56byte的metadata ，这个metadata功能之一就是表明数据状态是否活动在内存中。同时文档的id也作为标识符和metadata一起长期活动在内存中。这表示对文档id不存在的情况服务器可以直接返回‘文档id不存在。 couchbase官方建议bucket申请的内存中， metadata和key所占用的内存不应超过一半，否则couchbase的性能会显著下降。为了保证这个条件，当有效数据占用超过一定内存时就需要把超额数据移除了。

文章图片
这里有低水位和高水位的概念，也就是说当移除数据过多以至于内存中有效数据占用内存低于低水位的时候， couchbase会随机挑一些文件到内存中以达到低水位。当有效数据内存占用超过高水位时， couchbase就会移除数据。高低水位都是可以设置的。
随着内存数据越来越多，会逐渐到达低水位，这时候，系统不会做任何处理。当数据量持续增加，到达高水位时，系统会启动一个job任务移除数据，当到达低水位时任务停止。如何进入数据的速度大于移除数据的速度，系统会返回空间不足的错误提示，直到有足够的内存为止。
如果只使用memcachedbuckets ，服务器只提供数据缓存，不会持久化到硬盘。如果服务器内存空间不足，系统会使用LRU算法从内存中Eviction数据， Eviction表示服务器会移除一个数据项的key ， metadata和所有其他信息。 Eviction后，数据将无法恢复。
数据持久化
考虑到性能， couchbase服务主要使用缓存为客户端保存和返回信息，同时会逐渐将数据保存到硬盘以维持高可靠性。如果有节点fail了可以直接从硬盘恢复数据，数据是逐渐持久化到硬盘的，同时保存到缓存层和硬盘writequeue,不会阻塞客户线程。当客户端访问一个不在内存的数据时，持有loadqueue的进程会将数据读到内存，在数据返回之前客户端需要等待。
多线程读写：之前的couchbase版本，读写硬盘的线程只有一个。为了提高读写硬盘的速度和提高缓存命中率，现在couchbase提供了多线程读写。

文章图片
多线程读写需要考虑线程之间的同步问题以避免冲突。为了维持性能和避免冲突， couchbase对每个线程访问的资源进行了静态分配，同时使用了资源锁。当创建多个读写线程时，服务器为每个线程单独分配了不同的vbuckets 。通过这种静态协调方式，可以保证同一个vbuckets只有一个读线程和一个写线程可以访问。上图表示6个线程和两个数据vbucket 。每个线程有预先分配的可读写范围。
负载均衡
Couchbase服务器上数据的分配方式是通过vbucket结构实现的，如果想增加或减少集群中的机器， vbuckets中存储的数据都需要重新分配， vBucketmap（映射表）也需要更新以适应新的集群结构。
Rebalancing是集群结构发生变化时的数据调整，需要手动操作，这个过程改变vbuckets到服务器的分配，需要在服务器节点之间迁移数据以适应新的结构。
Rebalancing过程可以发生在集群运行和提供服务时，客户端使用现有架构读写数据，同时后端在节点之间迁移数据。一旦这个过程完成，更新vBucketmap表，并通知smartclients和代理服务(MOxi).
Rebalancing后数据在集群中重新分配，因此数据被均匀分配到整个数据库，这个过程需要考虑数据和数据的副本。
总结
数据存储：nosql ，易水平扩展。
缓存层：低水位和高水位设置，文档metadata 。
vBucket：使系统易于动态管理，自动分片， reblancing 。
多线程持久化：预分配每个线程的访问范围，保证性能和可靠性。

Couchbase完美的分布式 NoSQL数据库

推荐阅读

烤核桃仁的温度和时间是多少？

穿搭|微胖姑娘用一件连衣裙，穿出“魔鬼”般迷人身材

2022年考大学要多少分才能上

手相学生肖星座运势|贵人扶持，事业有成，喜迎上上签，富贵缠身的3生肖，7月11日~16日

宝宝热了大便是什么样

3DM游戏网|满级时，副驾驶雷丁瓦特技能科幻先锋，缘分技能1能增加多少生命值

弗兰克-沃格尔|最烂防守成耻辱！詹皇“字母哥化”，湖人会被掘金逆转吗？

&amp|《第一财经&润灵评级中国科创板上市公司ESG报告》重磅发布（附链接）

当年周海媚竟然与周慧敏争抢黎明！连王祖贤都想横插一脚！

如何回奶(喝了三天麦芽水后悔回奶)

『洋哥爱生活』实则三分钟热度容易劈腿的星座，满嘴承诺

彩云时尚编发|过膝裙会稍显含蓄，同时也不失清凉，知性娴静的女生比较较青睐

【ig】网友扒出：JKL在转会期这波操作，直接坑了6个LPL职业选手！

小米黄豆豆浆的好处

车澈@货车侧翻起火，一车Iphone手机就这么…烧烧烧了

蔡国庆被确诊，躺又躺不平，卷又卷不起！《披哥3》中的不老男神

最容易让人生病的不良心理情绪有哪些？

梭幸聊历史|种花生如何播种？每个坑穴放8粒种子可行吗？

中国乒乓球队新一届教练组名单公布刘国梁：如不及格自罚零薪

阳性|每经22点丨青岛回应核检结果查询：阳性会迅速采取措施，没联系的就是阴性；预计两天后实现全市1100万人核酸检测