一致性哈希算法的介绍与实现
哈希函数 , 想必大家都不陌生 。通过哈希函数我们可以将数据映射成一个数字(哈希值) , 然后可用于将数据打乱 。例如 , 在HashMap中则是通过哈希函数使得每个桶中的数据尽量均匀 。那一致性哈希又是什么?它是用于解决什么问题?本文将从普通的哈希函数说起 , 看看普通哈希函数存在的问题 , 然后再看一致性哈希是如何解决 , 一步步进行分析 , 并结合代码实现来讲解 。
首先 , 设定这样一个场景 , 我们每天有1千万条业务数据 , 还有100个节点可用于存放数据 。那我们希望能将数据尽量均匀地存放在这100个节点上 , 这时候哈希函数就能派上用场了 , 下面我们按一天的数据量来说明 。
首先 , 准备下需要存放的数据 , 以及节点的地址 。为了简单 , 这里的数据为随机整型数字 , 节点的地址为从“192.168.1.0”开始递增 。
private static int dataNum = 10000000;private static int nodeNum = 100;private static List<Integer> datas = initData(dataNum);private static List<String> nodes = initNode(nodeNum);private static List<Integer> initData(int n) { List<Integer> datas = new ArrayList<>(); Random random = new Random(); for (int i = 0; i < n; i++) { datas.add(random.nextInt()); } return datas;}private static List<String> initNode(int n) { List<String> nodes = new ArrayList<>(); for (int i = 0; i < n; i++) { nodes.add(String.format("192.168.1.%d", i)); } return nodes;}
接下来 , 我们看下通过“哈希+取模”得到数据相应的节点地址 。这里的hash方法使用Guava提供的哈希方法来实现 , 后文也将继续使用该hash方法 。
public static String normalHash(Integer data, List<String> nodes) { int hash = hash(data); int nodeIndex = hash % nodes.size(); return nodes.get(nodeIndex);}private static int hash(Object object) { HashFunction hashFunction = Hashing.murmur3_32(); if (object instanceof Integer) { return Math.abs(hashFunction.hashInt((Integer) object).asInt()); } else if (object instanceof String) { return Math.abs(hashFunction.hashUnencodedChars((String) object).asInt()); } return -1;}
最后 , 我们对数据的分布情况进行统计 , 观察分布是否均匀 , 这里通过标准差来观察 。
public static void normalHashMain() { Map<String, Integer> nodeCount = new HashMap<>(); for (Integer data : datas) { String node = normalHash(data, nodes); if (nodeCount.containsKey(node)) { nodeCount.put(node, nodeCount.get(node) + 1); } else { nodeCount.put(node, 1); } } analyze(nodeCount, dataNum, nodeNum);}public static void analyze(Map<String, Integer> nodeCount, int dataNum, int nodeNum) { double average = (double) dataNum / nodeNum; IntSummaryStatistics s1 = nodeCount.values().stream().mapToInt(Integer::intValue).summaryStatistics(); int max = s1.getMax(); int min = s1.getMin(); int range = max - min; double standardDeviation = nodeCount.values().stream().mapToDouble(n -> Math.abs(n - average)).summaryStatistics().getAverage(); System.out.println(String.format("平均值:%.2f", average)); System.out.println(String.format("最大值:%d,(%.2f%%)", max, 100.0 * max / average)); System.out.println(String.format("最小值:%d,(%.2f%%)", min, 100.0 * min / average)); System.out.println(String.format("极差:%d,(%.2f%%)", range, 100.0 * range / average)); System.out.println(String.format("标准差:%.2f,(%.2f%%)", standardDeviation, 100.0 * standardDeviation / average));}/**平均值:100000.00最大值:100818,(100.82%)最小值:99252,(99.25%)极差:1566,(1.57%)标准差:240.08,(0.24%)**/
推荐阅读
- 《机器学习算法的几大分类》
- 最大熵强化学习算法SAC
- Python量化工具之“k线波幅加速”算法跟踪止盈,仅需一行代码
- 百度搜索正式升级冰桶算法5.0
- 加解密算法分析
- 字节跳动面试必会:快速选择算法,TopK问题最优解
- 插入排序算法解析
- 回溯算法的题目,这样做,秒杀
- 降维算法:主成分分析 VS 自动编码器
- 利用YOLOV3检测算法来实现人物定位与距离计算,打造全球定位系统