一致性哈希算法的介绍与实现

哈希函数 , 想必大家都不陌生 。通过哈希函数我们可以将数据映射成一个数字(哈希值) , 然后可用于将数据打乱 。例如 , 在HashMap中则是通过哈希函数使得每个桶中的数据尽量均匀 。那一致性哈希又是什么?它是用于解决什么问题?本文将从普通的哈希函数说起 , 看看普通哈希函数存在的问题 , 然后再看一致性哈希是如何解决 , 一步步进行分析 , 并结合代码实现来讲解 。
首先 , 设定这样一个场景 , 我们每天有1千万条业务数据 , 还有100个节点可用于存放数据 。那我们希望能将数据尽量均匀地存放在这100个节点上 , 这时候哈希函数就能派上用场了 , 下面我们按一天的数据量来说明 。
首先 , 准备下需要存放的数据 , 以及节点的地址 。为了简单 , 这里的数据为随机整型数字 , 节点的地址为从“192.168.1.0”开始递增 。
private static int dataNum = 10000000;private static int nodeNum = 100;private static List<Integer> datas = initData(dataNum);private static List<String> nodes = initNode(nodeNum);private static List<Integer> initData(int n) {    List<Integer> datas = new ArrayList<>();    Random random = new Random();    for (int i = 0; i < n; i++) {        datas.add(random.nextInt());    }    return datas;}private static List<String> initNode(int n) {    List<String> nodes = new ArrayList<>();    for (int i = 0; i < n; i++) {        nodes.add(String.format("192.168.1.%d", i));    }    return nodes;}接下来 , 我们看下通过“哈希+取模”得到数据相应的节点地址 。这里的hash方法使用Guava提供的哈希方法来实现 , 后文也将继续使用该hash方法 。
public static String normalHash(Integer data, List<String> nodes) {    int hash = hash(data);    int nodeIndex = hash % nodes.size();    return nodes.get(nodeIndex);}private static int hash(Object object) {    HashFunction hashFunction = Hashing.murmur3_32();    if (object instanceof Integer) {        return Math.abs(hashFunction.hashInt((Integer) object).asInt());    } else if (object instanceof String) {        return Math.abs(hashFunction.hashUnencodedChars((String) object).asInt());    }    return -1;}最后 , 我们对数据的分布情况进行统计 , 观察分布是否均匀 , 这里通过标准差来观察 。
public static void normalHashMain() {    Map<String, Integer> nodeCount = new HashMap<>();    for (Integer data : datas) {        String node = normalHash(data, nodes);        if (nodeCount.containsKey(node)) {            nodeCount.put(node, nodeCount.get(node) + 1);        } else {            nodeCount.put(node, 1);        }    }    analyze(nodeCount, dataNum, nodeNum);}public static void analyze(Map<String, Integer> nodeCount, int dataNum, int nodeNum) {    double average = (double) dataNum / nodeNum;    IntSummaryStatistics s1        = nodeCount.values().stream().mapToInt(Integer::intValue).summaryStatistics();    int max = s1.getMax();    int min = s1.getMin();    int range = max - min;    double standardDeviation        = nodeCount.values().stream().mapToDouble(n -> Math.abs(n - average)).summaryStatistics().getAverage();    System.out.println(String.format("平均值:%.2f", average));    System.out.println(String.format("最大值:%d,(%.2f%%)", max, 100.0 * max / average));    System.out.println(String.format("最小值:%d,(%.2f%%)", min, 100.0 * min / average));    System.out.println(String.format("极差:%d,(%.2f%%)", range, 100.0 * range / average));    System.out.println(String.format("标准差:%.2f,(%.2f%%)", standardDeviation, 100.0 * standardDeviation / average));}/**平均值:100000.00最大值:100818,(100.82%)最小值:99252,(99.25%)极差:1566,(1.57%)标准差:240.08,(0.24%)**/


推荐阅读