向量数据库落地实践 _向量数据库

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://Github.com/vearch/zh_docs/blob/v3.3.X/docs/source/overview.rst
探索
初次认识向量数据库，一脸懵逼？
向量是什么？如何将文本转换为向量？如何确定维度？如何定义表结构？如何选择索引方式，建表参数如何配置？检索参数如何配置？分片数副本数如何选择等等
随着对文档的逐渐熟悉以及和vearch相关同事的沟通，以上问题迎刃而解，具体的不再赘述。主要记住以下几点：
1、文本转向量：采用大模型网关接口 domAIn/embeddings 传入对应的模型如：text-embedding-ada-002-2和待转换的文本即可；
2、向量维度：这个和向量转换所采用的模型有关，细节不用关注；
3、建表参数的选择以及表结构：主要在于retrieval_type 检索模型的选择，具体的可以参考文档。经过综合考虑，决定采用 HNSW：
字段标识字段含义类型是否必填备注 metric_type 计算方式 string 是 L2或者InnerProduct nlinks 节点邻居数量 int 是默认32 efConstruction 构图时寻找节点邻居过程中在图中遍历的深度 int 是默认40
"retrieval_type": "HNSW",
"retrieval_param": {
"metric_type": "InnerProduct",
"nlinks": 32,
"efConstruction": 40
}
注意: 1、向量存储只支持MemoryOnly
2、创建索引不需要训练，index_size 值大于0均可
具体的建表示例见后文。
4、分片数和副本数结合实际数据量评估，如果无法评估，按照最少资源申请即可，后续可扩展。
实践
1、建表（space）
为了简化操作，实行db（库）-space（表）一对一的方案，弱化库的概念。经过一系列探索之后定义出了通用的space结构：
{
"name": "demphah",
"partition_num": 3,
"replica_num": 3,
"engine": {
"name": "gamma",
"index_size": 1,
"id_type": "String",
"retrieval_type": "HNSW",
"retrieval_param": {
"metric_type": "InnerProduct",
"nlinks": 32,
"efConstruction": 100,
"efSearch": 64
}
},
"properties": {
"vectorVal": {
"type": "vector",
"dimension": 1536
},
"contentVal": {
"type": "string"
},
"chunkFlagId": {
"type": "string",
"index": true
},
"chunkIndexId": {
"type": "integer",
"index": true
}
}
}
字段说明：
engine、partition_num等都是固定的参数，properties中所列字段皆为通用字段，如果有扩展字段如：skuId，storeId追加即可
字段名含义类型说明vectorVal文本向量vector维度与选用模型有关contentVal源文本string?
chunkFlagId文件唯一idstring文件的标识id，用于串联分块后的片段chunkIndexId文件分段位置integer从0开始，递增skuId ... ?
扩展字段见上
这里file的概念可以理解为一个单元，可能是一个文件，也可能是一个url，总之就是一个数据整体。
2、分段写入
这里针对通用文件描述，比如提供一个pdf文件如何导入向量库：
a. 首先上传文件到oss ，然后根据对应的fileKey获取到文件数据流
b. 再根据各种拆分场景（按行、字节数、正则拆分等）分成片段
c. 分段写入向量库：
/**
* 将字符串转换为向量并插入数据库
* <p>
* 目前所有的知识库管理端写入全走这个方法
* @param dbName 数据库名称
* @param spaceName 空间名称
* @param str 字符串
* @param flagId 标志ID
* @param chunkIndexId 块索引ID
* @param properties 属性
*/
private void embeddingsAndInsert(String dbName, String spaceName, String str, String flagId, Integer chunkIndexId, Map<String, Object> properties) {
// 先向数据库写入一条记录，记录当前文档的写入操作
int success = knbaseDocRecordService.writeDocRecord(spaceName, flagId, chunkIndexId.longValue(), 0, str);
if (success <= 0) {
log.error("writeDocRecord失败 {},{},{}", spaceName, flagId, chunkIndexId);
}
// 分块转向量并写入
List<Float> embeddings = GatewayUtil.baseEmbeddings(str);
if (CollectionUtils.isEmpty(embeddings)) {

向量数据库落地实践

推荐阅读

周星驰的人生经历启示?周星驰的成长历程

军范|日本直接警告，美国“大哥”如何表态？，韩国军方计划造航母

科学家■可能会让世界终结的10大科学实验，其中一项会让5亿人丧命

庄羽公布反剽窃基金进展情况：已与郭敬明方取得联系，双方正在接洽

『迈克尔·乔丹』迈克尔·乔丹最被人忽视的弱点？

原神|《原神》游戏中出现了“米卫兵”，玩家十连抽获得两个5星角色！

白菊花茶怎么冲泡,武夷岩茶怎么泡

『绸带』济南经十路绸带公园巨型“贝壳”亮相！地下将建成商场连接地铁站

天界徽章有什么用? 天界徽章有什么用

星座巫师|实至名归！，12星座的第一名

吉星|进入7月底，4属相吉星当头，时来运转，生活事业顺风顺水

北京哪里的楼顶天台可以上去？

宋茜白黑色调的露肩半身裙优雅而大方

即市頭條|L&T(01442.HK)主席減持820萬股套現287萬INFINITY L&T(01442.HK)主席减持820万股套现287万，INFINITY

辣椒油的4种做法,辣椒油的做法大全家常菜-

华讯股票：抓住中小投资者痛点创新投顾服务模式

出前一丁微波炉拉开抽屉找出珍藏多年的手机，这台索尼爱立信T707大家还记得吗？

多特体育|宏远打“野球”狂胜150分！国家队欺负青年队，杜锋真不给面子

网易娱乐|陈建斌携蒋勤勤看展认真为其拍照好甜蜜

茶叶爱好者|生姜红茶这样喝，一大早排出体内黑臭宿便、去除口臭，皮肤也白了