使用 Triton 部署 chatglm2-6b 模型( 三 )


},
{
"name": "max_new_tokens",
"shape" : [1,1],
"datatype": "UINT32",
"data": [15000]
},
]
}
headers = {
'Content-Type': 'Application/json',
}
# 发送 POST 请求
response = requests.post('http://localhost:8000/v2/models/chatglm2-6b/infer', headers=headers, json=data)
result = response.json()
print(result)
响应:
{
"model_name": "chatglm2-6b",
"model_version": "1",
"outputs": [
{
"data": [
"nn 川普不是四川人,他出生于美国宾夕法尼亚州 , 是一个美国政治家、企业家和电视名人 。"
],
"datatype": "BYTES",
"name": "OUTPUT",
"shape": []
}
]
}
四、技术方向CI(Continuous Integration , 持续集成)/CD(Continuous Delivery,持续交付 / Continuous Deployment,持续部署)
未来可实现:
1. 使用 k8s 自动操作容器部署 -- 类似行云
2. 保存一个大模型运行环境的完整 docker 镜像,只需下载模型文件到对应目录即可启动提供服务..
3. 单机部署多种开源模型,提供不同模型的应答接口,可对比应答效果
4. 创建 dockerFile 自动构建基础容器
k8s 文档
https://kubernetes.io/zh-cn/docs/tasks/tools/
在所有节点上安装 Docker 和 kubeadm,kubenet
部署 Kubernetes Master
部署容器网络插件 kubectl
部署 Kubernetes Node , 将节点加入 Kubernetes 集群中
 

作者:京东科技 杨建
来源:京东云开发者社区 转载请注明来源




推荐阅读