云计算|华为云地协同解决方案加速网络AI规模应用( 二 )


本地样本少、模型精度不够:部分场景单局点样本量少 , 不足以支撑模型训练 , 如核心网KPI异常检测 , 单局点发生异常频率很少 , 训练需要的样本量不够 。因此 , 需要能够汇聚所有局点的全量样本信息 , 可能还需辅以联邦学习等技术 , 才能训练得到满足业务精度要求的AI模型 。
云地协同实现架构
针对以上问题 , 华为提出云地协同创新方案 , 通过云地协同 , 可以加速AI特性的规模部署 。
云地协同 , 是指云端和地端一起协作完成数据样本上云 , 模型状态管理 , 模型重训练 , 模型/知识下发、择优更新等一系列的闭环任务 , 同时把云端汇集的全局网络知识经验、全量数据训练得到的高精度模型 , 持续注入地端 , 让电信网络能够进行智能的迭代升级 , 变得越来越聪明 。
云地协同有三个主要的特征:一是云端和地端要有通道;二是地端到云端 , 信息可以从运营商上传到云端 , 包括数据样本、模型状态、以及重训练请求等信息 , 三是云端到地端可以下发新的模型 , 同时网络知识库里的知识也可以注入到地端 。
云地协同机制参见下图:
云计算|华为云地协同解决方案加速网络AI规模应用
文章图片

文章图片

云地协同三个阶段
据介绍 , 云地协同在实际应用部署时有三个阶段 , 针对不同场景可以选择适合的阶段 , 最终大幅提高网络的资源效率 。
阶段1:云端进行初始模型的训练 , 运行态由地端根据新增的样本进行在线学习 , 持续保持模型的精度 。这种模式主要是适用于模型相对简单 , 算法结构比较稳定的场景 , 这种场景一般不需要对模型结构和算法本身进行更改 , 只需要根据本地数据进行在线学习 , 优化调整模型参数 。比如像核心网变更在线机器值守等 。
阶段2:云端进行模型的分发 , 然后在地端根据新增样本进行在线学习 。具体讲 , 就是云端会持续对模型进行优化 , 包括模型算法结构上的 , 优化后的模型会进行推送到地端 , 地端根据评估结果进行模型择优更新 。同时 , 地端也会根据本地数据样本的学习进行模型参数的优化 。这种一般适合于模型相对复杂 , 华为会持续进行模型算法结构优化的场景 , 比如无线KPI 异常检测等 。
阶段3:云地实时协同 , 模型可以自动化演进 , 具体讲就是本地样本会实时上传到云端 , 云端进行训练和优化后的模型会自动推送到地端 , 地端进行模型评估择优进行升级 。这种主要是适用于模型复杂、需要用到华为云端高质量标注数据 , 知识图谱以及仿真等知识能力进行模型优化的场景 , 比如IP RAN/PTN智能告警 , DC PUE优化等 。
云地协同关键价值
联邦学习 , 即通过汇聚各个地端模型的参数 , 在云端采用汇聚算法 , 形成效果更好的共享模型 , 再下发给各个地端进行使用 , 其最大的特点 , 就是在地端数据不用出局的情况下 , 提升模型的精度 。借助联邦学习可以更好的实现云地协同 , 从而提升模型泛化能力和训练效率 。
借助知识图谱 , 通过沉淀专家经验和产品知识转化形成故障传播关系等 , 形成“网络知识库” , 可用于故障运维辅助、知识问答等 。
在云端仿真方面 , 通过在云端构建虚拟仿真环境 , 高效安全地进行模型或业务验证 , 在避免现网性能或KPI受到影响的同时 , 支撑网络问题的快速闭环 。
模型因为需要进行更新 , 更新的方式如果采用传统网管集成的这种模式 , 需要经过多层多次的人工动作 , 首先模型版本发布后 , 需要产品研发把模型通过代码工作集成到网管软件版本里 , 然后发布到华为Support网站 。
如果采用自动升级模式 , 通过云地协同 , 让AI模型市场跟地端网络AI对接 , 模型发布后进行推送 , 让地端局点启动自动化的模型升级 , 当然升级前也会完成模型的评估 , 整个过程在1个小时即可完成 。


推荐阅读