无人科技|华为AIOps,让“智慧”在网络中流淌


5G、AI、物联网、云等新技术的不断叠加 , 让联接变得无处不在 , 也让网络当中不断增加大量、种类繁多的新设备 , 并大幅增加了网络的复杂性 。
随着“5G新基建”的加速实施 , 数字经济发展迎来新动能 。 不仅推动投资消费的快速增长 , 还将驱动各行各业的数字化转型升级 。 随之而来的是网络与业务的高复杂化与高质量的挑战 , 运维能力的演进成为电信网络能否持续发展效能的关键影响因子 。
【无人科技|华为AIOps,让“智慧”在网络中流淌】电信行业一直是网络智能化转型的探索者 , 此前就一直在利用SDN、NFV和云技术 , 来提升业务和网络敏捷性 , 降低运维复杂性和成本 。 如自动驾驶网络 , 就是电信用不通过应用多种智能技术从自动化迈向智能化的尝试 。
实际上 , 网络变得越复杂 , 一方面说明了网络与新兴科技结合愈加紧密 , 作为新基建的“基石” , 网络的价值得以日益凸显;而另一方面 , 越是复杂的网络 , 越让传统人力为主导的运维模式捉襟见肘 。 智能化运维能力的演进 , 也成为了电信网络能否持续创新的关键 。

无人科技|华为AIOps,让“智慧”在网络中流淌
本文插图

所谓“欲善新基建 , 必先利运维” 。 正是这些行业需求 , 成就了AIOps智能运维表演的舞台 。 AIOps已成电信智能化转型的关键
早在2016年之前 , Gartner就在其词库就添加了AIOps这一词条 , 彼时AIOps是AlgorithmicIT Operations的缩写 , 按照字面理解 , AIOps是一种基于算法的运维方式 。 Gartner还预测 , 到2020年 , AIOps的采用率将会达到50% 。
研究机构marketsandmarkets的报告则显示:出全球AIOps市场规模 , 到2023年将达到110.2亿美元 , 这个数字显然代表着一个非常大的市场机遇 。
正是对AIOps智能运维模式的热望 , 2018年在国内运维市场也层形成了一股风口效应 , 在这一年里 , 传统ITOM/ITSM厂商、新兴APM/NPM厂商、各大云厂商纷纷转战智能运维 , 市场的热情 , 进一步推动了AIOps智能运维被用户所认可 。
简单地说 , AIOps是通过人工智能的方式 , 对系统运行过程中所产生的数据 , 运用AI和算法、运筹理论等相关技术 , 对运维数据进行分析 , 进一步提升运维效率的新一代运维手段和方法 。
它之所以对电信行业有足够的市场价值 , 则是因为电信网络运维面临的挑战引发的 。
数据统计显示 , 电信网络运维问题发现非常被动 , 有75%的问题是由用户发现的 , 而非电信运营商本身;同时 , 网络故障根因定位更难 , 日常运维有90%时间都花在了问题定位方面;而各专业运维支撑系统功能也面临开发周期长 , 闭环流程自动化程度低的技术瓶颈 。 所以 , 运营商们期望引入AI智能运维 , 来实现主动维护和故障自愈 。
而从场景化的角度看 , 网络运维也已成为电信领域最大的AI应用场景 。 因此 , AIOps成为了电信行业运维智能化转型的趋势和共识 。 预计在未来五年内 , 电信行业市场的运维系统和平台将加速AI 能力的升级 , 成为电信领域AI 应用的核心场景 , 投资占比可以达到60% 。
的确 , 随着互联网业务的高速发展 , 电信客户在业务场景上丰富多彩 , 复杂和多变 , 新业务和新场景也在不断涌现 。 导致运营商系统里面有大量软硬件模块、日志、监控告警指标也纷繁复杂 , 无法提前做出预判 , 也无法快速确定根因 , 对AIOps的需求就愈发明显 。 四大价值 , 读懂华为AIOps使能服务
华为早在2018年就提出了自动驾驶网络的理念 。 华为希望实现自动、自愈、自优的自治网络 , 使能电信业务的敏捷创新、极致体验和自动运维 , 并实现高效的资源和能源的利用 。
而华为AIOps 使能服务作为自动驾驶网络AI引擎NAIE的核心能力 , 基于AI 平台 , 提供了一系列的电信领域AIOps原子能力以及组合编排能力 , 使能网络管控析单元、智能运维解决方案等运维系统 , 最终帮助运营商打破原有的烟囱式建设方式 , 将各专业运维系统的应用与AI 能力解耦 , 采用分层的服务化架构对接共享数据中心 , 集中提供AIOps 能力 , 适配运维场景应用百花齐放的需求 。

无人科技|华为AIOps,让“智慧”在网络中流淌
本文插图

总体来看 , 华为AIOps使能服务的核心竞争力集中四个方面:
首先 , AI原子能力解决了AI场景方案可以快速复制的难题 , 这种能力越丰富 , 可以解决的场景化问题就越多 。
华为就提供了丰富的AIOps原子能力 , 可以覆盖运维全流程 , 包括预测、检测 , 定位、执行 。 同时 , 原子能力库支持流量预测 , 故障预测 , KPI 异常检测 , 日志异常检测 , CHR 异常检测 , 异常关联分析 , 事件聚合 , 根因定位等20+原子能力 。
其次 , 组合编排与DevOps能力 , 可以将AI原子能力快速串联 , 使得AIOps能力做到不断扩展 。
华为通过组合编排功能 , 让使用者可选择业务场景所需的AIOps原子能力 , 通过可视化方式完成流程串接 , 并进行业务泛化参数配置 , 包括数据接入方式 , 模型参数 , 内置电信领域泛化参数 , 事件通知方式、可视化Dashboard 等配置 。 同时 , 这些能力还支持可视化编排或接口调用方式实现 。
第三 , AI训练和推理 , 依靠大量有效的数据 , 而电信网络的数据来源则非常的复杂 , 甚至包括异构数据 , 所以满足通用数据源的要求 , 也是一个重要的考量因素 。
华为的解决方案 , 做到了支持电信领域通用数据源 , 如KPI 、告警、日志、xDR 等电信领域主流运维数据 。 同时 , 支持Kafka , 数据库 , 文件系统 , Restful 等电信运维系统的主流数据对接方式 。 AIOps 使能服务提供通用的数据源对接和标准化数据治理组件 , 通过配置项快速建立与运维系统的数据源连接 , 通过SDK将不同的数据类型和格式治理成标准化的AIOps 原子能力输入集 , 用于模型训练和推理 。
第四 , 在场景组合服务方面 , 要实现快速的接入运维流程 , 就要将典型的场景进行预集成 。
华为AIOps使能服务作为自动驾驶网络的组成部分 , 目前已经和AUTIN/NCE/MAE等网络管控析单元、智能运维解决方案等系统的预集成 。 围绕运维全流程提供预制的典型场景组合应用 , 通过AI 特性或者服务方式快速接入运维流程 。

无人科技|华为AIOps,让“智慧”在网络中流淌
本文插图

不难发现 , AIOps使能服务 , 融合了AI的技术优势与华为在电信领域的专业优势 , 为运维系统的智能化演进提供AIOps平台能力支持 , 以四大能力集 , 解决了电信网络在AIOps智能运维上的所有难题 。 沉入场景化 , 击破行业痛点
华为之所以总能能成为电信用户的首选 , 是因为华为总是能够站在用户的视角去看待需求 , 华为甚至可以引导用户 , 主动去发现问题 , 并提前帮用户解决问题 。
例如在某地市运营商的运维实践当中 , 华为帮助其提前5小时发现故障 , 保障了地市用户业务体验不间断 , 降低了业务损失 。 华为还帮助某能源企业实现分钟级故障根因定位和分析 , 提升网络运维效率4-5倍 。
这些看得见的成绩 , 一方面是华为沉入行业 , 对用户需求的深刻理解 , 另一方面则是华为AIOps使能服务 , 在电信网络的几大关键场景中 , 已经具备了完善的能力 。
如在通信网络中 , 通过KPI来预测和检测网络问题是最普遍的场景 。 NAIE融合了电信领域的运维业务特点 , 提供单指标/多指标检测 , 异常原因关联分析 , 模型的自学习调优等关键能力 。 目前已经用在核心网 , 无线 , 数通等不同业务领域 。
告警根因定位则是另一个典型的场景 , 在异常发生后 , 准确的将多维度的异常 , 告警等事件进行汇聚和准确定位 , 过去主要依赖专家经验或者手工分析 。 而NAIE AIOps通过AI算法 , 支持多类异常/告警等事件的智能故障定位 , 自动实现时间 , 拓扑和故障传播图等维度的事件汇聚和根因定位 , 大幅提高了运维效率 。
除此之外 , 华为的日志异常检测服务 , 可实现日志的自动分类和统计规律发掘 , 实时监控出系统的异常行为和相关日志 , 可广泛应用在IT及电信网络场景;硬盘异常预测服务 , 可智能预测短期内(14天)的硬盘故障 , 以采取规避预防措施 , 以免对业务产生影响 。
总结而言 , AIOps就像是电信网络中流淌的“智慧” , 既可以加快网络异常问题检测的速度 , 也可以准确定位故障的位置 , 并对网络设备亚健康问题进行提前预警 , 实现了电信网络智能化运维效率的大幅提升 。


    推荐阅读