展会信息港展会大全

华为AIOps打造网络运维智能化的最佳实践
来源:互联网   发布日期:2021-05-07 19:32:13   浏览:11059次  

导读:如今,数字经济已成为构筑社会高质量、可持续发展的重要基石,5G新基建的加速落地与AI、云计算等技术在各行各业的融合日益深入,推动智能社会的发展步入快车道。与此同时,无处不在的联接为数据赋能提供了有机的纽带,以满足新兴工作负载对业务高并发、大带...

如今,数字经济已成为构筑社会高质量、可持续发展的重要基石,5G新基建的加速落地与AI、云计算等技术在各行各业的融合日益深入,推动智能社会的发展步入快车道。与此同时,无处不在的联接为数据赋能提供了有机的“纽带”,以满足新兴工作负载对业务高并发、大带宽、低时延、高可靠的需求。然而,业务复杂性和网络智能化的演进却让不少企业“头痛不已”,即传统的运维架构难以发挥电信网络创新所带来的商业效能,导致企业纷纷陷入数字化转型的鸿沟。

在华为NAIE AI模型与训练服务部部长杨建看来,企业、运营商所面临的业务复杂度、设备复杂度、联接复杂度的不断提升,导致原有的电信网络无法满足客户需求,因此在5G、云、AI推动的智能社会到来之时,需要的是更加智能的运维模式,而AIOps就是加速运维智能化转型的重要趋势。

GSMA Intelligence指出,截至2020年底,近60个市场中的140家运营商已经推出5G服务,中国的5G基础设施的规模领跑全球,5G连接占全球5G连接的绝大多数(超过75%),建设了近72万座5G基站。IHS Markit预计,到2035年5G将创造13.1万亿美元的全球经济产出,对5G资本支出和研发投入的预测值同比会增长近10.8%。其中,5G to B可以说是千行百业转型升级的关键抓手,其相较于to C场景除了要实现大带宽和低时延,保障生产过程的安全性、高质量、高效率更为重要。

过去一年,ICT厂商在能源、制造、工业、医疗等行业的5G实践加速推进,运营商在5G网络建设时的思路也在随之转变:混合多云的跨平台部署、容器化/云原生的应用、数据多样化的介入、开放多源的API……不断变化的技术趋势需要IT运营变被动为主动,网络运维亦受制于IT系统持续扩张、架构日趋复杂、数据指数级增长等因素,亟需由人工向自动化、智能化转型,以确保业务的稳定性和可持续性。

此时,AIOps登上了舞台。AIOps(Artificial Intelligence for IT Operations)智能运维起源于“Algorithmic IT Operations”算法IT运维,是指将AI应用于运维领域,基于已有的运维数据(日志/监控信息/应用信息等),通过机器学习的方式进一步解决自动化运维没办法解决的问题。

网络运维亟需智能化驱动

作为网络创新的排头兵,电信行业在网络智能化领域的探索从未停止,从SDN、NFV到网络云化,电信运营商和ICT厂商对现代化服务、AI应用、边缘计算等新技术的投入与日俱增,要知道,网络运维是电信领域最大的AI应用场景,占据电信AI应用市场的60%。Tractica预计,到2025年电信行业每年将在人工智能软件、硬件和服务上投资367亿美元,其背后的推动力之一就是对网络运维瓶颈的“切肤之痛”:被动式运维,75%的网络问题由用户发现,故障诊断依赖人工经验;自动化程度低,按领域划分,流程人工参与环节多,导致成本激增;故障解决困难,90%的时间耗费在故障定位。

除此之外,尽管AI普惠千行百业的故事被越来越多的人所熟知,但实际上仍有很多企业尚未跟上AI创新的步伐2019年企业AI实际应用率为19%,较上年增长仅5%,远低于行业23%的预估增长,诱因包括AI应用开发门槛,56%的公司面临的最大挑战是缺乏有AI专业知识的员工;AI应用开发周期长,单一的AI技术无法满足企业诉求,效果难体现,流程编排难度大,运维人员需要人工编码开发不同场景的AI应用,耗时耗力;经验沉淀少,缺乏数据,大部分公司/组织缺乏数据采集的能力,没有大量的干净的数据积累,导致AI的处理能力大打折扣。

AIOps的出现,就是希望基于AI与大数据的监测、分析、执行能力,由AI取代人力决策,快速给出故障处理建议(小时级->分钟级),做到事前预防预测、事后迅速定位修复,满足OSS多元运维能力的快速上线和迭代需求,加速电信领域的智能运维升级。根据Gartner的定义,AIOps主要包含两个组件:大数据和机器学习,会通过主动、个性化和动态的洞察力支持IT运营功能。对于ITOM来说,过去的网络运维并未有效利用数据的聚合资源和分析能力,没有形成一套可自适应的架构体系,而AIOps平台支持同时使用多个数据源,具备数据收集方法、分析技术(实时和深度)和表示技术。

Gartner预计,到2022年,40%的大型企业会部署AIOps平台。无论是IT与OT的融合还是技术与业务的融合,都在推动AIOps平台的增长,ITOM需要适应现代化IT架构带来的改变,打破IT、开发、运营之间的岗位隔阂,实现在云边端的任意环境中对数据规模、性能监控快速增长管控自如,保证最终用户的使用体验。

AIOps使能新基建的四大利器

基于沉淀30余年的专业积累和通信经验,华为AIOps可以覆盖运维全流程,包括预测、检测、诊断、识别等环节,采用零编码定制场景组合应用,降低开发门槛,借助数据对接和治理能力提升数据开发效率。作为自动驾驶网络AI引擎NAIE的核心能力,华为AIOps服务在电信领域提供了一系列AIOps原子能力和组合编排能力,包括使能网络管控分析单元、智能运维解决方案等运维系统,帮助运营商打破原有的烟囱式建设方式,将各专业运维系统的应用与AI能力解耦,采用分层的服务化架构对接共享数据中心,集中提供AIOps能力,适配运维场景多维的应用需求。

据了解,华为AIOps服务的核心竞争力主要体现在四个方面:一是丰富的电信领域AIOps原子能力,将专业知识与AI算法融合,优化和自研AI算法,内置电信领域业务模型参数,支持设计态的泛化、运行态的调优,可有效解决通用算法模型落地行业时效果差的问题。这些原子能力可串接使用,具备数据输入、参数配置、结果输出、数据传送方式等AIOps原子能力模型统一标准。该原子能力可服务于故障预测类、异常检测类、根因定位类、诊断修复类等场景,提供流量预测、KPI异常检测、CHR异常检测、异常关联分析、日志异常检测、事件聚合等20余项功能。

二是组合编排与DevOps能力,提供可根据业务定制的AIOps服务,支持零编码构建并组合应用,可对流程进行串接,配置业务泛化参数,支持事件通知方式、可视化Dashboard编排等功能,快速定制运维应用。同时,其AI平台还支持算法模型创新与开发,可自行扩展AIOps 原子能力,为NAIE生态提供专业人员培训赋能。

三是对通信领域主流数据的自动化治理,支持电信领域通用数据源,例如KPI、告警、日志、xDR等主流运维数据,还包括SFTP、FTPS、Kafka、数据库、文件系统、Restful等超过100种电信运维系统数据对接方式,支持30多类网元,利用这些通用的数据源对接和标准化数据治理组件,快速建立与运维系统的数据源连接,可节省90%数据准备时间,将标注效率提升10倍,标注成本降低80%,采用数据治理SDK方式,将异构数据(时序数据、非结构化数据、文本数据等)治理成AIOps原子能力标准输入数据,用于模型训练和推理。

四是ADN解决方案预集成,围绕运维全流程提供预制典型场景组合应用,快速接入运维流程,体现在多种组合调用形式,例如与iMaster AUTIN、iMaster NCE、iMaster MAE的业务协同,使能FBB/MBB网络运维智能化,这些能力均可以在云端被提供。

值得一提的是,华为还提供了10余个开箱即用的APP,以降低在行业AI应用开发时遇到的专门和算法门槛,沉淀运营商网络、园区网络、DC网络、IT应用等AIOps典型场景,支持公有云、HCS、OP等部署形式,帮助伙伴快速上手,轻松部署运行AI应用。

华为AIOps服务

AIOps打造企业转型最佳实践

目前,华为AIOps服务已支持4个业务领域、超过110个现网局点、4.1亿次API调用/月、7.1万KPI、25万告警/天、187亿条日志,支持全域网络场景,为通信网络提供运维保障。某运营商在2019年发生核心网交换机软失效,导致15万用户VoLTE业务中断10+小时,这表明核心网故障对网络质量、用户体验影响巨大,而其自身又存在重复故障少、定位难、故障分析耗时长等难题,传统静态阀值检测无法适配业务动态变化,经常出现漏报、误报。

华为AIOps核心网KPI异常检测APP,可以帮助运营商提前5小时发现问题,推送告警短信,实现预测性运维。具体而言,当日凌晨,运营商运维团队收到MAE-CN KPI异常检测告警短信,发现2G/3G/4G用户连接建立成功率异常,对网元范围造成影响。之后,利用云核MAE-CN异常关联分析功能定位失败原因,结合网络拓扑事件汇聚定位故障网元。当日夜间,现网实施DNS APN指向变更操作,发现由于DNS配置APN指向的Zone长度错误导致DNS解析失败,运维团队修改Zone参数配置后,问题于次日7点前成功解决,避免了早高峰的用户体验影响。

某客户数据中心的硬盘检测多以人工进行,发生故障后进行高难度数据修复,需要投入大量人力物力恢复数据,并且无法提前规避硬盘硬件故障对业务造成的不良影响,硬盘运维依赖人工被动响应。接入华为AIOps之后,合作伙伴可通过Restful接口上传硬盘SMART数据,服务了全球企业超过200个数据中心硬盘运维,累计预测硬盘18万+块、累计识别故障盘4000+块/年、全年可避免业务中断4000+次、可识别数据备份场景1000+个,该客户则变被动运维为主动智能运维,提高了运维人员的工作效率,提前14天识别硬盘故障或风险,查全率达80%,误报率低于0.1%。

杨建谈到,华为多年前就开始筹划将AI应用到网络运维流程中,从最初的故障监控、KPI预测、日志检测等点式创新,华为逐渐将这些不同的创新点串联成了一条线性创新,即AIOps,未来,华为将继续发挥这样的创新独特性,打造一张自动驾驶的网络,这一过程中,华为还将构建网络AI生态,在ADN的平台之上与更多的伙伴合作,拓展丰富的场景应用,共同迎接智能世界的到来。

结束语

可以说,华为AIOps为电信网络运维注入了智慧因子,通过将专业经验与AI技术融合使能千行百业,为智能化运维提供了便捷、高效的数字平台。与此同时,华为还携手合作伙伴构建了开放共赢的生态,降低AI开发门槛,帮助伙伴将丰富的AI应用实例落地到相应的行业场景中,加速了5G新基建在智能时代的百花齐放。

(7671547)

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港