面向自智网络的传输故障自愈系统研究

随着电信运营商“CHBN四轮驱动”战略发展,传输网络承载的无线2G/3G/4G/5G、家宽业务、集客专线及其他新型业务的故障快速恢复面临更高要求;同时随着业务发展,传输网络规模本身也日益庞大,以笔者所在的浙江移动为例,全省有16万套传输设备、223万千米光缆、66万条传输电路,日常运维压力与日俱增。

(CWW)随着电信运营商“CHBN四轮驱动”战略发展,传输网络承载的无线2G/3G/4G/5G、家宽业务、集客专线及其他新型业务的故障快速恢复面临更高要求;同时随着业务发展,传输网络规模本身也日益庞大,以笔者所在的浙江移动为例,全省有16万套传输设备、223万千米光缆、66万条传输电路,日常运维压力与日俱增。而传统的传输网络运维模式流程复杂,主要依靠运维人员现场抢修故障,运维成本较高,故障恢复的及时性难以得到保障;并且缺少可视化过程呈现,无法快速确定故障影响范围、远程调度和高效抢通业务。

本研究主要探索传输自智网络运维新模式,通过打造自动化的传输业务自恢复能力,实现传输业务故障域内自愈、光缆故障跳纤辅助抢通,同时通过跨专业、跨网络、跨平台的能力共享,拉通其他故障域相关系统,实现故障识别、故障定位、方案处理、故障处置的全流程自动化和可视化,进而实现CHBN不同业务场景下的传输故障自愈,让一线故障处理人员真正做到“故障无感”,满足运营商自智网络发展要求,践行降本增效理念,节省日常运维成本。

核心技术能力

传统的传输故障抢修采用线下面向人的“远程专家经验+现场人工抢修”模式,需要通过人工翻阅操作指导手册进行远程调度,且需要监控人员、传输运维专家、外线维护及客服人员多轮交互沟通。为此本研究将传输故障抢修模式创新升级为线上面向机器的自动调用模式,系统基于AI自学习能力自动生成抢修方案,完成故障抢通。本研究所涉及的创新技术包括流程自动化、故障可视化、方案智输出、业务自恢复、能力原子化5项核心能力。

流程自动化:当前运营商传输网故障处理只有故障识别、故障定位实现自动化,故障方案、故障抢修均需要人工完成。代维人员接到故障工单后需要通过现场熔纤、跳纤、更换硬件等操作修复故障,此过程完全依赖现场代维人员的经验。因此,笔者基于自智网络设想提出了“全流程自动化”的解决方案,首创PTN远程业务自愈、现场跳纤方案两项核心能力,满足故障“先抢通,后恢复”目标,实现故障识别、定位、处置、修复全流程自动化。“故障自修复”跨系统交互模型如图1所示。

1694145019888091293.jpg

图1“故障自修复”跨系统交互模型无感化

业务自愈核心能力,先于故障派单系统在告警预处理阶段实现业务“无感”恢复,针对一线代维真正实现故障面向自智网络的传输故障自愈系统研究。

现场跳纤辅助能力,针对无法远程业务自愈的场景,通过现场跳纤辅助能力自动生成跳纤抢通方案,并自动派单至一线抢修人员,实现全程自动化、线上化。

故障可视化:通过对传输设备、传输光缆进行数据采集和录入,映射成数字孪生实体,实现故障的可视化和模拟仿真。在传输设备方面,利用网管数据驱动,将抽象的网元、告警、业务等信息具象化,然后利用传输光缆NFC、RFID等哑资源数据采集新模式,将光缆、告警等资源映射到GIS地图,最终构建数字化、可视化智慧运维地图,实现故障全程可管可视。

方案智输出:基于上述数字化仿真设备和光缆资源,利用告警信息聚类分析,提供自动汇聚故障信息及处理方案能力,结合系统专家经验库积累的历史故障抢修场景,通过AI智能研判,匹配历史方案库,自动输出传输故障光缆跳纤抢通方案和可用纤芯信息。

为此本研究首创基于中断光路和中断光缆的迂回路由最小跳数跳纤算法,可实现无法同缆调纤场景的故障抢通。基于已识别的传输中断告警信息及相关光路、光缆信息,通过通用路由组织规范,输出异路由光缆跳纤抢通方案。该算法较传统同缆调纤方案适用范围更广,成功率更高。

业务自恢复:针对政企专线等高价值用户,通过对业务状态实时感知,结合随流检测性能数据、SRv6重路由技术,快速自动恢复中断业务,在保证SLA的情况下,维持业务“永久在线”,提升用户体验,简化业务运维。

当前主流传输设备厂家只具备SPN重路由能力,为此本研究首创PTN业务一键重路由能力,基于故障管理系统已定界定位的故障根因,自动关联相关传输电路,自学习故障抢修案例库,自动导航生成故障抢修方案,并一键自动下发激活至设备完成故障修复,满足高价值用户、亚运重保等场景需求。

能力原子化:在上述平台核心能力探索建设的基础上,笔者提出“大平台、小工具”相结合的模式,通过能力解耦,实现现有能力的原子化,并能共享给外部平台。目前已实现基于ChatOps机器人等小工具应用,通过告警状态和业务信息自助获取,实现网络能力实时共享,并已完成传输日常光路开环故障自助查询、传输光缆故障影响业务查询等机器人部署,赋能一线代维人员自助查询使用。各核心能力平台与ChatOps机器人交互模型如图2所示。

1694145019899092149.jpg

图2 各核心能力平台与ChatOps机器人交互模型

总结

通过上述流程自动化、故障可视化、方案智输出、业务自恢复、能力原子化5项核心能力的部署,本研究在浙江移动已实现系统上线,覆盖无线、家客、集客及传输等12类已知故障场景,截至目前共准确输出跳纤抢通方案59 0 4个,实现业务自愈5 61次,有效支撑了运营商日常故障处置和重保场景保障,快速实现传输故障抢通修复。另外,通过核心能力解耦,传输光路开环通报、光缆/设备承载业务查询等ChatOps机器人支撑一线人员自助查询1万余次。通过上述传输故障自愈系统和ChatOps机器人的应用,浙江移动在传输故障处置效率、业务恢复时长等方面有了较大改善,在自智网络实践方面积累了一定经验,为运营商网络运维模式变革探索出了新的路径。


免责声明:本文内容来源于第三方或整理自互联网,本站仅提供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。

相关推荐