·网络和服务监控
“网络出什么问题了?”当首席技术官(CTO)打电话来时,这可不是移动网络运营商(MNO)运营团队想听到的问题。CTO当时正在参加一场大型体育赛事,他说他和妻子都无法连接移动网络几分钟。“我们必须解决这个问题,”CTO告诉团队。
最近,我在阅读有关一家知名移动网络运营商 (MNO) 网络服务问题的新闻时,想起了这个故事¹。有趣的是,当一切顺利时,人们往往认为移动网络的可用性和性能是理所当然的。但一旦出现问题,无论是轻微的服务降级还是全面中断(例如网络中断),移动网络运营商都会招致用户的强烈不满。那么,移动网络运营商该如何以最佳方式应对服务降级²呢?
在我们的案例中,一位恰好是移动网络运营商(MNO)运营团队负责人的“客户”报告了服务质量下降的问题。虽然此类反馈对MNO来说至关重要,但客户发现的网络/服务问题可能会造成不利影响,包括在社交媒体上引发负面舆论。因此,MNO经常强调需要尽早(最好是实时)发现问题,这一点不足为奇。
大多数移动网络运营商也明白,向客户预警预期或实际发生的网络性能下降至关重要,并且需要根据业务标准优先解决问题。网络/服务问题性质不同,因此需要进行服务和客户影响分析。实际上,有些网络故障可能几乎难以察觉,而另一些问题则会影响关键客户(例如企业客户)或参加体育赛事的首席技术官……
检测并优先处理网络/服务问题是一回事。要解决问题(并尽可能避免将来再次发生),移动网络运营商必须找到问题的根本原因。在我们的案例中,报告的网络性能下降是由于网络容量不足造成的。后续的详细分析表明,体育赛事观众(其中包括许多国内/国际漫游用户)由于大量使用社交媒体应用程序而造成了网络拥堵。
遗憾的是,故障排除往往远非易事。网络/服务的复杂性和可见性的局限性常常导致需要数小时甚至数天的调查,这其中涉及不同的移动网络运营商 (MNO) 员工、“作战室”等等。有些问题甚至无法彻底解决,成为首席技术官 (CTO) 们反复头疼的问题。是的,运维团队也同样头疼。
实际上,移动网络运营商(MNO)多年来一直在采取某种形式的预防措施。然而,这些措施往往并非最佳。例如,正如我们之前报道的,根据相关MNO团队对体育赛事需求的预期来增加基站容量的做法,最终被证明是不够的。因此,MNO一直在寻求更准确、更高效、更动态的方法来预测和预防网络/服务问题。
对于5G医疗健康/生命相关应用场景和工业自动化而言,每一毫秒都至关重要,任何性能下降都可能造成致命后果,因此这种先发制人的能力至关重要。与此同时,也不应忽视“传统”移动用户(包括首席技术官)的体验。
我们如何才能更好地检测、排查、预测和预防服务降级?人工智能(AI) 和自动化技术应运而生⁴。暂且不论其确切定义,人工智能是实现智能运营的关键推动因素。人工智能有望帮助移动网络运营商(MNO) 应对日益复杂的多层网络/服务,揭示看似无关事件之间的隐藏联系,从过往事件中吸取教训,及早发现问题(例如,本文中提到的网络拥塞问题)等等。
人工智能也是自动化运营的关键基础,包括实时/近实时或离线诊断和分析。总而言之,移动网络运营商 (MNO) 希望人工智能和自动化能够助力其提升用户体验(在 5G 时代,随着物联网 (IoT) 的大规模和关键性日益凸显,也包括设备体验),并满足严格的服务级别协议 (SLA)。最终目标是:客户几乎不会察觉到服务质量下降。换句话说,首席技术官 (CTO) 不会再给运营团队打意外的电话。
需要说明的是,我们故事中的问题只能在活动结束后才能解决,这也促使移动网络运营商(MNO)寻找新的解决方案,以帮助识别和分析服务降级问题。这类服务降级和类似事件何时才能成为移动网络发展历程中一段充满挑战的回忆?这很难说。而且,目前即便是在人潮涌动的体育场参加活动也并非可行之策⁵。但我们可以向故事中的首席技术官(CTO)以及所有关注服务降级问题的移动网络运营商首席技术官保证:我们一定会解决这个问题。
1 一位同事给我讲了这样一个故事,是关于两支国家队在座无虚席的体育场进行的一场足球比赛。
2. 此处所指的服务降级包括服务中断。尽管服务中断会造成严重影响,但诸如下载速度降低等服务降级也不容忽视,而且随着 5G 的普及,这些降级问题的重要性将日益凸显。
3. 正如之前讨论的从被动诊断型运营模式转向预测指导型运营模式一样,移动网络运营商的运营演进实际上是一个多方面的过程(例如,它必须包含对网络/服务问题更快速的反应)。
4. 人工智能(AI)是一个热门术语,它涵盖了机器学习(ML)。基于AI/ML的网络/服务运维解决方案利用各种输入,例如来自主动/被动监控代理(或虚拟探测器)的数据。智能自动化可以改进问题优先级排序和故障排除,例如,通过增强对网络拓扑(网络元素、服务和客户之间的连接)的了解。
广东“十五五”规划纲要:加快发展高速全光通信与可见光通信
工信部:加快技术产业创新 推动6G、光通信、量子通信等核心技
如何应对网络服务降级问题(并让首席技术官们满意)
出海、迭代、缺货、缺钱:光通信景气周期背后的四道坎