一个华为维护工程师的5G体验:发现问题和解决问题一样重要

2019-09-02 来源:《华为人》 字号:
“路测老掉话,你帮我看看。”
“行,采集基站的标口……再把基站的一键式日志发回来。”
“这么多数据你一个人看?”
“是的,放心,一定给你搞定!”

作为一名维护工程师,遇到这样的问题,我已经能够自信满满地应对。我要感谢这三年的历练。

2016年8月,我来到了华为,加入了后端维护部门。原本以为技术类的工作应该是在安静的环境下进行的,就像是学校实验室那样,可没想到,进部门第一天,我感觉进了一个“菜市场”,一路上各种打电话的声音此起彼伏,完全颠覆了我对工作场景的想象。

做技术发言人不容易

初入部门,我的主要任务是处理异系统互操作的问题,也就是2/3/4G的移动性相关事务。

2017年7月,西方运营商一年一度的大考——“P3测试”正式进入了冲刺阶段。P3比拼是由《Connect》杂志组织的第三方网络比拼测试,按同样标准对运营商网络打分排名。这是一套完善的用户体验模拟测试,结果公开发布。由于杂志巨大影响力,比拼结果对运营商口碑、市场品牌、用户选网以及管理层评价具有极大影响,被运营商视为大考,因此也自然成为对其供应商的大考。

没想到的是,所有P3项目的CSFB(电路交换回退)语音与移动性策略都被分配给我完成。之后的三个月,各种P3的分析和优化需求,就如雪花般从全世界各地飞了过来。我一天要同时处理来自七八个局点的问题。在这个过程中,我慢慢开始了解欧洲、澳洲乃至非洲各国的主流运营商。由于时差,需要经常与欧洲一线开会,工作到半夜,压力很大。

印象最深的是A国某局,为了提升CSFB语言时延,一线给客户推荐了自适应盲切换的策略,根据用户所在的信道条件,选择是基于测量的切换还是直接盲切换。可没曾想,开启这个策略后,友商的手机终端竟然出现了大面积的切换失败问题,而采用华为Mate系列终端测试则没有问题。

客户的高级技术顾问怒气冲冲地要求我们给出解释。我们最初解释,华为终端没问题,可见是与基站产品无关,需要排查一下友商终端是否存在兼容性的问题。然而,客户不认可我们的说法,认为华为终端很可能针对华为基站做了某些特殊优化,规避了这个问题。

至此,事情陷入了僵局,如果我们不把问题解释清楚,客户就不允许华为实施后续的优化措施。好在经过长时间对比分析切换成功和失败的Log(呼叫记录),我们发现了一个规律,每次切换失败的时候,问题终端的调测日志里都会有一个搜索3G小区径能量的记录,值为0,而成功的Log则没有。在我们严谨的分析下,客户专家终于被说服,认可了华为的技术实力,我们也得以实施所有的优化措施,达成既定的比拼目标。

P3比拼的一系列经历让我认识到,在客户界面,我们是华为技术能力的发言人,必须具备足够深厚的技术功底和严谨的分析能力,才能打消客户对华为产品技术的疑虑。

发现问题和解决问题一样重要

从2017年底开始,我正式转入5G,投入5G第一个商用版本的交付工作。很快,我们就迎来了首次大考——5·17世界电信日演示,坐标中国杭州,打造“5G第一城”。

项目伊始,我问身边的小伙伴: “5G是啥你知道不?”“啊~5G~你比4G多1G~”身边的小伙伴露出尴尬的微笑,唱起了“5G之歌”。这就是项目开始时我们对5G认知的真实写照。5G在现网中该如何部署,又能给这个世界带来什么,我们心里都没底,也没有任何经验可循。

困难很大,但军令在前,不容退却。我们制定了以天为单位的迭代优化计划,每天大量的测试数据反馈回来,当天完成分析出报告,优化措施第二天就要求落地。高强度快节奏的工作让我想起了支撑P3比拼时的工作状态,只不过这次的对手不是友商,而是时间和我们自己的产品。

几轮迭代下来,很多的问题摆在了我们的面前:一切换吞吐率就掉个大坑,车一跑又是剧烈波动。眼看着演示的日子一天天临近,我有些慌了神:“演示日期越来越近了,这么多问题我们搞不定怎么办?”

好在主管很淡定:“慌什么?发现问题多对我们来说是好事!我们身后有产品各个领域的专家,有问题我们才能够驱动这些专家跟我们一起投入这个项目中来。”

于是,针对切换和移动速率掉坑的问题,我们成立了攻关组,联合各个领域的专家夜以继日连续攻关,挖掘并解决了多个深层次的问题,路测速率也从过山车式的曲线变得平缓了许多。

5月17日电信日当天,无人机视频直播、AR/VR演示、远程维修、1Gbps极致体验区等众多夺人眼球的Case凭借5G的第一个商用版本成功实现,向世界展现了5G所带来的无限可能,演示圆满完成!

凭借此次保障工作所总结的第一手的5G现网优化经验以及推动产品所做的众多改进,从第二个5G演示项目开始,我们只需要几个人就可以完成研发保障工作,再也无需调动大量的人力。

支撑一线,随时随地准备着

作为后端,ITR(问题到解决)管理升级是让我们最紧张的事。管理升级,意味着更高级别的领导会关注这个问题,也意味着要以天甚至以小时为单位通报问题的进展,让人头疼。本以为5G初期,没什么用户,即使出了什么问题也不打紧,可以暂时告别管理升级的烦恼,哪料到现实还是狠狠地抽了我一个大嘴巴。

某天早晨7点,主管的一通电话把我叫醒:“尽快赶到公司,中东S局有一个紧急的开站问题。”

“这离上班也没差多久了啊,有多紧急一定要立刻赶过去?”我迷迷糊糊地小声埋怨。

“一线已经管理升级到二级ITR了!”一听这个,我整个人一个激灵就醒了。二级管理升级,这在LTE一年也就一两次,哪能料到,5G的首个ITR管理升级就是二级。

8点钟不到,我赶到了维护网上问题专用会议室——“作战室”。还没迈进作战室大门,已经听到里面人声鼎沸,仿佛闻到了弥漫的硝烟。

“现在一线是什么情况?小区状态已经正常了没?”

“小区已经好了,但是用户无法接入。”一线的声音都有些颤抖。中东比我们晚5个小时,当地是半夜3点,想必一线也连续奋战了很长的时间,声音中带着明显的紧张和疲惫。之前在LTE,我是新员工,这种紧急问题根本不需要我,而到了5G,我一转身也成了“元老”。

仔细了解才知道,一线第二天要给客户演示5G,之前小区存在问题,目前小区问题已经解决,但是现在用户还接不进去。

“明天上午就要给客户VIP演示,北京时间11点前必须解决,否则要1级管理升级!”一线在电话里下最后通牒了,让本就沉重的空气更加凝固了。

仔细分析当前的信令后,接入卡在测量流程,我根据经验判断,这种问题绝大多数是配置导致的。“大家别慌,我们尽快核查一下NSA(非独立组网)接入相关的配置。”

一群人对着同一份配置文件一条条排查,场面倒也是颇为壮观。

“这个频点号好像跟前面的对不上啊!”终于有人发现了蹊跷,我揉了揉眼睛,还真是有两位数字不太一样,不仔细看确实容易疏忽,赶紧通知一线修改配置。

“接入了!速率正常!”电话里传来了一线兴奋的声音。此时才10点钟不到,距离我起床也才3个小时。而这短短3个小时让我对5G的快节奏有了更深层次的认知。

总结此次处理的经验,我们制作了NSA接入配置核查工具,从根本上解决了问题。这样一来,一群人盯着配置逐条核查的场景也成为了历史。

当然,各种演示局点紧急问题还是会接踵而至。常见的就是“明天上午要给客户演示了,这个问题今天必须搞定”。虽然有时我也会埋怨一线经常火烧眉毛了才找过来,但是我更清楚,一线要面对的是客户各种不期而至的诉求,我们的职责就是支撑一线在客户界面最好地呈现华为产品。我们是一条战壕的战友。

入职两年多,我经历过很多次从睡梦中被叫到公司攻关,也见过上海凌晨四点钟的太阳。因为需要面对来自全球的5G商用问题,我必须不停地扩充自己的知识面。工作固然辛苦,但看到保障的局点成功商用5G的报道,还是会有很大的成就感。

客户眼中的专家,是对我们技术严谨性的考验;开发眼中的蓝军,要求我们能够洞察产品所有可能的问题点和优化点;一线眼中的战友,需要我们成为一切问题的终结者,并要把能力传递到一线……5G巨轮正在起航,考验才也刚刚开始,但我坚信:道阻且长,行则将至。

本文来自《华为人》,转载请注明出处。

主题阅读:5G