春晚红包大战:19天,不可能的任务,他们是如何做到的?

2022-04-20 14:26:21 来源:网络整理

虎年春晚的精彩瞬间还历历在目。

也许你印象最深的是《忆江南》那仿佛在画中游览的沉浸感、张小斐的青色大衣、或是演活了千里江山图的《只此青绿》……

除了精彩纷呈的歌舞语言节目,虎年春晚也增加了各种和观众互动的趣味玩法,其中不得不提的是抢红包环节。

今年央视春晚直播期间,京东共发放总价值达15亿元的红包和实物,邀请全民互动。官方数据显示,春晚期间,全球华人参与京东APP红包累计互动量达到691亿。

这背后,是无数京东云团队成员的日夜奋战——当这些流量洪峰在除夕当晚集中涌入京东,对京东的各团队带来巨大的挑战。

京东春晚红包的互动远比往年复杂。

除了“抢红包”这一动作外,还涉及后续的用户下单、配货等流程,每一个链路环节的增加,也使春晚场景的复杂度和应对难度呈指数级的增长,刷新春晚全球最复杂场景的记录。

算力资源如何分配、如何保证活动和用户信息的安全、如何保证支付的顺畅、供应链精准的提前筹备,如何保证用户的每一个疑问都得到解答,这些问题成为京东各技术团队必须面对的问题。

本期显微故事,聚焦京东春晚红包备战前的19天,看京东云等京东技术团队们,如何在这么短的时间里,逐一攻破各个链路环节的难点,让此次春晚红包互动能顺利进行。

以下是关于他们的真实故事:

文 | 小北

编辑 | 卓然

1月3日,元旦假期还未结束,京东云云舰团队的周光突然接到消息:京东将成为此次2022年央视春晚的独家互动合作伙伴。

这是一个数百亿级的互动活动,所需要匹配的算力资源非常可观。

在软件上,用户的任何行为都需要算力资源,而像春晚红包互动这样的人数规模,用户增加必然会增加到数亿,算力要求极高,且挑战极大。

如果算力不足,可能导致京东的界面或红包界面刷新不出来,用户抢不到红包,此外还无法支持系统的运行,整个系统可能都会垮掉。更何况,此次京东春晚互动的业务场景还比往年更为复杂。

京东作为一个购物app,它所需要承担的不仅是红包的互动,还包括用户领取红包后涉及到的交易、支付、客服等内容,且由于京东自营的商品都由京东配送,所以后续还会涉及到分拣、配送等业务场景,整个链路超长。

红包互动和购物交易这两个场景的差异又较大,峰值频繁往返切换,技术挑战极大。在这种情况下,算力资源的缺失,对这样一场数以亿计的活动而言,无疑是致命的。

但留给京东云的,只有19天。

图 | 正在备战的京东云云舰团队

业内通行的办法,是为了匹配这种算力需求,购入新的服务器。但留给京东云的时间实在太少了,他们甚至连采购也来不及,且如果要满足此次春晚互动复杂的场景,他们需要在现有的CPU核的基础上,另外采购上万台的服务器。

这根本是一个不可能实现的任务。在仔细思考之后,京东云团队决定:利用京东云云舰腾挪现有算力,来支持春晚红包互动这个数百亿级的活动。

这是一个艰难的挑战。京东APP中有大量应用,这些应用如何分配,每个应用涉及到的资源要压缩到什么程度,才既不影响它本身的使用,又能为春晚的红包互动提供空间?

同时,这种资源的腾挪还必须在秒级的时间里压缩或释放,才能保障用户体验的顺畅。京东云云舰团队必须通过一次又一次的压力测试和系统监测来解决这个问题。

为了避开用户的使用时间,云舰团队通常都选择晚上压测。有一天晚上,凌晨1点压测,到了3点,突然发现一些机器出现问题,挂掉了。

这是以前从未出现的情况。当时值班的同事就打电话把相关人员全都叫起来,排查到底是什么情况。

实际上,挂掉的机器数量并不多,对整个京东很大规模的服务器来说,这部分的资源占比非常小。但京东云云舰进行大规模资源调度,对资源调度的精准性要求极高,哪怕只是极少数的服务器资源,也需要保障到位。

大家都很紧张,在第一时间赶到了公司,排查当时机器到底发生了什么事,挂掉的机器的日志又是怎样的,他们一刻不停地拉群、电话沟通,从早上4点,一直忙到晚上7、8点,中间没有休息,吃饭也是外卖来了快速吃两口,就怕来不及。

终于,他们在14个小时后定位到了问题,并快速解决。那个时候,尽管大家都被疲惫,但却又都有一种自豪感:我们解决了这个问题,我们可以更有信心的保证春晚的运行了。

对一个软件而言,算力资源是保证其运行的基石。

云舰团队这种迎难而上、立即想办法解决问题的状态,最终使得京东云在不另外购置服务器的情况下,实现了数以亿计的春晚红包互动,让整个用户体验能顺畅又愉快地进行下去。

同样沉默但不可或缺的,还有安全团队。春晚涉及到大量的新业务上线,而往往新业务又是最容易出现安全问题、最容易被外部利用。

有一些安全问题后果非常严重,比如命令执行漏洞,它可以直接操作服务器,甚至把整个服务器关掉,使得活动无法进行。还有些安全漏洞会定位到用户登陆权限,或者将用户重定向到其它网站,对用户造成很强的干扰。

安全团队要做的,就是在春晚活动上线前,进行反复的测试和排雷,让活动和用户都不受影响。而在构建安全防控网上,有一个业内普遍存在的难点:如何防护DDoS的攻击?

图 | 京东安全团队正在通力合作

这是一种试图通过多个来源的恶意流量造成在线服务、网站和网络应用程序不堪重负、算力耗尽而陷入瘫痪的攻击手段。

它是正常请求,但请求量特别大,当量大到服务器不能承载时,就会崩盘。在春晚红包互动这样一个本身就有超大量级的请求的前提下,如果再出现DDoS攻击,后果不堪设想。

安全团队收集了大量数据,从攻击者视角对完成安全部署的云环境进行渗透测试并自查,确保部署策略有效,确保应急响应、策略处置满足项目要求。

安全团队的王陶冉记得团队为了制定有效的安全防御策略,大家熬夜到凌晨。那种为了目标达成共同思考努力解决问题的感觉让他颇受触动。

当春晚活动上线后,用户并没有因安全问题而出现不好的体验时,他觉得:一切都值得了。

同样要在19天时间里全面更新的,还有京东支付技术团队与智能供应链Y团队。

在算力能支持数亿人完成红包互动、安全防护为活动与用户保驾护航的前提下,京东还必须做好此次红包互动的用户体验,让用户在抢完红包后的购物与商品送达环节能获得良好的体验。

元旦时,樊明幸接到了关于支付升级的通知。作为京东支付技术团队中的一员,他知道京东的支付科技在无数次的大促中都在不断进步。

图 | 京东支付技术团队正在紧张工作

以点击结账后出现的支付页面为例,这一页面需要展示各种支付工具和活动信息,各种支付方式目前又有怎样的优惠活动,都需要向后台确认信息并展示在这个界面上。

而当用户选择某种支付工具后,后端会进入真正的扣款流程,需要校验密码、报送风险、确认优惠券的使用逻辑,确认扣款逻辑等,而扣款成功后,也涉及到给商家结算等。因而尽管用户只是按下了“付款”这一按键,但后台需要走过的链路却非常多。

在这种情况下,任何一个节点上的不顺畅,都会导致用户整体体验的滑坡。那时,用户点击付款后,看到的往往不是付款方式页面,而是显示一个圈,不停地loading加载。

而经过多次京东618、11.11、年货节等大考,樊明幸带领技术团队将支付的反应速度在原来的基础上提升了6倍,使用户的体验更为顺畅,也为保障春晚互动活动打下了坚实基础。

春晚时,用户会大量涌入京东,会出现较为集中的下单场景,页面反应速度的提升能帮助用户有更顺畅的体验。

但对樊明幸来说,此次京东支付技术团队所面临的最大挑战并不是支付速度,而是面临像春晚这样数十亿人的红包互动活动,一切都是未知的,一切都要新建。

“以往,支付技术团队关注的是用户的交易支付链路,但在此次春晚红包互动的过程中,用户除了要付款外,还会有大量的流量涌入「我的钱包」查看领到的红包余额,这意味着我们需要备战一条全新的链路,并将之升级到一个较好的水平。”

在短短的19天的时间里,京东支付技术团队需要将整条新链路涉及到的内容都梳理清楚,预估各个环节涉及到的流量峰值,测试风险点,在短时间内进行架构的升级和优化。这在以往是需要提前2-3个月去准备的工作,但此次他们只有不到一个月的时间,且未知的变数也较大。

但团队中的每一个人,都抱着想把这件事做好的目的去,方案不够完美,大家就一起提建议、修改,有的方案甚至改上几十版,才最终确定下来。

后来的成果也是显而易见的。在如此大体量的流量冲击下,京东扛住了用户的流量压力,从红包领取、查看,到使用支付,都非常顺利。

而在支付之外,京东还需要考虑的,是如何在春晚期间利用数智化供应链能力保障用户的购物体验。供应链对用户购物体验的保障主要包括两方面,一是现货率,一是履约时效。

虽然是春节期间,用户下单的时候也需要有现货,而且还需要保障履约时效。也就是让消费者买到想买的东西,以及更快地把商品送到用户手里。京东自营的商品通常是当日达或次日达,而要做到这一点,各城市仓库的提前备货,就显得尤为重要。

但京东仅自营就服务了千万量级的商品,有近1300家仓库的布局,而每个区域、每种种类的商品销量预测都会不同,需要按区域、按仓库去预判什么地区、什么仓库应该提前备好哪种商品,整个计算量达到亿级水平,计算难度非常大。

智能供应链Y业务部的石正新正是负责这一工作的团队成员之一,用户想买什么,能买什么,怎么让各区域的用户买到他们想买的东西,是石正新必须解决的问题。

图 | 京东智能供应链Y业务部

在春晚红包互动这个节点上,由于观看春晚的用户体量的庞大,流量和订单都会在那一时段集中爆发。这种爆发和大促有一定的相似性,不同的是,春晚是一个全新的场景,在这个场景下,一切都是需要重新计算的,春晚的收视率、各地疫情不同的程度,以及各地对物资的不同需求……

多重因素的影响,使得这次流量和商品库存的运算变得非常复杂。

为了更好地提升用户体验,京东智能供应链Y业务部研发团队的小伙伴通过迁移学习的算法,把从前大促经验的留存,复刻到春晚的场景里,专门针对这次活动做了一套销量的预估模型,按区域、按品类做更准确的销量预测。

以糖果为例,在年货节期间,南方区域的糖果销量往往会增加,如广州是平时的2倍左右,而西北区域的销量则变化不大。而京东自营的千万量级商品,每一种都要做相关的区域和数量预测。

同时,为了应对突发情况,智能供应链Y业务部研发团队还针对这次春晚活动专项进行了仓库的布局和仓储网络的优化,以保证活动期间的订单履约及货物的灵活配送。

京东的仓储有较大区域性的仓库RDC,和一些小的仓库的FDC,比如京津冀区域,北京是区域的RDC,覆盖整个北京周边的仓储,而天津、河北的一些城市则是FDC,在物流运输时,通常是把大仓库的货物调去小仓库,再由小仓库进行配送。

这种时候,大仓和小仓货物的分配,就显得尤其重要。近1300个仓库,智能供应链Y业务部研发团队需要计算出每个仓库的提前备货与配货,同样是非常艰巨的挑战。

但也正是这样多、这样复杂的提前准备,让京东供应链真正做到了高效敏捷。京东的春晚第一单,在当晚就已送到贵州毕节。消费者在这个春节,能买到自己想买的货,货也能及时送到家。

70岁的杜建军今年又是一个人过年。

近几年因为疫情反复,杜建军担心他们回乡的安全,每年新年前和他们打电话时,都会先发制人地告诉他们:“你们莫回来,今年疫情凶的很,你们在外头好生就行。”

为这,孙子远程教会了他打视频电话,也教着他在京东上购物;儿子和他共享了京东账号,让杜建军想买什么都能自己买。

大年三十晚上,杜建军跟孩子们视频完,坐在电视前等春晚。到互动环节时,他听见主持人说摇一摇就能参与分15亿红包和好物,赶紧把手机拿出来,点进京东,把手机拿在手里晃了晃。

嘿,还真中了个红包!

杜建军回回跟抢,有红包有代金券,高兴的合不拢嘴,他正好想买点年货,但抢来的这些券啊、红包啊,也不知道能不能用。他以前买东西也没注意这些。

而且红包下面还有一个击鼓迎春的游戏,看着也挺有趣的,而且还有福利能拿,但规则有点复杂。孩子们不在身边,这种新玩意儿他也不知道问谁。他看见电视上说有咨询热线,想要打电话咨询,但又不敢——他不会普通话,还被孩子说过说的是“土四川话”,口音重,他怕别人听不懂。

但电视上又说了,方言也能打。他犹豫了一下,还是拨打了电话,“那个,你们那个敲鼓的,囊个耍喃?”

对面的AI语音识别到了“敲鼓”的关键词,知道他其实想说的是击鼓迎春,耐心地告诉了他玩法,杜建军把电话开成扩音,按电话里说的去试,果然又获得了一波福利。他兴高采烈,又问:“那你们那个红包,囊个用喃?”

客服同样耐心地告诉了他红包使用的方法,杜建军浏览京东页面,很快下单了坚果年货,没想到第二天就到了。

他高兴地和孩子们炫耀,对今年的活动赞不绝口。

“我一个不晓耍手机的,今年好安逸哦,抢到红包了。那些接电话的,把我说的话听得好清楚哦,凶(厉害)得很!我还买了东些(东西),到的好快哦!”

对这些不怎么会玩手机的老年人而言,对方听得懂他们的话,能给他们正常的解答,就能让他们乐呵半天。因为他们不再觉得自己不懂、不知道、被时代抛弃了。

而这种利好于老年人的良好体验背后,离不开京东智能客服智能语音团队,在一周多的时间里快速迭代出的智能语音识别功能。

图 | 京东智能客服智能语音团队

范璐在1月初得到消息,京东将会参与此次的春晚红包互动,而观看春晚的观众,很多是父辈、祖辈这些年纪较大的人,他们对app的交互不是很理解,却能自然地打电话。

在春晚红包互动这样的场景下,因对红包和活动有疑惑、打电话咨询的人必然不在少数,智能语音团队预估这一流量是双十一高峰的数十倍左右。

这么多电话咨询如何承接?京东的客服不可能在短时间内迅速拓展数十倍,且这些年纪比较大的人多说方言,对客服而言也是很大的挑战。

基于此,京东智能客服智能语音团队决定,通过智能AI的语音交互,解答前来咨询的用户的问题。

他们梳理了用户可能会问到的问题,通过智能AI对用户的问题进行识别,并给出精准回复,这样就能较好地提升效率。

而在过去的三年多时间里,智能语音团队也通过将方言按区域进行分类分析而构建出了一个方言数据库的模型。

在智能AI接通电话时,它会通过接入用户的问话,判断这一用户的语言来自什么区域,再套用进这个区域里面的语言表达,来分辨他们的意图,从而给出正确的答复。

在应用时,这一智能AI的语音识别准确率(包括重口音方言)基本能达到95%以上。

从算力腾挪到安全防护,从支付升级到供应链提前筹备,再到智能AI对方言识别率的升级,在今年春晚新玩法的背后,是京东云团队的一群人的不懈努力,才最终支撑起京东春晚红包的顺利进行。

今年的春晚红包,有着史上最短的备战时间——19天,但又是世界上规模最大的网络互动活动——峰值可达数亿级别,同时也还又着全球最复杂的场景——春晚红包互动叠加京东支持全国“年货春运”中的整体供应链履约,刷新了春晚全球最复杂技术场景的新纪录。

在时间如此短,挑战如此大的情况下,京东无疑交出了一份让人满意的答卷。

图 | 春晚结束后,大家在庆祝

而这样的成绩之后,离不开京东云团队每一个人的努力与协同。

智能语音团队的范璐还记得,临上线前的周五,团队还在继续调试问题,他们当时对具体场景里春晚的词梳理时,发现了之前没有考虑到、可以优化的点,在仅剩几天的时间里,他们又重新梳理工作、重新执行。当时大家加班到凌晨3点。

但在那个时刻,范璐却觉得非常感动。当这个目标摆在眼前时,大家都以目标为导向、齐心协力地想着把事情做好,而这种“想做好事情”的状态,让大家愿意付出、愿意努力,而事成之后,内心也会涌出大量的喜悦:这是我做的,我把这件事做得很完美。

那个时刻,是无论如何也不会忘记的。

在京东云,这样的人很多,他们自愿放弃了回家的机会,在公司随时监测系统和数据的动态;为了达成一个较满意的目标或方案,多次修改,废寝忘食。

而正是有了他们,有了京东云内部这样以目标为先的氛围,京东云才成为一支有效率、有战斗力的团队,才能想他人之不敢想,将挑战和困难都克服下来。

在大时代下,每一个小人物都值得被看见,每一个小人物都不普通。

我们关注每一个垂直行业的参与者、亲历者,

将视角切换到这些参与到时代变迁、企业进化的人群身上,

通过更专业细腻的笔触,让更多人看见更多人。

先后荣获

2021年百度百家号优质成长力作者

2021年度凤凰新闻大风号影响力TOP50作者

2021年度网易新闻网易号年度影响力作者

2020年度钛媒体年度十大作者

2020年度腾讯新闻企鹅号优秀内容合作伙伴

2020年度ZAKER影响力排行榜最有价值作者

……

如您有合适的作品,可将稿件直接发给fangyuanjing2019@163.com

稿件一经采用发布,即刻支付稿费。

本文首发于微信公众号:显微故事。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。