虎年春晚的精彩瞬間還歷歷在目。
也許你印象最深的是《憶江南》那仿佛在畫中游覽的沉浸感、張小斐的青色大衣、或是演活了千里江山圖的《只此青綠》……
除了精彩紛呈的歌舞語言節目,虎年春晚也增加了各種和觀眾互動的趣味玩法,其中不得不提的是搶紅包環節。
今年央視春晚直播期間,京東共發放總價值達15億元的紅包和實物,邀請全民互動。官方數據顯示,春晚期間,全球華人參與京東APP紅包累計互動量達到691億。
這背后,是無數京東云團隊成員的日夜奮戰——當這些流量洪峰在除夕當晚集中涌入京東,對京東的各團隊帶來巨大的挑戰。
京東春晚紅包的互動遠比往年復雜。
除了“搶紅包”這一動作外,還涉及后續的用戶下單、配貨等流程,每一個鏈路環節的增加,也使春晚場景的復雜度和應對難度呈指數級的增長,刷新春晚全球最復雜場景的記錄。
算力資源如何分配、如何保證活動和用戶信息的安全、如何保證支付的順暢、供應鏈精準的提前籌備,如何保證用戶的每一個疑問都得到解答,這些問題成為京東各技術團隊必須面對的問題。
本期顯微故事,聚焦京東春晚紅包備戰前的19天,看京東云等京東技術團隊們,如何在這么短的時間里,逐一攻破各個鏈路環節的難點,讓此次春晚紅包互動能順利進行。
以下是關于他們的真實故事:
文 | 小北
編輯 | 卓然
1月3日,元旦假期還未結束,京東云云艦團隊的周光突然接到消息:京東將成為此次2022年央視春晚的獨家互動合作伙伴。
這是一個數百億級的互動活動,所需要匹配的算力資源非常可觀。
在軟件上,用戶的任何行為都需要算力資源,而像春晚紅包互動這樣的人數規模,用戶增加必然會增加到數億,算力要求極高,且挑戰極大。
如果算力不足,可能導致京東的界面或紅包界面刷新不出來,用戶搶不到紅包,此外還無法支持系統的運行,整個系統可能都會垮掉。更何況,此次京東春晚互動的業務場景還比往年更為復雜。
京東作為一個購物app,它所需要承擔的不僅是紅包的互動,還包括用戶領取紅包后涉及到的交易、支付、客服等內容,且由于京東自營的商品都由京東配送,所以后續還會涉及到分揀、配送等業務場景,整個鏈路超長。
紅包互動和購物交易這兩個場景的差異又較大,峰值頻繁往返切換,技術挑戰極大。在這種情況下,算力資源的缺失,對這樣一場數以億計的活動而言,無疑是致命的。
但留給京東云的,只有19天。
圖 | 正在備戰的京東云云艦團隊
業內通行的辦法,是為了匹配這種算力需求,購入新的服務器。但留給京東云的時間實在太少了,他們甚至連采購也來不及,且如果要滿足此次春晚互動復雜的場景,他們需要在現有的CPU核的基礎上,另外采購上萬臺的服務器。
這根本是一個不可能實現的任務。在仔細思考之后,京東云團隊決定:利用京東云云艦騰挪現有算力,來支持春晚紅包互動這個數百億級的活動。
這是一個艱難的挑戰。京東APP中有大量應用,這些應用如何分配,每個應用涉及到的資源要壓縮到什么程度,才既不影響它本身的使用,又能為春晚的紅包互動提供空間?
同時,這種資源的騰挪還必須在秒級的時間里壓縮或釋放,才能保障用戶體驗的順暢。京東云云艦團隊必須通過一次又一次的壓力測試和系統監測來解決這個問題。
為了避開用戶的使用時間,云艦團隊通常都選擇晚上壓測。有一天晚上,凌晨1點壓測,到了3點,突然發現一些機器出現問題,掛掉了。
這是以前從未出現的情況。當時值班的同事就打電話把相關人員全都叫起來,排查到底是什么情況。
實際上,掛掉的機器數量并不多,對整個京東很大規模的服務器來說,這部分的資源占比非常小。但京東云云艦進行大規模資源調度,對資源調度的精準性要求極高,哪怕只是極少數的服務器資源,也需要保障到位。
大家都很緊張,在第一時間趕到了公司,排查當時機器到底發生了什么事,掛掉的機器的日志又是怎樣的,他們一刻不停地拉群、電話溝通,從早上4點,一直忙到晚上7、8點,中間沒有休息,吃飯也是外賣來了快速吃兩口,就怕來不及。
終于,他們在14個小時后定位到了問題,并快速解決。那個時候,盡管大家都被疲憊,但卻又都有一種自豪感:我們解決了這個問題,我們可以更有信心的保證春晚的運行了。
對一個軟件而言,算力資源是保證其運行的基石。
云艦團隊這種迎難而上、立即想辦法解決問題的狀態,最終使得京東云在不另外購置服務器的情況下,實現了數以億計的春晚紅包互動,讓整個用戶體驗能順暢又愉快地進行下去。
同樣沉默但不可或缺的,還有安全團隊。春晚涉及到大量的新業務上線,而往往新業務又是最容易出現安全問題、最容易被外部利用。
有一些安全問題后果非常嚴重,比如命令執行漏洞,它可以直接操作服務器,甚至把整個服務器關掉,使得活動無法進行。還有些安全漏洞會定位到用戶登陸權限,或者將用戶重定向到其它網站,對用戶造成很強的干擾。
安全團隊要做的,就是在春晚活動上線前,進行反復的測試和排雷,讓活動和用戶都不受影響。而在構建安全防控網上,有一個業內普遍存在的難點:如何防護DDoS的攻擊?
圖 | 京東安全團隊正在通力合作
這是一種試圖通過多個來源的惡意流量造成在線服務、網站和網絡應用程序不堪重負、算力耗盡而陷入癱瘓的攻擊手段。
它是正常請求,但請求量特別大,當量大到服務器不能承載時,就會崩盤。在春晚紅包互動這樣一個本身就有超大量級的請求的前提下,如果再出現DDoS攻擊,后果不堪設想。
安全團隊收集了大量數據,從攻擊者視角對完成安全部署的云環境進行滲透測試并自查,確保部署策略有效,確保應急響應、策略處置滿足項目要求。
安全團隊的王陶冉記得團隊為了制定有效的安全防御策略,大家熬夜到凌晨。那種為了目標達成共同思考努力解決問題的感覺讓他頗受觸動。
當春晚活動上線后,用戶并沒有因安全問題而出現不好的體驗時,他覺得:一切都值得了。
同樣要在19天時間里全面更新的,還有京東支付技術團隊與智能供應鏈Y團隊。
在算力能支持數億人完成紅包互動、安全防護為活動與用戶保駕護航的前提下,京東還必須做好此次紅包互動的用戶體驗,讓用戶在搶完紅包后的購物與商品送達環節能獲得良好的體驗。
元旦時,樊明幸接到了關于支付升級的通知。作為京東支付技術團隊中的一員,他知道京東的支付科技在無數次的大促中都在不斷進步。
圖 | 京東支付技術團隊正在緊張工作
以點擊結賬后出現的支付頁面為例,這一頁面需要展示各種支付工具和活動信息,各種支付方式目前又有怎樣的優惠活動,都需要向后臺確認信息并展示在這個界面上。
而當用戶選擇某種支付工具后,后端會進入真正的扣款流程,需要校驗密碼、報送風險、確認優惠券的使用邏輯,確認扣款邏輯等,而扣款成功后,也涉及到給商家結算等。因而盡管用戶只是按下了“付款”這一按鍵,但后臺需要走過的鏈路卻非常多。
在這種情況下,任何一個節點上的不順暢,都會導致用戶整體體驗的滑坡。那時,用戶點擊付款后,看到的往往不是付款方式頁面,而是顯示一個圈,不停地loading加載。
而經過多次京東618、11.11、年貨節等大考,樊明幸帶領技術團隊將支付的反應速度在原來的基礎上提升了6倍,使用戶的體驗更為順暢,也為保障春晚互動活動打下了堅實基礎。
春晚時,用戶會大量涌入京東,會出現較為集中的下單場景,頁面反應速度的提升能幫助用戶有更順暢的體驗。
但對樊明幸來說,此次京東支付技術團隊所面臨的最大挑戰并不是支付速度,而是面臨像春晚這樣數十億人的紅包互動活動,一切都是未知的,一切都要新建。
“以往,支付技術團隊關注的是用戶的交易支付鏈路,但在此次春晚紅包互動的過程中,用戶除了要付款外,還會有大量的流量涌入「我的錢包」查看領到的紅包余額,這意味著我們需要備戰一條全新的鏈路,并將之升級到一個較好的水平。”
在短短的19天的時間里,京東支付技術團隊需要將整條新鏈路涉及到的內容都梳理清楚,預估各個環節涉及到的流量峰值,測試風險點,在短時間內進行架構的升級和優化。這在以往是需要提前2-3個月去準備的工作,但此次他們只有不到一個月的時間,且未知的變數也較大。
但團隊中的每一個人,都抱著想把這件事做好的目的去,方案不夠完美,大家就一起提建議、修改,有的方案甚至改上幾十版,才最終確定下來。
后來的成果也是顯而易見的。在如此大體量的流量沖擊下,京東扛住了用戶的流量壓力,從紅包領取、查看,到使用支付,都非常順利。
而在支付之外,京東還需要考慮的,是如何在春晚期間利用數智化供應鏈能力保障用戶的購物體驗。供應鏈對用戶購物體驗的保障主要包括兩方面,一是現貨率,一是履約時效。
雖然是春節期間,用戶下單的時候也需要有現貨,而且還需要保障履約時效。也就是讓消費者買到想買的東西,以及更快地把商品送到用戶手里。京東自營的商品通常是當日達或次日達,而要做到這一點,各城市倉庫的提前備貨,就顯得尤為重要。
但京東僅自營就服務了千萬量級的商品,有近1300家倉庫的布局,而每個區域、每種種類的商品銷量預測都會不同,需要按區域、按倉庫去預判什么地區、什么倉庫應該提前備好哪種商品,整個計算量達到億級水平,計算難度非常大。
智能供應鏈Y業務部的石正新正是負責這一工作的團隊成員之一,用戶想買什么,能買什么,怎么讓各區域的用戶買到他們想買的東西,是石正新必須解決的問題。
圖 | 京東智能供應鏈Y業務部
在春晚紅包互動這個節點上,由于觀看春晚的用戶體量的龐大,流量和訂單都會在那一時段集中爆發。這種爆發和大促有一定的相似性,不同的是,春晚是一個全新的場景,在這個場景下,一切都是需要重新計算的,春晚的收視率、各地疫情不同的程度,以及各地對物資的不同需求……
多重因素的影響,使得這次流量和商品庫存的運算變得非常復雜。
為了更好地提升用戶體驗,京東智能供應鏈Y業務部研發團隊的小伙伴通過遷移學習的算法,把從前大促經驗的留存,復刻到春晚的場景里,專門針對這次活動做了一套銷量的預估模型,按區域、按品類做更準確的銷量預測。
以糖果為例,在年貨節期間,南方區域的糖果銷量往往會增加,如廣州是平時的2倍左右,而西北區域的銷量則變化不大。而京東自營的千萬量級商品,每一種都要做相關的區域和數量預測。
同時,為了應對突發情況,智能供應鏈Y業務部研發團隊還針對這次春晚活動專項進行了倉庫的布局和倉儲網絡的優化,以保證活動期間的訂單履約及貨物的靈活配送。
京東的倉儲有較大區域性的倉庫RDC,和一些小的倉庫的FDC,比如京津冀區域,北京是區域的RDC,覆蓋整個北京周邊的倉儲,而天津、河北的一些城市則是FDC,在物流運輸時,通常是把大倉庫的貨物調去小倉庫,再由小倉庫進行配送。
這種時候,大倉和小倉貨物的分配,就顯得尤其重要。近1300個倉庫,智能供應鏈Y業務部研發團隊需要計算出每個倉庫的提前備貨與配貨,同樣是非常艱巨的挑戰。
但也正是這樣多、這樣復雜的提前準備,讓京東供應鏈真正做到了高效敏捷。京東的春晚第一單,在當晚就已送到貴州畢節。消費者在這個春節,能買到自己想買的貨,貨也能及時送到家。
70歲的杜建軍今年又是一個人過年。
近幾年因為疫情反復,杜建軍擔心他們回鄉的安全,每年新年前和他們打電話時,都會先發制人地告訴他們:“你們莫回來,今年疫情兇的很,你們在外頭好生就行。”
為這,孫子遠程教會了他打視頻電話,也教著他在京東上購物;兒子和他共享了京東賬號,讓杜建軍想買什么都能自己買。
大年三十晚上,杜建軍跟孩子們視頻完,坐在電視前等春晚。到互動環節時,他聽見主持人說搖一搖就能參與分15億紅包和好物,趕緊把手機拿出來,點進京東,把手機拿在手里晃了晃。
嘿,還真中了個紅包!
杜建軍回回跟搶,有紅包有代金券,高興的合不攏嘴,他正好想買點年貨,但搶來的這些券啊、紅包啊,也不知道能不能用。他以前買東西也沒注意這些。
而且紅包下面還有一個擊鼓迎春的游戲,看著也挺有趣的,而且還有福利能拿,但規則有點復雜。孩子們不在身邊,這種新玩意兒他也不知道問誰。他看見電視上說有咨詢熱線,想要打電話咨詢,但又不敢——他不會普通話,還被孩子說過說的是“土四川話”,口音重,他怕別人聽不懂。
但電視上又說了,方言也能打。他猶豫了一下,還是撥打了電話,“那個,你們那個敲鼓的,囊個耍喃?”
對面的AI語音識別到了“敲鼓”的關鍵詞,知道他其實想說的是擊鼓迎春,耐心地告訴了他玩法,杜建軍把電話開成擴音,按電話里說的去試,果然又獲得了一波福利。他興高采烈,又問:“那你們那個紅包,囊個用喃?”
客服同樣耐心地告訴了他紅包使用的方法,杜建軍瀏覽京東頁面,很快下單了堅果年貨,沒想到第二天就到了。
他高興地和孩子們炫耀,對今年的活動贊不絕口。
“我一個不曉耍手機的,今年好安逸哦,搶到紅包了。那些接電話的,把我說的話聽得好清楚哦,兇(厲害)得很!我還買了東些(東西),到的好快哦!”
對這些不怎么會玩手機的老年人而言,對方聽得懂他們的話,能給他們正常的解答,就能讓他們樂呵半天。因為他們不再覺得自己不懂、不知道、被時代拋棄了。
而這種利好于老年人的良好體驗背后,離不開京東智能客服智能語音團隊,在一周多的時間里快速迭代出的智能語音識別功能。
圖 |京東智能客服智能語音團隊
范璐在1月初得到消息,京東將會參與此次的春晚紅包互動,而觀看春晚的觀眾,很多是父輩、祖輩這些年紀較大的人,他們對app的交互不是很理解,卻能自然地打電話。
在春晚紅包互動這樣的場景下,因對紅包和活動有疑惑、打電話咨詢的人必然不在少數,智能語音團隊預估這一流量是雙十一高峰的數十倍左右。
這么多電話咨詢如何承接?京東的客服不可能在短時間內迅速拓展數十倍,且這些年紀比較大的人多說方言,對客服而言也是很大的挑戰。
基于此,京東智能客服智能語音團隊決定,通過智能AI的語音交互,解答前來咨詢的用戶的問題。
他們梳理了用戶可能會問到的問題,通過智能AI對用戶的問題進行識別,并給出精準回復,這樣就能較好地提升效率。
而在過去的三年多時間里,智能語音團隊也通過將方言按區域進行分類分析而構建出了一個方言數據庫的模型。
在智能AI接通電話時,它會通過接入用戶的問話,判斷這一用戶的語言來自什么區域,再套用進這個區域里面的語言表達,來分辨他們的意圖,從而給出正確的答復。
在應用時,這一智能AI的語音識別準確率(包括重口音方言)基本能達到95%以上。
從算力騰挪到安全防護,從支付升級到供應鏈提前籌備,再到智能AI對方言識別率的升級,在今年春晚新玩法的背后,是京東云團隊的一群人的不懈努力,才最終支撐起京東春晚紅包的順利進行。
今年的春晚紅包,有著史上最短的備戰時間——19天,但又是世界上規模最大的網絡互動活動——峰值可達數億級別,同時也還又著全球最復雜的場景——春晚紅包互動疊加京東支持全國“年貨春運”中的整體供應鏈履約,刷新了春晚全球最復雜技術場景的新紀錄。
在時間如此短,挑戰如此大的情況下,京東無疑交出了一份讓人滿意的答卷。
圖 | 春晚結束后,大家在慶祝
而這樣的成績之后,離不開京東云團隊每一個人的努力與協同。
智能語音團隊的范璐還記得,臨上線前的周五,團隊還在繼續調試問題,他們當時對具體場景里春晚的詞梳理時,發現了之前沒有考慮到、可以優化的點,在僅剩幾天的時間里,他們又重新梳理工作、重新執行。當時大家加班到凌晨3點。
但在那個時刻,范璐卻覺得非常感動。當這個目標擺在眼前時,大家都以目標為導向、齊心協力地想著把事情做好,而這種“想做好事情”的狀態,讓大家愿意付出、愿意努力,而事成之后,內心也會涌出大量的喜悅:這是我做的,我把這件事做得很完美。
那個時刻,是無論如何也不會忘記的。
在京東云,這樣的人很多,他們自愿放棄了回家的機會,在公司隨時監測系統和數據的動態;為了達成一個較滿意的目標或方案,多次修改,廢寢忘食。
而正是有了他們,有了京東云內部這樣以目標為先的氛圍,京東云才成為一支有效率、有戰斗力的團隊,才能想他人之不敢想,將挑戰和困難都克服下來。
在大時代下,每一個小人物都值得被看見,每一個小人物都不普通。
我們關注每一個垂直行業的參與者、親歷者,
將視角切換到這些參與到時代變遷、企業進化的人群身上,
通過更專業細膩的筆觸,讓更多人看見更多人。
先后榮獲
2021年百度百家號優質成長力作者
2021年度鳳凰新聞大風號影響力TOP50作者
2021年度網易新聞網易號年度影響力作者
2020年度鈦媒體年度十大作者
2020年度騰訊新聞企鵝號優秀內容合作伙伴
2020年度ZAKER影響力排行榜最有價值作者
……
如您有合適的作品,可將稿件直接發給fangyuanjing2019@163.com
稿件一經采用發布,即刻支付稿費。
本文首發于微信公眾號:顯微故事。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。