為了讓攜程上萬員工上好網,他們做了這些
作者簡介
孫穎, 攜程技術保障中心網路管理團隊高階工程師。從事IT網際網路網路運維工作十餘年,目前負責IT網路及WiFi網路設計、建設及運維。
引言
隨著移動網際網路的飛速發展,WiFi也已經成為企業辦公網路必不可少的基礎設施。越來越多的企業對無線辦公網產生了極為剛性的品質需求。曾經“WiFi不好影響工作”的玩笑,放在今天已成為事實。
遺憾的是,許多無線辦公網建成後的使用品質與預期存在不小的差別,“網路不好”的抱怨不絕於耳又難以解決,究其原因,主要是由於“交付與運維沒有到位”。
對於任何網路系統來說,在裝置規格滿足需求的情況下,規劃、交付和運維水平決定了實際使用效果。但相對於有線網路,WiFi網路的質量受到更多因素的干擾,更易引起質量下降且排查困難。這給Wifi網路的交付與運維帶來了很大的挑戰。
本文基於實踐經驗,定位於為WiFi組網提供從交付到運維階段的技術賦能,從以下兩方面為企業WiFi的IT管理者提供一些借鑑與啟發。
1)瞭解WiFi運維方法論;
2)提升WiFi運維能力。
一、攜程WiFi平臺概述
2015年攜程總部進駐凌空SOHO。依託主流廠商解決方案,完成無線WiFi全面覆蓋。目前共計部署AP資訊點600+,覆蓋達10+萬平方米,,日均活躍終端突破7000,峰值下行吞吐量超過1Gbps。
邏輯拓撲(見圖1)
圖1
二、開局篇
首先需要明確,文件主要專注於WiFi品質的優化工作,其它相關工作應結合企業自身環境及需求完成基礎建設。
開局涉及網路規劃、網路交付兩個階段。開局似建築過程中的地基環節,只有地基打好了,才能起高樓。
大型企業實現WiFi高密度部署,確保使用者體驗的主要挑戰:
1)無線的全面覆蓋;
2)無線容量與干擾的平衡;
3)內網的安全威脅。
2.1 無線的全面覆蓋
以攜程為例,辦公區域面積大,結構複雜。無線訊號的覆蓋需要綜合考慮建設結構、穿透損耗及佈線等具體情況。WiFi有效覆蓋涉及AP覆蓋、AP容量兩方面,瞭解AP覆蓋的基礎知識,對360度的無死角覆蓋及AP選型將有極大幫助。
AP覆蓋的有效範圍取決於AP和終端之間的鏈路預算。鏈路預算計算公式如下:終端接收訊號強度=AP發射功率+AP發射天線增益-空間傳輸距離衰減-障礙物損耗+終端接收天線增益。其中,空間距離對訊號的衰減如下:
為滿足移動辦公場景下BYOD不同型別終端(便攜筆記本、智慧手機、PAD、啞終端等)的接入體驗,終端訊號強度及AP覆蓋半徑建議值如下:
-
重點覆蓋區域終端接收訊號電平應大於-65dBm;
-
普通覆蓋區域終端接收訊號電平應大於-75dBm;
-
空間開闊且使用者較少時,AP覆蓋半徑<20米;
-
空間開闊且使用者密集時,AP覆蓋半徑5~8米為宜;
-
存在少量障礙物遮擋且使用者數分佈適中時,AP覆蓋半徑以8~12米;
-
存在大量障礙物遮擋時,重點考慮障礙物對訊號的衰減,建議對小空間單獨AP覆蓋。
2.2 通道的配置優化
對於密集和資料流量需求高的場景,密集布放AP是提升使用者體驗的一種重要手段。但密集布放常常導致通道之間的相互干擾,從而影響使用者體驗。大型移動辦公必須對WLAN通道進行統一規劃並實施。
攜程網WiFi遵循:雙拼蜂窩覆蓋、交叉複用原則(見圖2),保證通道間不相互干擾。
圖2 雙頻蜂窩覆蓋
WiFi系統主要應用兩個頻段:2.4GHz和5.0GHz。由兩個頻段自身通道的特性,在高密度的場景下需要儘量的抑制2.4G射頻,避免低速使用者傳輸對網路傳輸的影響。
2.3 內網的安全威脅
同一vlan內、不同vlan間通訊的終端應採用隔離技術,有效防止終端之間傳輸大量檔案損耗AP有限的頻寬資源,也防止終端之間的任意互訪有可能導致的資料竊取、檔案中毒等惡意行為,最大限度地確保辦公安全,提高辦公效率。
三、運維篇
開局篇網路優化只是打好了地基。長期良好的WiFi上網品質,是以貫穿整個WiFi系統生命週期的優化工作為基礎,需要持續投入。
WiFi運維的痛點:
1)設定引數多,網路優化難。WiFi網的優化相對來說複雜,包含了射頻領域的專業知識,甚至多數情況下無法直接找到優化網路的設定項及設定值,只能通過多維度的資料看到幕後端倪。
2)網路體驗資料難以收集和展現。單憑文字描述已經很難達到預期效果,如何量化網路服務水平,將直接制約網路資訊部門的工作成果評估。
以上兩大煩惱,揪其主要原因在於大多數企業對WiFi的運維簡單拷貝有線網運維經驗,主要依靠廠商提供的網優功能,僅從系統裝置層面對系統的健壯性進行監控,而很少從提供使用者服務體驗的角度建立、健全監控機制。
3.1 規劃有效的KPI引數
任何網路平臺的搭建都有其原生的管理系統管理平臺。多數情況,原生管理系統僅從裝置效能角度出發,列舉儘可能的引數指標。WiFi系統環境多變,引數繁雜,監控資料的蒐集涉及許多層面的知識(諸如功率、通道規劃等)。
如果不對其進行梳理,只是簡單實現對其有無的監控,則很難發揮這些資料價值,對整個系統缺乏有效評估:一方面導致運維處於被動式的排障;另一方面導致排障階段出現類似“瞎子摸象”的困局。
解決問題的關鍵是把“概況-體驗”結合,一方面借鑑有線網路運維經驗,甄別原有監控平臺的各項指標,遴選出全域性、區域性二個層面的KPI綜合評分,建立全網主動運維能力;另一方面加強對使用者體驗的關注,利用自身開發平臺,縱深收集使用者網路層指標,從使用者可用性角度建立使用者層面的KPI指標。
攜程結合自身的運維經驗,
-
全域性、區域性的KPI考量、彙總表如下:
維度 |
指標名稱 |
適用場景 |
認證伺服器 |
伺服器基礎 |
全域性WiFi路徑裝置級監控 |
服務狀態(死活) |
||
AC |
AC 名稱 |
全域性WiFi基礎網路質量監控 |
線上時長 |
||
CPU 實時利用率 |
||
記憶體實時利用率 |
||
介面流量統計 |
||
AP |
AP 名稱 |
區域性WiFi基礎網路質量監控 |
AP CPU 利用率 |
||
AP 記憶體利用率 |
||
AP 介面速率 |
||
接入終端 |
||
接入成功率 |
||
接入掉線率 |
||
上/下線監控 |
||
射頻 |
通道利用率 |
|
噪聲強度 |
-
自建監控平臺,為使用者提供使用者角度KPI呈現入口,同時將生硬、專業的引數指標轉化為網路可達性、可用性指標:(示例見圖3)
圖3
3.2 量化系統基準及使用者評估體驗
WiFi網缺乏量化的資料評估,一直以來是無線網使用者體驗難有提升空間的原因。WiFi運維下經常會聽到使用者反饋“上網慢”等模糊性體驗的抱怨之聲。在此情況下,因為缺乏有效的基準資料和使用者體驗量化值,從而造成網路運維人員心理評估基線與使用者實際需求管理之間的溝通障礙。
一方面報障階段資料缺失,運維人員不能準確理解使用者抱怨點,造成疲於奔命的解釋和漫無目的的查詢原因;另一方面解決效果缺乏資料支撐,對使用者模稜兩可的回答造成使用者被忽悠的感覺。WiFi運維工作處於兩難的困境。
3.3 部署“探針“,量化服務基準值
建立使用者體驗指標,我們就需要廣泛收集終端網路訪問閉環週期內的相關指標。但由於使用者終端裝置的私有屬性及手機平臺的限制,無法通過實際使用者終端持續有效的獲取使用者資訊。
對此,攜程網路運維團隊另闢蹊徑,基於“樹莓派”產品進行開發,模擬使用者Http訪問,通過撥測方式收集、統計DNS解析時長、WEB連線時長、下載速度等資訊,從而實現“基準分析“模組,用直觀的方式呈現WiFi網路的執行情況。
使用者微信的使用效果經常是企業“WiFi好不好”的直接體現。微信通訊協議:為保證穩定,微信用長連結和短連結相結合,微信劃分了http模式(short連結)和 tcp模式(long 連結),分別應對狀態協議和資料傳輸協議。
1)short.weixin.qq.com主要用途:
-
使用者登入驗證;
-
好友關係(獲取,新增);
-
訊息sync (newsync),自有sync機制;
-
獲取使用者影象;
-
使用者登出;
-
行為日誌上報。
-
朋友圈發表重新整理
2)long.weixin.qq.com主要用途:
-
接受/傳送文字訊息;
-
接受/傳送語音;
-
接受/傳送圖片;
-
接受/傳送視訊檔案等。
基於上述說明,攜程利用探針程式,通過以下指標,從DNS解析-->TCP連線-->客戶端準備-->伺服器響應-->資料傳輸進行階段監測。(見圖4)
圖4
3.4 量化使用者體驗值
針對使用者反饋無量化問題,攜程在內部“程里人”系統下嵌入無線自檢工具。使用者可主動在終端發起測試,將問題時段的“訊號取樣“及”WEB下載速度“直接上報至後臺系統,解決使用者體驗與資料量化之間的矛盾。(示例見圖5)
圖5
四、排障篇
WiFi排障存在兩大難點:
1)網路故障難以重現。很多時候使用者反映WiFi網問題,需要至現場反覆確認,很多問題由於無法重現當時情景,導致無法及時得到處理,從而影響使用者體驗和服務效率;
2)企業WiFi多采用有線無線融合運維,WiFi存在“背鍋”問題。對很多終端使用者來說,WiFi就是網際網路,一旦有問題他們就會反饋“WiFi不好”。“WiFi不好”背後存在太多可能性,例如網際網路接入等出現問題,但由於使用者終端缺乏檢測手段,很難有效將故障從有線、無線層面進行界定。
解決上述問題的關鍵在於對使用者資料包歷史的留存。
4.1 建立使用者資料流量包追蹤
有線環境對於個體問題定位的終極解決方案就是抓包分析。借鑑該思路,WiFi排障問題上我們也希望儘可能獲取靠近使用者終端側資料包。 考慮WiFi傳輸層的加密及終端環境多變,故障現象短暫等因素,WiFi環境下終端抓包具有很大侷限性。為此則需要從網路層對使用者的資料包進行留存。
有了上述思路,資料取樣收集點的位置選擇則尤為重要。綜合三方面考慮:1、儘可能靠近使用者側;2、規避加密傳輸;3、明確劃分有線、無線端。
對此,攜程在無線與有線對接點部署“流量採集器”(邏輯圖示見圖6),以上帝視角忠實記錄了從現在往前一端時間內無線網路的完整資料,排障階段不管是對歷史記錄的回溯,還是對復現過程中的模型建立,提供了有效的資料樣本。
圖6
五、案例篇
通過上述WiFi全生命週期監控健全與優化,經過內部實踐,切實對問題的排查起到了的事半功倍之效。
案例一,利用“流量採集器”,對PTK相容性引發的網路故障的定位和解決
內部某使用者反饋:iPhoneXS在連線一段時間後概率性無法上網。通過基礎監控平臺,我們發現問題時段,故障使用者關聯的無線裝置及使用者自身終端的訊號狀態均正常,但網路通訊中斷。
通過“流量採集器”回溯故障時間的使用者資料包(見圖7),通過分析,發現其資料流具有以下特點:1)故障前使用者存在較大的流量下載行為;2)故障時間段AC層面轉發正常。
圖7
基於存檔資料包分析,故障有效定位在AC與終端之間。模擬故障前後使用者資料特性,結合實際環境配置引數,問題很快在廠商實驗環境得到復現,至此發現問題的根本原因為:iPhone BCM晶片終端不支援PTK金鑰更新,PTK定時更新會觸發終端概率性不回報文,導致通訊中斷。通過關閉裝置PTK定時更新功能,故障問題得到根本解決。
案例二,結合監控指標及資料流分析,定位跨AC訪問優化
某使用者終端上報某時間段WiFi通訊中斷。我們通過無線裝置綜合評分情況,定位該區域網路整體質量達標,故障現象屬於個體問題。
進一步向下通過日誌繪製出使用者的漫遊軌跡,發現問題發生在終端跨AC建聯後。結合“流量採集器”的資料包,可以觀察到終端的下行報文還會轉發到漫遊前AC裝置。分析組網結構(見圖8),懷疑跨AC前後MAC表項與ARP表項不統一導致。經過問題復現,上述懷疑得到確認。
經過廠商跟進,確認為交換機存在CPUCAR裝置偏小問題,導致ARP上送過程中有限速丟棄情況,交換機上arp表項無法及時重新整理到漫遊後的流量介面上,導致流量轉發異常。
針對上述問題,我們主要通過以下優化措施,對問題進行了有效解決:
1)優化AP點位拓撲,儘可能避免同區域的跨AC漫遊;
2)適當調整CP car避免arp丟包;
3)閘道器裝置部署mac 聯動arp,解決arp重新整理問題.;
4)進行埠隔離,避免資源消耗。
圖8
六、展望
WiFi優化操作應該基於廣泛全面的資料支撐,而不是憑感覺、憑經驗,雖然在此之上我們已探索一二,但WiFi運維仍大有可為。
如何依託有效的資料蒐集,通過機器學習,感知指標變化,提供基於使用者體驗閉環的智慧運維將成為未來之路。攜程網將與其它大型網路平臺,攜手並進演進之路,讓“無線辦公”變得“無限精彩”。
【推薦閱讀】