資料中心網路擁塞問題之簡介
為了給使用者提供高質量的雲服務,許多大型網際網路企業,如微軟、谷歌、亞馬遜和阿里巴巴等,在全球修建了許多資料中心。在資料中心內部,數以萬計的伺服器通過高頻寬(10-100 Gbps)低時延(0-100 us)的資料中心網路(Data Center Network,DCN)相連。資料中心內執行著很多對延遲敏感的實時應用,比如電商零售、搜尋、社交網路等。這些實時應用的使用者請求需要儘快得到響應,而較高的響應延遲將嚴重影響使用者體驗,降低公司的運營收入。
資料中心網路流量以其突發性著稱,當流量瞬間爆發時,極易在流量接收端產生擁塞(端點擁塞)。不恰當的路由也會導致網路內部流量不均衡,從而產生內部擁塞(鏈路擁塞)。網路擁塞般可以通過負載均衡機制來解決。一旦發生擁塞,流量的網路延遲和吞吐量都會受到影響,從而造成較長的應用響應時延和更差的使用者體驗。傳統資料中心的內部網路是有損網路(lossy network),網路發生嚴重擁塞時交換機可以直接丟棄資料包。由於資料中心交換機的緩衝區較小,加之資料中心流量的突發性特點,擁塞丟包在資料中心十分常見。丟包的後果會造成較高的重傳時延,從而影響實時應用的效能。學術界與工業界都十分關注傳統有損資料中心網路的擁塞問題,採取了一系列擁塞控制機制,以降低網路中的排隊和擁塞丟包問題。即便如此,這些機制也很難完全避免擁塞丟包。著名的DCTCP協議在網路擁塞並不嚴重時可以有效控制交換機佇列長度,但是當出現大量併發連線時,DCTCP仍難以避免交換機緩衝區的溢位。為了徹底解決擁塞丟包問題,許多公司已經嘗試在資料中心部署無損網路(lossless network)。