在ACM SIGCOMM 2023上,北京大學計算機學院共有10篇高水平論文入選。作為計算機網(wǎng)絡系統(tǒng)領域歷史最為悠久也最為權威的學術會議,SIGCOMM以其嚴苛的標準著稱,對論文的質量要求極高,要求所錄用的論文具有基礎性貢獻、領導性影響和堅實系統(tǒng)背景。本年度ACM SIGCOMM共有323篇投稿,錄用71篇。
據(jù)悉,北京大學是SIGCOMM舉辦37屆歷史上同年錄用論文數(shù)量最多的高校單位(共11篇,其中計算機學院10篇、王選計算機研究所1篇),打破高校紀錄(MIT錄用10篇)和國內高校紀錄(錄用6篇)。同時,北大也是SIGCOMM歷史上以第一作者單位同年錄用論文數(shù)量最多的單位(共9篇,其中計算機學院8篇、王選計算機研究所1篇),打破了此前的紀錄(錄用6篇)。
計算機學院此次被SIGCOMM錄用的10篇論文,研究成果涵蓋多個領域,包括網(wǎng)絡服務遷移規(guī)劃、彈性異構云覆蓋網(wǎng)絡、服務器無感知作業(yè)調度、微觀行為測試工具、移動網(wǎng)絡編碼多路徑視頻傳輸優(yōu)化方案、窗口機制框架、sketch計數(shù)器優(yōu)化框架、數(shù)據(jù)平面自適應網(wǎng)絡測量方案、LRU緩存替換機制和在網(wǎng)計算應用開發(fā)框架等。
以下是論文簡要內容介紹:
一、大規(guī)模數(shù)據(jù)中心中高效安全的網(wǎng)絡服務遷移規(guī)劃

數(shù)據(jù)中心是云計算的基礎設施,其網(wǎng)絡服務遷移任務規(guī)模大、耗時長,通常涉及數(shù)百臺交換機和數(shù)萬條網(wǎng)絡連接,并且需要耗時數(shù)月的原地物理部署工作。此外,網(wǎng)絡服務遷移需要滿足復雜多樣的效率和安全性限制,進一步加大網(wǎng)絡遷移規(guī)劃的挑戰(zhàn)。論文“Klotski: Efficient and Safe Network Migration of Large Production Datacenters”提出了安全高效生成網(wǎng)絡服務遷移規(guī)劃的Klotski系統(tǒng)。該系統(tǒng)應用A*算法和領域特定的優(yōu)先級智能化求解,并利用數(shù)據(jù)中心網(wǎng)絡局部性和壓縮拓撲表示加速求解過程,在滿足操作限制的情況下相比已有方法達到了更高的規(guī)劃效率。該系統(tǒng)已為Meta超過20個地區(qū)100余個數(shù)據(jù)中心提供遷移規(guī)劃支持。該論文第一作者為計算機學院2021級博士生趙怡浩(導師劉譞哲研究員)和Meta研究員張驍翔,作者包括劉譞哲和金鑫副教授,約翰霍普金斯大學祝航,Meta公司張穎、汪照東、田淵棟、Alex Nikulkov、Joao Ferreira等。
二、面向視頻會議場景全球部署的彈性異構云覆蓋網(wǎng)絡

成本和質量是視頻會議服務的關鍵考量因素。視頻會議服務提供商通常在選擇合適網(wǎng)絡線路來構建其基礎設施時面臨兩難選擇:便宜的公網(wǎng)線路會影響視頻會議服務質量,然而使用專網(wǎng)線路會產(chǎn)生較大的日常運營成本。針對該問題,論文“XRON: A Hybrid Elastic Cloud Overlay Network for Video Conferencing at Planetary Scale”提出了一套面向視頻會議場景全球部署的彈性異構云覆蓋網(wǎng)絡XRON。XRON綜合利用公網(wǎng)線路和專網(wǎng)線路實現(xiàn)了同時兼顧視頻會議服務質量和運營成本。此外,XRON能夠利用彈性云資源自適應地滿足視頻會議實時網(wǎng)絡需求。目前XRON技術已經(jīng)規(guī)模化部署,大面積覆蓋釘釘用戶。該論文第一作者為計算機學院2022級博士生吳秉陽(導師金鑫),作者包括金鑫、劉譞哲,阿里巴巴集團錢坤、李波、馬云飛、章琦、蔣志剛、趙加雨、蔡德忠和翟恩南等。
三、服務器無感知數(shù)據(jù)分析的彈性并行調度

服務器無感知計算平臺具有細粒度的資源彈性,適合運行并行任務組成的數(shù)據(jù)分析作業(yè)。現(xiàn)有的服務器無感知數(shù)據(jù)分析調度器的并行度配置策略未能綜合考慮服務器無感知特有的優(yōu)化目標(如單作業(yè)完成時間和運行成本),并且不能感知服務器內部和服務器之間不同的通信開銷對優(yōu)化目標的影響。針對此問題,論文“Ditto: Efficient Serverless Analytics with Elastic Parallelism”提出了支持彈性并行調度的Ditto系統(tǒng)。該系統(tǒng)基于作業(yè)各階段的并行時間特征、階段間數(shù)據(jù)依賴關系和可用資源分布聯(lián)合優(yōu)化作業(yè)的并行度配置和階段間通信,相比傳統(tǒng)方法達到了更低的作業(yè)完成時間,節(jié)省了運行成本。該論文第一作者為2019級本科生金超(導師金鑫),作者包括金鑫、劉譞哲,北京大學黃罡教授、章梓立、向星雨和鄒松運等。
四、針對硬件卸載網(wǎng)絡棧的細節(jié)測試工具

現(xiàn)代數(shù)據(jù)中心廣泛采用硬件卸載網(wǎng)絡棧(比如遠程直接內存訪問,Remote Direct Memory Access),來滿足應用高吞吐量、超低延遲和低CPU開銷的需求。為了充分利用硬件卸載網(wǎng)絡棧的性能,用戶需要深入了解它們的行為,尤其是微觀行為。盡管在測試軟件網(wǎng)絡棧方面已經(jīng)有了很多工作,但硬件網(wǎng)絡棧由于其繞過內核(kernel bypass)的特性和高性能,對測試工具提出了獨特的挑戰(zhàn)。為了測試硬件網(wǎng)絡棧的正確性和性能,論文“Understanding the Micro-Behaviors of Hardware Offloaded Network Stacks with Lumina”提出了測試工具Lumina 。Lumina利用可編程交換機來注入事件,從而模擬各種網(wǎng)絡場景;開發(fā)人員可通過其用戶友好的接口,開發(fā)精確的、可重現(xiàn)的測試。該工作使用Lumina測試了來自NVIDIA和Intel的4種RDMA網(wǎng)卡,發(fā)現(xiàn)了其中影響網(wǎng)絡性能或誤導網(wǎng)絡操作的數(shù)個bug,并捕獲了多個未準確定義的微觀行為。該工作中發(fā)現(xiàn)的嚴重bug已收到供應商確認并將在未來版本中進行修復。該論文第一作者為約翰霍普金斯大學余卓隆(導師金鑫和Vladimir Braverman教授),第二作者為2020級本科生蘇博文(導師金鑫),作者包括金鑫,微軟研究院白巍,Google公司Shachar Raindel和萊斯大學Vladimir Braverman等。
五、面向自動駕駛場景的網(wǎng)絡編碼多路徑視頻傳輸優(yōu)化方案

自動駕駛場景中,除離線分析外,車輛也時常需要將高清視頻實時上傳至遠端服務器,由服務器輔助進行決策分析。現(xiàn)有數(shù)據(jù)傳輸方案或無法適應移動互聯(lián)網(wǎng)中波動劇烈的延遲與丟包率,從而難以保證視頻連接的高吞吐率與低時延;或需要使用大量的冗余數(shù)據(jù)流量,從而難以實際部署。論文“CellFusion: Multipath Vehicle-to-cloud Video Streaming with Network Coding in the Wild”提出軟硬件結合的高清視頻傳輸解決方案CellFusion,在同時使用4G/5G網(wǎng)絡傳輸數(shù)據(jù)的基礎上,將網(wǎng)絡編碼方案嵌入傳輸層協(xié)議,結合視頻應用需求檢測丟失與超時數(shù)據(jù)包,并使用網(wǎng)絡編碼方案高效、低開銷地進行數(shù)據(jù)重傳恢復,在保證高吞吐率、低冗余數(shù)據(jù)開銷的情況下顯著降低了傳輸延時。基于真實駕駛環(huán)境的實驗表明,相比于使用單條路徑傳輸?shù)姆桨概c傳統(tǒng)多路徑傳輸方案,該方案可將數(shù)據(jù)包傳輸延遲的99%分位數(shù)降低71.53%,將視頻卡頓率降低66.11%~80.62%,并將冗余數(shù)據(jù)開銷控制在10%以內。該論文第一作者為計算機學院2018級博士生倪蘊哲(導師為許辰人副教授),作者包括許辰人,阿里巴巴集團鄭智隆、 馬云飛、 蔡德忠和翟恩南等。
六、面向數(shù)據(jù)平面網(wǎng)絡遙測系統(tǒng)的通用、高效的窗口機制框架

數(shù)據(jù)平面網(wǎng)絡遙測系統(tǒng)通常將網(wǎng)絡流劃分為多個窗口分別統(tǒng)計各窗口的流級信息,然而受限于可編程交換機的資源限制,現(xiàn)有工作只支持固定窗口大小的滾動窗口。論文“OmniWindow: A General and Efficient Window Mechanism Framework for Network Telemetry”提出了一個通用且高效的窗口機制框架OmniWindow,在數(shù)據(jù)面將原始窗口拆分為細粒度的子窗口進行測量,在控制面合并子窗口的測量結果,從而實現(xiàn)任意類型、大小的窗口機制。該框架設計子窗口的數(shù)據(jù)平面內存布局、同步方法以及高速狀態(tài)收集重置方案,解決了子窗口機制引入的資源開銷、一致性和切換開銷問題。該框架與1個意圖遙測系統(tǒng)和8種sketch遙測算法相結合,相比傳統(tǒng)窗口機制提升了14.3%的測量精度。該論文第一作者為計算機學院2021級博士生孫海鋒(導師黃群助理教授),作者包括黃群、李佳衡、賀錦濤和桂杰等。
七、基于壓縮感知的通用、幾乎零誤差的sketch計數(shù)器優(yōu)化框架

Sketch因在有限空間中實現(xiàn)高精度查詢的特性被廣泛用于網(wǎng)絡測量。隨著測量業(yè)務流量不斷增加、任務趨于多樣化,有限的片上內存成為了sketch部署的瓶頸。已有的內存優(yōu)化方案均有嚴重的精度丟失或者特定的適用范圍,因而難以使用。論文“BitSense: Universal and Nearly Zero-Error Optimization for Sketch Counters with Compressive Sensing”提出了一個針對sketch計數(shù)器的幾乎零誤差的且通用的內存優(yōu)化框架BitSense。為了實現(xiàn)幾乎零誤差, BitSense利用計數(shù)器值通常向零偏斜的特性,將計數(shù)器的高位視為稀疏向量并使用壓縮感知技術對其進行壓縮與還原;它還帶有自動化的參數(shù)配置,并且在理論上證明了幾乎零誤差的性質。為了通用性,BitSense提供了一套編程接口,使用戶能像實現(xiàn)普通sketch那樣快捷開發(fā)內存優(yōu)化的sketch,并對壓縮與還原無感知。BitSense已經(jīng)與14種現(xiàn)有的測量系統(tǒng)結合。基于Tofino交換機和軟件仿真的實驗表明BitSense能在引入極小的訪存和計算開銷下壓縮25%~80%的內存而幾乎不丟失精度,超越了此前5種代表性的內存優(yōu)化框架。該論文第一作者為計算機學院2022級博士生丁睿(導師黃群),作者包括黃群、楊仕博和訪問學生陳翔等。
八、面向丟包檢測和包累積測量的數(shù)據(jù)平面自適應網(wǎng)絡測量方案

網(wǎng)絡測量對于許多網(wǎng)絡應用至關重要。在流量測量任務中,主要有兩種任務需要處理:(1)包累積測量和(2)丟包檢測。然而,在現(xiàn)有的研究中,同時處理這兩種任務的方法很少見。為此,論文“ChameleMon: Shifting Measurement Attention as Network State Changes”設計了測量系統(tǒng)ChameleMon。在兼顧兩種任務的同時,ChameleMon更進一步地,通過兩個維度的動態(tài)性支持測量注意力隨著網(wǎng)絡狀態(tài)的變化而轉移:(1)動態(tài)分配內存資源給這兩種任務;(2)動態(tài)監(jiān)測重要的流量。為了實現(xiàn)這一關鍵設計,ChameleMon利用費馬小定理設計了一種靈活的數(shù)據(jù)結構,即FermatSketch。FermatSketch具備可分割、可加和可減的特性,從而支持以上兩種任務。 在一個Fat-tree拓撲結構的測試平臺上部署的ChameleMon原型系統(tǒng)的實驗結果顯示,ChameleMon能以較低的內存和帶寬開銷地同時支持這兩種任務,并且支持測量注意力的動態(tài)轉移(在丟包多時傾向丟包檢測,在丟包少時傾向包累積測量)。該論文第一作者為計算機學院2021級博士生楊凱程(導師楊仝副教授),作者包括楊仝、吳鈺晗和繆瑞杰等。
九、面向可編程數(shù)據(jù)面的LRU緩存替換機制設計與實現(xiàn)

數(shù)據(jù)面緩存是網(wǎng)絡設備,如可編程交換機、智能網(wǎng)卡、DPU等的重要功能。然而,受限于數(shù)據(jù)面編程模型和內存訪問模型,目前的數(shù)據(jù)面緩存常常采用簡單但效率不高的緩存替換策略。因此,“P4LRU: Towards An LRU Cache Entirely in Programmable Data Plane”這篇論文致力于在數(shù)據(jù)面實現(xiàn)LRU,這是一種近似最優(yōu)的緩存替換策略。論文分析了為何多種典型的LRU實現(xiàn)無法在當前的可編程數(shù)據(jù)面部署,并提出了P4LRU,一種專門為流水線模型設計的LRU實現(xiàn)方案。P4LRU將被緩存的鍵和值分別存儲,并利用一個被稱為緩存狀態(tài)的自動機來描述鍵和值的實時映射關系,從而只需對每個數(shù)據(jù)執(zhí)行單次內存訪問。P4LRU通過將自動機的狀態(tài)和轉移邏輯編碼到整數(shù)邏輯運算單元,在受限的數(shù)據(jù)面編程模型下實現(xiàn)了自動機的存儲和實時轉移。論文以P4LRU緩存單元為基礎,設計了多種網(wǎng)絡系統(tǒng),包括網(wǎng)絡地址轉換系統(tǒng)、數(shù)據(jù)庫查詢加速系統(tǒng)和大規(guī)模網(wǎng)絡測量系統(tǒng),并在Tofino可編程交換機上完全實現(xiàn)了這些系統(tǒng)。該論文第一作者為計算機學院2020級博士生趙義凱(導師楊仝),作者包括楊仝、劉文睿和董豐豪等。
十、面向異構數(shù)據(jù)中心的在網(wǎng)計算應用開發(fā)框架

在網(wǎng)計算技術可以有效加速分布式系統(tǒng)的速度并減少其成本。但是,在異構數(shù)據(jù)中心中存在差異化的設備與應用和多徑的網(wǎng)絡拓撲,這導致應用開發(fā)者難以在不觸及已有的網(wǎng)絡功能的前提下開發(fā)在網(wǎng)計算應用,并有效利用設備資源。“ClickINC: In-network Computing as a Service in Heterogeneous Programmable Data-center Networks”設計了ClickINC框架,支持異構數(shù)據(jù)中心中的在網(wǎng)計算應用開發(fā)。ClickINC為開發(fā)者提供高級、模塊化編程語言,并將用戶程序編譯到分布式的異構設備上;在此過程中,ClickINC在全網(wǎng)范圍內合理分布程序片段,提升資源利用率;同時,ClickINC支持用戶在運行時增量的添加和刪除程序。研究團隊開發(fā)ClickINC原型,并通過實驗證明該系統(tǒng)的可行性、編程友好性和資源利用高效性。該論文第一作者為清華大學徐文佺,通訊作者為北京大學吳文斐助理教授、清華大學劉斌和上海大學紐約分校劉古月。