
只須一塊 6 年前的 2080Ti,就能作念大模子數據蒸餾?
來自上交大 EPIC 執行室等機構的一項最新商量,提議了一種新的數據集蒸餾要領——NFCM。
與前 SOTA 比擬,新要領的顯存占用唯有 1/300,何況速率晉升了 20 倍,規劃論文獲取了CVPR 滿分。

NCFM 引入了一個緩助的神經匯集,將數據集蒸餾再行表述為一個極小化極大(minmax)優化問題。
在多個基準數據集上,NCFM 齊取得了顯耀的性能晉升,并展現出可膨脹性。
在 CIFAR 數據集上,NCFM 只需 2GB 擺布的 GPU 內存就能竣事無損的數據集蒸餾,用 2080Ti 即可竣事。
何況,NCFM 在連合學習、神經架構搜索等下流任務上也展現了優異的性能。
將數據蒸餾滾動為 minmax 優化
NCFM 的中樞是引入了一個新的散播各別度量 NCFD,并將數據集蒸餾問題滾動為一個 minmax 優化問題。
通過輪換優化合成數據以最小化 NCFD,以及優化采樣匯集以最大化 NCFD,NCFM 在晉升合成數據質料的同期,陸續增強散播各別度量的明銳性和靈驗性。

特征提真金不怕火與頻率參數采樣
NCFM 的第一步,是進行特征提真金不怕火,也等于從信得過數據集和合成數據麇集分袂采樣一批數據,并將其輸入到特征提真金不怕火采聚會。
特征提真金不怕火匯集將原始數據從像素空間映射到一個特征空間,得到對應的特征默示,主見是提真金不怕火數據的高層語義特征,為后續的散播匹配作念準備。
特征提真金不怕火匯集不錯是一個預檢會的模子,也不錯是一個立地運行化的模子,這里 NCFM 攝取了一種混雜格局。
接下來,NCFM引入了一個輕量級的神經匯集算作采樣匯集,它收受一個立地噪聲算作輸入,輸出一組頻率參數。
這些頻率參數將用于對特征函數(Characteristic Function,CF)進行采樣。
特征函數揣度與散播各別度量
關于每一個頻率參數,將其與特征默示進行內積運算,然后取復指數,就得到了對應的 CF 值。
這兩個 CF 值齊是復數,其中實部描摹了數據在該頻率上的散播界限,捕捉散播的散度或千般性;虛部則反應了數據在該頻率上的散播中心,捕捉散播的典型性或信得過性。
通過比較信得過數據和合成數據的 CF 值,就不錯全面地度量它們在特征空間上的散播各別。
為了定量地度量信得過數據和合成數據之間的散播各別,NCFM 引入了一個稱為神經特征函數各別(Neural Characteristic Function Discrepancy,NCFD)的度量。
NCFD 概括有計劃了系數采樣頻率上的 CF 各別,將其匯總為一個標量值。NCFD 越小,確認兩個散播越接近;NCFD 越大,確認兩個散播各別越大。
minmax 優化
有了 NCFD 這個散播各別度量,NCFM 的優化策畫就很明晰了——
最小化 NCFD,使得合成數據和信得過數據的散播盡可能接近;同期,望最大化 NCFD 對合成數據的明銳度,使之未必準確反應合成數據的變化。
為了同期竣事這兩個策畫,NCFM引入了一個 minmax 優化框架:
在極小化階段,固定采樣匯集的參數,休養合成數據,策畫是最小化 NCFD。這一步使得合成數據向信得過數據散播陸續逼近。
在極大化階段,固定合成數據,休養采樣匯集的參數,策畫是最大化 NCFD。這一步使得 NCFD 對合成數據的各別愈加明銳,晉升其算作各別度量的靈驗性。
通過輪換進行極小化階段和極大化階段的優化,NCFM 陸續矯正合成數據的質料,同期也陸續強化 NCFD 度量的明銳性和準確性。
模子微調與標簽生成
為了進一步晉升合成數據的質料,NCFM 在優化歷程中還引入了兩個特等的尺度——模子微長入標簽生成。
在模子微調階段,NCFM 用合成數據微調特征提真金不怕火匯集,使其愈加適應合成數據的特征散播,從而進一步放松合成數據和信得過數據之間的特征各別,提高合成數據的信得過性;
在標簽生成階段,用一個預檢會的教師模子來為合成數據生成軟標簽。軟標簽提供了愈加豐富和細粒度的監督信息,不錯引導合成數據更好地效法信得過數據的類別散播,提高合成數據的千般性。
一塊 2080Ti 懲處 CIFAR 執行
比擬于此前線法,NCFM 在多個數據集上竣事了顯耀的性能晉升。
在 CIFAR-10、CIFAR-100、等數據麇集上,NCFM 在每類 1/10/50 張圖片的情況下的測試精度均特出了系數 baseline 要領。

在 ImageNet 的各個子集上,NCFM 也展現了不凡的性能。
舉例在 ImageNette 上,每類 10 張圖片晌,NCFM 達到了 77.6% 的測試精度,比現存最好要領(RDED)進步 14.4 個百分點;
在 ImageSquawk 上,每類 10 張圖片晌,NCFM 達到了 72.8% 的測試精度,比現存最好要領(MTT)進步 20.5 個百分點。

在性能晉升的同期,NCFM 還竣事了大齊的速率晉升和資源從簡。
在 CIFAR-100 上,NCFM 每輪迭代的平均檢會時分比 TESLA 快了 29.4 倍,GPU 內存驀的僅為 TESLA 的 1/23.3(每類 50 張圖片);
在 Tiny ImageNet 上,NCFM 每輪迭代的平均檢會時分比 TESLA 快了 12.8 倍,GPU 內存驀的僅為 TESLA 的 1/10.7(每類 10 張圖片)。
何況,NCFM 在 CIFAR-10 和 CIFAR-100 上竣事了無損的數據集蒸餾,僅使用了約 2GB 的 GPU 內存,使得 CIFAR 上的系數執行齊不錯在一塊 2080Ti 上進行。

此外,NCFM 生成的合成數據在跨模子泛化才氣上特出了現存要領。
舉例在 CIFAR-10 上,用 NCFM 生成的合成數據檢會 AlexNet、VGG 和 ResNet,齊取得了比現存要領更高的測試精度。

本文第一作家,是上交大東說念主工智能學院 EPIC 執行室博士生王少博。
王少博本科就讀于哈工大軟件工程專科,專科名次序又名;然后在上交大讀研,導師是嚴駿馳教師,商量標的為深度學習表面和可闡發性機器學習,其間專科名次序二。
當今王少博正在張林峰助理教師認確鑿 EPIC 執行室讀博,商量標的為"高效、可闡發的深度學習和"大模子。

王少博當今的導師張林峰,是本文的通信作家。
同期,張林峰還在 NeurIPS、ICML、ICLR、CVPR 等頂級學術會議當中擔任審稿東說念主。

張林峰還曾到香港科技大學(廣州)擔任探望助理教師,他的邀請東說念主胡旭明不異是又名年青博導,何況也參與了本面容。
此外還有 EPIC 執行室的其他成員,以及來自上海 AI 執行室的學者,亦參與了 NFCM 的商量。

論文地址:
https://github.com/gszfwsb/NCFM九游體育app官網/blob/main/asset/paper.pdf
GitHub 倉庫:
https://github.com/gszfwsb/NCFM
