現在的模型都越來越巨大了,尤其是語言模型。搜尋引擎需要即時回傳結果,手機上的模型只有極小的記憶體以及計算能力,都需要將模型輕量化。ONNX是微軟開發的跨平台機器學習套件,可以將各種框架 (PyTorch、TensorFlow 等等) 的模型轉成 ONNX 格式,並且做輕量化。本文以 PyTorch 模型作為範例,使用 ONNX 將之輕量化,在相似精確度下獲得更小的模型、更快的推論速度。所有程式碼都會放在 GitHub model_quatization 上。
現在的模型都越來越巨大了,尤其是語言模型。搜尋引擎需要即時回傳結果,手機上的模型只有極小的記憶體以及計算能力,都需要將模型輕量化。ONNX是微軟開發的跨平台機器學習套件,可以將各種框架 (PyTorch、TensorFlow 等等) 的模型轉成 ONNX 格式,並且做輕量化。本文以 PyTorch 模型作為範例,使用 ONNX 將之輕量化,在相似精確度下獲得更小的模型、更快的推論速度。所有程式碼都會放在 GitHub model_quatization 上。