我們已經開源了 HY-1.8B-2Bit,這是一個為設備部署而構建的高效 2 位 LLM。該模型將 1.8B 基礎縮小到有效的 0.3B 參數佔用,僅需 600MB 的存儲空間,這使其比許多移動應用程序更小。 🔹 超低位策略:使用 QAT(量化感知訓練)來達到 2 位表示(0.3B 位等效大小)。 🔹 雙重思維推理:儘管精度大幅降低,仍保留複雜的雙重 Chain-of-Thought 能力。 🔹 性能:在 Apple M4 和 MediaTek Dimensity 9500 上的預填充速度快 3-8 倍;設備上的標記生成速度快 2-3 倍。 🔹 基準增益:在相同大小的模型中,平均準確率領先 17%。 🔹 硬體協同:針對 Arm SME2 和現代消費者矽晶片進行優化。 HY-1.8B-2Bit 現在以 GGUF 格式提供,便於無縫集成到邊緣推理引擎中。 項目頁面: 權重: GGUF 版本: 技術報告: