一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

人們問我為什麼堅持使用 GPU 而不是 Mac Studios/Mac minis 這就是原因： - Llama 3.1 70B BF16 在 8x RTX 3090s 上 - 50+ 同時請求 - 批量推斷 - 持續吞吐量不僅如此： > 每個請求（提示）約 2k 上下文 > 輸出約 1.8k 令牌 > 50 個回應耗時 2 分 29 秒這是 GPU 的領域。你無法在 Mac 上做到這一點。至少目前還不行。