人們問我為什麼堅持使用 GPU 而不是 Mac Studios/Mac minis 這就是原因: - Llama 3.1 70B BF16 在 8x RTX 3090s 上 - 50+ 同時請求 - 批量推斷 - 持續吞吐量 不僅如此: > 每個請求(提示)約 2k 上下文 > 輸出約 1.8k 令牌 > 50 個回應耗時 2 分 29 秒 這是 GPU 的領域。 你無法在 Mac 上做到這一點。 至少目前還不行。