熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
人們問我為什麼堅持使用 GPU
而不是 Mac Studios/Mac minis
這就是原因:
- Llama 3.1 70B BF16 在 8x RTX 3090s 上
- 50+ 同時請求
- 批量推斷
- 持續吞吐量
不僅如此:
> 每個請求(提示)約 2k 上下文
> 輸出約 1.8k 令牌
> 50 個回應耗時 2 分 29 秒
這是 GPU 的領域。
你無法在 Mac 上做到這一點。
至少目前還不行。

熱門
排行
收藏
