热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
人们问我为什么坚持使用GPU
而不是Mac Studios/Mac minis
这就是原因:
- Llama 3.1 70B BF16 在8个RTX 3090上
- 50+ 并发请求
- 批量推理
- 持续吞吐量
不仅如此:
> 每个请求(提示)约2k上下文
> 输出约1.8k个token
> 50个响应耗时2分钟29秒
这是GPU的领域。
你无法在Mac上做到这一点。
至少现在还不行。

热门
排行
收藏
