人们问我为什么坚持使用GPU 而不是Mac Studios/Mac minis 这就是原因: - Llama 3.1 70B BF16 在8个RTX 3090上 - 50+ 并发请求 - 批量推理 - 持续吞吐量 不仅如此: > 每个请求(提示)约2k上下文 > 输出约1.8k个token > 50个响应耗时2分钟29秒 这是GPU的领域。 你无法在Mac上做到这一点。 至少现在还不行。