一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

人们问我为什么坚持使用GPU 而不是Mac Studios/Mac minis 这就是原因： - Llama 3.1 70B BF16 在8个RTX 3090上 - 50+ 并发请求 - 批量推理 - 持续吞吐量不仅如此： > 每个请求（提示）约2k上下文 > 输出约1.8k个token > 50个响应耗时2分钟29秒这是GPU的领域。你无法在Mac上做到这一点。至少现在还不行。