我准备好对新的 @openai 发布进行基准测试。现在: - Claude 在编码和工具使用方面表现出色。 - Gemini 是我首选的工作马模型。 - O3 适用于非常特定的推理任务,看起来他们在思维预算上有很好的启发式方法。 我认为到月底,OpenAI 和 Gemini 在编码或工具使用方面将接近 Claude。
4.28K