我準備好對新的 @openai 發布進行基準測試。現在: - Claude 在編碼和工具使用方面表現優秀。 - Gemini 是我首選的工作馬模型。 - O3 用於非常特定的推理任務,看起來他們在思考預算上有很好的啟發式方法。 我猜 OpenAI 和 Gemini 到月底會在編碼或工具使用方面接近 Claude。
4.27K