私はこれについて混乱しています。これは、私の実際の日常的な LLM の経験とはあまりに矛盾しており、現在はほとんどすべて同じように聞こえ、Claude 3.5 Sonnet 以来そうです。ベンチマークが無意味になったか、モデルが単に優れすぎて、バイブではそれ以上の改善が感じられず、厳密な分析によってのみ感じられるかのどちらかです。
Tolga Bilge
Tolga Bilge8月11日 10:47
シグモイドは今、私たちと一緒に部屋にいますか?
6.18K