ألاحظ أنه نظرا (على ما أعتقد؟) الكثير من المعايير في مهام الأفق الطويل ، أصبحت LLMs وكيلة جدا بشكل افتراضي ، بما يتجاوز بقليل من حالة الاستخدام العادية. على سبيل المثال في الترميز ، تميل النماذج الآن إلى التفكير لفترة طويلة إلى حد ما ، ولديهم ميل لبدء إدراج الملفات ونشرها في جميع أنحاء الريبو بأكمله ، ويقومون بعمل باحثين متكررين على الويب ، ويفرطون في تحليل حالات الحافة النادرة الصغيرة ويفرطون في التفكير حتى في التعليمات البرمجية غير المكتملة عن قصد وقيد التطوير النشط ، وغالبا ما يعودون ~ دقائق حتى للاستعلامات البسيطة. قد يكون هذا منطقيا للمهام طويلة الأمد ولكنه أقل ملاءمة لمزيد من التطوير المتكرر "في الحلقة" الذي ما زلت أقوم به كثيرا ، أو إذا كنت أبحث فقط عن فحص سريع قبل تشغيل برنامج نصي ، فقط في حالة حدوث بعض الأخطاء في الفهرسة أو ارتكاب بعض الأخطاء الغبية. لذلك أجد في كثير من الأحيان أوقف LLMs بأشكال مختلفة من "توقف ، أنت تفكر في هذا الأمر. انظر إلى هذا الملف الفردي فقط. لا تستخدم أي أدوات. لا تفرط في الهندسة" ، إلخ. في الأساس عندما يبدأ الإعداد الافتراضي في التسلل ببطء إلى وضع الوكيل الفائق "ultrathink" ، أشعر بالحاجة إلى العكس ، والطرق الجيدة بشكل عام للإشارة إلى النية / الرهانات أو توصيلها ، من "مجرد إلقاء نظرة سريعة" على طول الطريق إلى "الخروج لمدة 30 دقيقة ، عد عندما تكون متأكدا تماما".
‏‎125.66‏K