Я помічаю, що через (я думаю?) багато бенчмаркxing на завданнях з довгим горизонтом, LLM стають занадто агентськими за замовчуванням, трохи перевищуючи мій звичайний варіант використання. Наприклад, у кодуванні, моделі зараз схильні міркувати досить довго, вони мають схильність починати перераховувати та перевіряти файли по всьому репозиторію, вони здійснюють повторні веб-пошуки, вони надмірно аналізують і надмірно обмірковують маленькі рідкісні крайові випадки навіть у коді, який є свідомо неповним і перебуває на стадії активної розробки, і часто повертаються ~ хвилин пізніше навіть за простими запитами. Це може мати сенс для довготривалих завдань, але це не дуже добре підходить для більш "в циклі" ітераційної розробки, яку я все ще виконую багато, або якщо я просто шукаю швидку вибіркову перевірку перед запуском скрипту, на випадок, якщо я помилився в індексації або зробив якусь дурну помилку. Тому я ловлю себе на тому, що досить часто зупиняю LLM з варіаціями на кшталт «Стоп, ти занадто багато думаєш про це. Подивіться тільки на цей єдиний файл. Не використовуйте жодних інструментів. Не перестарайтеся» і т.д. В основному, коли стандарт починає повільно переходити в суперагентський режим «ультрамислення», я відчуваю потребу в зворотному, і в більш загальному хороших способах позначити або повідомити про наміри / ставки, від «просто швидко подивитися» до «відійдіть на 30 хвилин, поверніться, коли будете абсолютно впевнені».
125,72K