Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Справжній висновок тут не в тому, що «LLM погано розбираються в науці» (це очевидна думка).
Глибша історія полягає в тому, що це відкриває про всю парадигму масштабування ШІ і куди насправді рухається індустрія.
У цій статті встановлено, що високі еталонні бали не корелюють із здатністю до наукових відкриттів. Моделі, які домінують у тестах міркування, повністю провалюються, коли їх змушують ітерувати, переглядати та визнавати помилки.
Це пояснює, чому OpenAI, DeepMind і Anthropic всі мчать до агентних систем замість більших базових моделей.
Вони бачили внутрішні версії цих даних. Параметри масштабування не масштабують можливість сказати «Я помилився, ось моя нова гіпотеза.»
П'ять перелічених режимів відмови насправді є одним і тим самим режимом відмови з різними масками: LLM оптимізують для правдоподібних результатів, а не для процесів відстеження істини. Надмірне підгонювання до поверхневих шаблонів, відмова відмовлятися від поганих гіпотез, плутання кореляції з причинно-наслідковою зв'язком... Усе це походить із навчання прогнозування наступного токена на тексті, який описує наукові висновки, а не з тексту, що документує заплутаний ітеративний процес їх досягнення.
Справжнє наукове міркування вимагає того, чого тренувальні дані майже ніколи не містять: 47 невдалих експериментів до того, що спрацював, гіпотеза, яка здавалася блискучою протягом трьох місяців, а потім розвалилася, коли дослідник сказав: «Все, у що я вірив про цю систему, — неправильно.»
У статті стверджується, що випадковість і кероване дослідження все ще працюють навіть тоді, коли бали за окремими сценаріями низькі.
Це означає, що LLM можуть допомогти вченим натрапити на відкриття, про які вони навіть не подумали, але вони не можуть замінити цикл перегляду.
Це насправді оптимістично щодо конкретного типу інструменту ШІ: систем, які генерують багато кандидатів для тестування людьми, а не систем, які стверджують, що самі проводять тестування.
Людина в колі перемагає. Знову.
Найкращі
Рейтинг
Вибране
