Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Aakash Gupta
✍️ https://t.co/8fvSCtAXgi: $54K/месяц 🎙️ https://t.co/fmB6Zf5n9X: $32K/месяц 💼 https://t.co/hNxFPvj3v1: $31K/месяц 🤝 https://t.co/SqC3jTyhav: $28K/месяц
Настоящее понимание здесь не в том, что "LLM плохи в науке" (это очевидное мнение).
Глубокая история заключается в том, что это раскрывает о всей парадигме масштабирования ИИ и о том, куда на самом деле движется индустрия.
В этой статье говорится, что высокие оценки по бенчмаркам не коррелируют с способностью к научным открытиям. Модели, которые доминируют в тестах на рассуждение, полностью терпят неудачу, когда их заставляют итеративно работать, пересматривать и признавать ошибки.
Это объясняет, почему OpenAI, DeepMind и Anthropic все стремятся к агентным системам, а не к большим базовым моделям.
Они видели внутренние версии этих данных. Масштабирование параметров не увеличивает способность сказать: "Я был неправ, и вот моя новая гипотеза."
Пять перечисленных режимов неудачи на самом деле являются одним и тем же режимом неудачи, но в разных масках: LLM оптимизируют для правдоподобных на вид выводов, а не для процессов, отслеживающих истину. Переобучение на поверхностных паттернах, отказ от отказа от плохих гипотез, путаница между корреляцией и причинностью... все это происходит из-за обучения предсказанию следующего токена на текстах, которые описывают научные выводы, а не на текстах, которые документируют грязный итеративный процесс их достижения.
Настоящее научное рассуждение требует чего-то, чего почти никогда нет в обучающих данных: 47 неудавшихся экспериментов перед тем, который сработал, гипотеза, которая казалась блестящей три месяца, а затем рухнула, момент, когда исследователь сказал: "все, во что я верил об этой системе, неправильно."
Статья предполагает, что случайность и направленное исследование все еще работают, даже когда индивидуальные оценки сценариев низкие.
Что это означает, так это то, что LLM могут помочь ученым натолкнуться на открытия, о которых они бы не подумали, но они не могут заменить цикл пересмотра.
Это на самом деле оптимистично для определенного типа инструмента ИИ: систем, которые генерируют множество кандидатных гипотез для тестирования людьми, а не систем, которые утверждают, что сами проводят тестирование.
Человек в цикле выигрывает. Снова.

Alex Prompter18 дек., 20:12
Эта статья из Гарварда и MIT тихо отвечает на самый важный вопрос об ИИ, который никто не оценивает должным образом:
Могут ли большие языковые модели (LLM) действительно открывать науку, или они просто хорошо говорят об этом?
Статья называется "Оценка больших языковых моделей в научных открытиях", и вместо того, чтобы задавать моделям тривиальные вопросы, она тестирует нечто гораздо более сложное:
Могут ли модели формулировать гипотезы, разрабатывать эксперименты, интерпретировать результаты и обновлять убеждения, как настоящие ученые?
Вот что авторы сделали по-другому 👇
• Они оценивают LLM на протяжении всего цикла открытия: гипотеза → эксперимент → наблюдение → пересмотр
• Задачи охватывают биологию, химию и физику, а не игрушечные головоломки
• Модели должны работать с неполными данными, шумными результатами и ложными следами
• Успех измеряется научным прогрессом, а не беглостью или уверенностью
То, что они обнаружили, обескураживает.
LLM неплохи в предложении гипотез, но хрупки во всем, что следует за этим.
✓ Они переобучаются на поверхностных паттернах
✓ Им трудно отказаться от плохих гипотез, даже когда доказательства противоречат им
✓ Они путают корреляцию с причинностью
✓ Они выдумывают объяснения, когда эксперименты терпят неудачу
✓ Они оптимизируют для правдоподобия, а не для истины
Самый поразительный результат:
`Высокие оценки по бенчмаркам не коррелируют с способностью к научным открытиям.`
Некоторые лучшие модели, которые доминируют в стандартных тестах на рассуждение, полностью терпят неудачу, когда их заставляют проводить итеративные эксперименты и обновлять теории.
Почему это важно:
Настоящая наука — это не однократное рассуждение.
Это обратная связь, неудача, пересмотр и сдержанность.
LLM сегодня:
• Говорят как ученые
• Пишут как ученые
• Но пока не думают как ученые
Основной вывод статьи:
Научный интеллект — это не языковой интеллект.
Он требует памяти, отслеживания гипотез, причинного мышления и способности сказать "Я был неправ."
Пока модели не смогут надежно это делать, утверждения о "ученых ИИ" в основном преждевременны.
Эта статья не раздувает ИИ. Она определяет разрыв, который нам еще нужно преодолеть.
И именно поэтому это важно.

71
Топ
Рейтинг
Избранное
