Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Эта статья из Гарварда и MIT тихо отвечает на самый важный вопрос об ИИ, который никто не оценивает должным образом:
Могут ли большие языковые модели (LLM) действительно открывать науку, или они просто хорошо говорят об этом?
Статья называется "Оценка больших языковых моделей в научных открытиях", и вместо того, чтобы задавать моделям тривиальные вопросы, она тестирует нечто гораздо более сложное:
Могут ли модели формулировать гипотезы, разрабатывать эксперименты, интерпретировать результаты и обновлять убеждения, как настоящие ученые?
Вот что авторы сделали по-другому 👇
• Они оценивают LLM на протяжении всего цикла открытия: гипотеза → эксперимент → наблюдение → пересмотр
• Задачи охватывают биологию, химию и физику, а не игрушечные головоломки
• Модели должны работать с неполными данными, шумными результатами и ложными следами
• Успех измеряется научным прогрессом, а не беглостью или уверенностью
То, что они обнаружили, обескураживает.
LLM неплохи в предложении гипотез, но хрупки во всем, что следует за этим.
✓ Они переобучаются на поверхностных паттернах
✓ Им трудно отказаться от плохих гипотез, даже когда доказательства противоречат им
✓ Они путают корреляцию с причинностью
✓ Они выдумывают объяснения, когда эксперименты терпят неудачу
✓ Они оптимизируют для правдоподобия, а не для истины
Самый поразительный результат:
`Высокие оценки по бенчмаркам не коррелируют с способностью к научным открытиям.`
Некоторые лучшие модели, которые доминируют в стандартных тестах на рассуждение, полностью терпят неудачу, когда их заставляют проводить итеративные эксперименты и обновлять теории....

Топ
Рейтинг
Избранное
