Эта статья из Гарварда и MIT тихо отвечает на самый важный вопрос об ИИ, который никто не оценивает должным образом: Могут ли большие языковые модели (LLM) действительно открывать науку, или они просто хорошо говорят об этом? Статья называется "Оценка больших языковых моделей в научных открытиях", и вместо того, чтобы задавать моделям тривиальные вопросы, она тестирует нечто гораздо более сложное: Могут ли модели формулировать гипотезы, разрабатывать эксперименты, интерпретировать результаты и обновлять убеждения, как настоящие ученые? Вот что авторы сделали по-другому 👇 • Они оценивают LLM на протяжении всего цикла открытия: гипотеза → эксперимент → наблюдение → пересмотр • Задачи охватывают биологию, химию и физику, а не игрушечные головоломки • Модели должны работать с неполными данными, шумными результатами и ложными следами • Успех измеряется научным прогрессом, а не беглостью или уверенностью То, что они обнаружили, обескураживает. LLM неплохи в предложении гипотез, но хрупки во всем, что следует за этим. ✓ Они переобучаются на поверхностных паттернах ✓ Им трудно отказаться от плохих гипотез, даже когда доказательства противоречат им ✓ Они путают корреляцию с причинностью ✓ Они выдумывают объяснения, когда эксперименты терпят неудачу ✓ Они оптимизируют для правдоподобия, а не для истины Самый поразительный результат: `Высокие оценки по бенчмаркам не коррелируют с способностью к научным открытиям.` Некоторые лучшие модели, которые доминируют в стандартных тестах на рассуждение, полностью терпят неудачу, когда их заставляют проводить итеративные эксперименты и обновлять теории....