Ця стаття з Гарварду та MIT тихо відповідає на найважливіше питання ШІ, яке ніхто не бенчмаркує належним чином: Чи можуть LLM насправді відкривати науку, чи вони просто добре про це говорять? Стаття називається «Оцінка великих мовних моделей у наукових відкриттях», і замість питань про вікторини щодо моделей вона перевіряє щось набагато складніше: Чи можуть моделі формувати гіпотези, проектувати експерименти, інтерпретувати результати та оновлювати переконання, як справжні науковці? Ось що автори зробили інакше 👇 • Вони оцінюють LLM за гіпотезою повної петлі відкриття → експеримент → спостереження → перегляд • Завдання охоплюють біологію, хімію та фізику, а не іграшкові головоломки • Моделі повинні працювати з неповними даними, шумними результатами та хибними підказками • Успіх вимірюється науковим прогресом, а не плавністю чи впевненістю в владі Те, що вони знайшли, є відверезим. LLM непогано висувають гіпотези, але крихкі у всьому, що відбувається далі. ✓ Вони надмірно підходять під поверхневі візерунки ✓ Вони намагаються відмовитися від поганих гіпотез, навіть коли докази їм суперечать ✓ Вони плутають кореляцію з причинністю ✓ Вони галюцинують пояснення, коли експерименти провалюються ✓ Вони оптимізують для правдоподібності, а не для правди Найяскравіший результат: «Високі еталонні бали не корелюють із здатністю до наукових відкриттів.» Деякі топові моделі, які домінують у стандартних тестах мислення, повністю зазнають невдачі, коли їх змушують проводити ітеративні експерименти та оновлювати теорії....