Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ця стаття з Гарварду та MIT тихо відповідає на найважливіше питання ШІ, яке ніхто не бенчмаркує належним чином:
Чи можуть LLM насправді відкривати науку, чи вони просто добре про це говорять?
Стаття називається «Оцінка великих мовних моделей у наукових відкриттях», і замість питань про вікторини щодо моделей вона перевіряє щось набагато складніше:
Чи можуть моделі формувати гіпотези, проектувати експерименти, інтерпретувати результати та оновлювати переконання, як справжні науковці?
Ось що автори зробили інакше 👇
• Вони оцінюють LLM за гіпотезою повної петлі відкриття → експеримент → спостереження → перегляд
• Завдання охоплюють біологію, хімію та фізику, а не іграшкові головоломки
• Моделі повинні працювати з неповними даними, шумними результатами та хибними підказками
• Успіх вимірюється науковим прогресом, а не плавністю чи впевненістю в владі
Те, що вони знайшли, є відверезим.
LLM непогано висувають гіпотези, але крихкі у всьому, що відбувається далі.
✓ Вони надмірно підходять під поверхневі візерунки
✓ Вони намагаються відмовитися від поганих гіпотез, навіть коли докази їм суперечать
✓ Вони плутають кореляцію з причинністю
✓ Вони галюцинують пояснення, коли експерименти провалюються
✓ Вони оптимізують для правдоподібності, а не для правди
Найяскравіший результат:
«Високі еталонні бали не корелюють із здатністю до наукових відкриттів.»
Деякі топові моделі, які домінують у стандартних тестах мислення, повністю зазнають невдачі, коли їх змушують проводити ітеративні експерименти та оновлювати теорії....

Найкращі
Рейтинг
Вибране
