Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Випущено SWE-BENCH PRO
Навіть найсильніші моделі кодування штучного інтелекту зазнають труднощів, коли тест стає складнішим.
На SWE-BENCH Verified вони набрали близько 70%. На більш жорсткому SWE-BENCH PRO цей показник впав нижче 25%.
SWE-BENCH Verified був брудним і занадто простим, моделі бачили відповіді під час тренувань, а проблеми не відображають реальну роботу програмного забезпечення. PRO виправляє це, додаючи тривалі проєкти корпоративного рівня, які ближчі до реального життя.
- На загальнодоступному наборі: GPT-5 вирішує 23,3%, Claude Opus 4.1 вирішує 22,7%.
- На комерційному знімальному майданчику: Ще складніше. Клод набирає 17,8%, GPT-5 – 14,9%.
Три речі, про які ми дізналися
1. Великі моделі вдаряються об мислену стіну. GPT-5 і Claude можуть писати чистий код і використовувати інструменти, але вони часто помиляються в логіці.
2. Менші моделі виходять з ладу раніше. Вони порушують базові аспекти, такі як синтаксис, форматування або використання інструментів.
3. Кожна модель має свої слабкі місця. Сонет вибігає з контекстного вікна. Близнюки поєднують помилки в інструментах, синтаксисі та міркуваннях.
Моделі краще справляються з Python і Go. Вони все ще мають серйозні проблеми на JavaScript та TypeScript.
Нинішній штучний інтелект далеко не надійний інженер-програміст. Успіх у виконанні простих завдань вводить в оману. Справжній виклик зараз полягає не в написанні коду, а в продумуванні проблеми.


Найкращі
Рейтинг
Вибране