Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Metrik yang mengukur kemampuan panggilan MCP model akhirnya ada di sini
GPT5 jauh di depan...
Semua keterampilan digunakan di sini

26 Agu, 01.21
Memperkenalkan MCPMark, kolaborasi dengan @EvalSysOrg dan @lobehub!
Kami membuat tolok ukur yang menantang untuk menguji stres penggunaan MCP dalam konteks yang komprehensif.
- 127 sampel data berkualitas tinggi yang dibuat oleh para ahli.
- GPT-5 memimpin saat ini dan mencapai Pass@1 46,96% sedangkan model lainnya berada di kisaran 10-30%.
- Beragam kasus pengujian di Notion, Github, Filesystem, Playwright (browser), dan Postgres.
9🧵detik ke depan

9,51K
Teratas
Peringkat
Favorit