Giới thiệu MCPMark, một sự hợp tác với @EvalSysOrg và @lobehub! Chúng tôi đã tạo ra một tiêu chuẩn thách thức để kiểm tra khả năng sử dụng MCP trong các bối cảnh toàn diện. - 127 mẫu dữ liệu chất lượng cao được tạo ra bởi các chuyên gia. - GPT-5 hiện đang dẫn đầu với tỷ lệ Pass@1 là 46.96% trong khi các mô hình khác nằm trong khoảng 10-30%. - Các trường hợp kiểm tra đa dạng trên Notion, Github, Hệ thống tệp, Playwright (trình duyệt) và Postgres. 9🧵s phía trước
41,13K