Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Chúng tôi đã giành giải nhất tại hội nghị Berkeley AgentX cho hạng mục tiêu chuẩn và đánh giá! Chúc mừng đội ngũ :)


9 thg 7, 2025
Khi các tác nhân AI gần sử dụng trong thế giới thực, làm thế nào để chúng ta biết chúng thực sự có thể làm gì? Điểm chuẩn đáng tin cậy là rất quan trọng nhưng điểm chuẩn tác nhân đã bị phá vỡ!
Ví dụ: WebArena đánh dấu "45+8 phút" trên nhiệm vụ tính thời lượng là đúng (câu trả lời thực: "63 phút"). Các tiêu chuẩn khác đánh giá sai năng lực của đại lý 1,6-100%.
Tại sao nền tảng đánh giá cho các hệ thống tác nhân lại mong manh? Xem bên dưới để biết chủ đề và liên kết
1/8
1K
Hàng đầu
Thứ hạng
Yêu thích