cảm giác như một tội ác khi nói rằng chúng ta sẽ không cần khả năng quan sát thời gian chạy cho các hệ thống AI khi mà chúng ta đã cần thử nghiệm A/B cho mã tĩnh trong khi không gian đầu vào rất thấp và bây giờ nó gần như đạt đến vô hạn bạn đơn giản không thể bao phủ tất cả các trường hợp thử nghiệm trước thời gian đọc rất hay bởi @benhylak
ben (is hiring engineers)
ben (is hiring engineers)06:56 6 thg 9
Tôi vừa viết bài đăng dài đầu tiên của mình về evals. Chúng là gì, chúng hoạt động ở đâu, không hoạt động ở đâu, và tôi nghĩ tương lai sẽ như thế nào. Nếu bạn đang xây dựng một sản phẩm AI, bạn nên đọc bài này.
3,12K