大多数AI评估都是昂贵的谎言。 它们通常测量的是容易测量的东西——像“幻觉”和“毒性”这样的指标——而不是你的产品实际如何让用户失望的具体方式。 @HamelHusain 和 @sh_reya 教授了一种不同的方法——这种方法使他们的课程成为 @MavenHQ 上收入最高的课程,@OpenAI、@AnthropicAI 和每个主要AI实验室的注册人数持续增长。 他们的见解:从错误分析开始,而不是指标。 审查100个真实用户交互。详细批评实际出错的地方。寻找模式。只有这样,才能构建出能让你的产品更好的评估。 在500多家公司培训了2000多名PM和工程师后,他们将他们的方法论提炼成一个系统化的手册,准确展示如何: - 识别大约10种实际破坏你产品的失败模式 - 构建可以进行统计验证和信任的LLM评判者 - 创建在用户之前捕捉回归的CI/CD管道 - 将生产监控转变为新问题的发现引擎 在这里阅读他们的完整指南: