每个人都对2025年的“科学AI”感到兴奋!在年末,请允许我分享我对AI与生物学的忧虑和乐观。 在过去的一年里,我深入研究了生物基础模型、医疗AI和药物发现,以下是我在2025年学到的三条经验。 1. 生物学不仅仅是“另一种模式”。 我仍然看到的最大误解是: “生物学是文本 + 图像 + 图表。只需扩展变压器。” 不。生物学是因果的、层次的、随机的,并且在某些方面是不完整的,这些是语言和视觉所不具备的。 标记与现实并不完全对应。 标签稀疏、偏见且常常错误。 真实情况是有条件的、依赖于上下文的,有时是不可知的。 我们取得了真正的进展——单细胞、成像、基因组学、电子健康记录终于被联合建模——但残酷的事实是: 大多数生物信号并不是等待更好损失函数的监督问题。 它们是干预驱动的问题。它们需要扰动、反事实和机制,而不仅仅是预测。 显然,扩展是有帮助的。但没有因果结构,扩展主要给你更清晰的相关性。 2025年加强了我对生物基础模型必须围绕扰动、不确定性和可操作性构建的信念,而不仅仅是表示学习。 2. 基准测试在生物学上造成的阻碍大于计算能力。 老实说:AI与生物学的基准测试仍然存在问题。 每个人都报告SOTA。每个人选择不同的数据集切片。...