有趣的研究。關於過時模型的許多評論似乎忽略了重點:這些模型在基準測試中本身是足夠的,但無法促使真正的人類用戶準確描述他們的情況。