Intressant studie. Många kommentarer om föråldrade modeller verkar missa poängen: modellerna var tillräckliga på egen hand i benchmarking, men kunde inte få riktiga mänskliga användare att korrekt beskriva sina tillstånd.