La sintaxis sigue siendo un poco torpe, pero pronto las capas LLM, la acumulación de gradientes y los bucles de entrenamiento no se escribirán con los bucles for de Python. Parafraseando a Halide: "separe la especificación de los detalles de compilación y programación", excepto que especificaremos ejecuciones de entrenamiento completas de $ 100 millones.
17.91K