La sintaxis sigue siendo un poco torpe, pero pronto las capas de LLM, la acumulación de gradientes y los bucles de entrenamiento no se escribirán con bucles for de Python. Parafraseando a Halide: "separar la especificación de los detalles de compilación y programación", excepto que especificaremos todo el entrenamiento de $100M.
18,57K