Poche conversazioni rimangono impresse, quella con @JonathanRoss321 a Bangalore (grazie Lightspeed @MohapatraHemant) è stata una di queste. Punti chiave: 1. L'inferenza più veloce non riguarda solo la velocità. Quando il tempo è un vincolo, la qualità dell'output migliora significativamente (più token elaborati) 2. Per le imprese, il vero gioco è l'economia: continueranno a investire in inferenze più veloci fino a quando compiti specifici non vedranno ridurre i costi o aumentare i ricavi.
1,43K