Peu de conversations restent gravées en vous, celle avec @JonathanRoss321 à Bangalore (merci Lightspeed @MohapatraHemant) en faisait partie. Points clés : 1. Une inférence plus rapide ne concerne pas seulement la vitesse. Lorsque le temps est une contrainte, la qualité de sortie s'améliore considérablement (plus de tokens traités) 2. Pour les entreprises, le véritable enjeu est économique : elles continueront à investir dans une inférence plus rapide jusqu'à ce que des tâches spécifiques voient leurs coûts diminuer ou leurs revenus augmenter.
1,43K