En biologie, les lois de mise à l'échelle fonctionnent... ...jusqu'à ce qu'elles ne fonctionnent plus. Pour la prédiction de la forme physique, la performance des modèles de langage protéique augmente avec la taille du modèle jusqu'à atteindre un plateau, puis se dégrade. À mesure que la perte d'entraînement (NLL) diminue, les modèles commencent à prédire des probabilités de séquence plus élevées et à corréler moins avec la forme physique sous-jacente. Exemple 10 001 de pourquoi l'IA pour la biologie nécessite une attention particulière aux distributions sous-jacentes, aux objectifs d'entraînement et à des dizaines d'autres détails. L'intersection est riche mais nécessite un travail minutieux dans les deux disciplines.
Un excellent travail d'enquête du Shen Lab à Columbia :
12,99K