Co je potřeba k tomu, aby se počítač naučil pravidla párování bází RNA? Lidé trénují velké jazykové modely pro predikci struktury RNA. Některé z těchto modelů mají stovky milionů parametrů. Vzrušujícím počátečním výsledkem je, že tyto modely se učí pravidla párování bází Watson-Crick-Franklin přímo z dat. Výzkumná skupina na Harvardu se rozhodla zjistit, jaký nejmenší možný model by mohl dosáhnout tohoto výsledku. Trénovali malý pravděpodobnostní model s pouhými 21 parametry pomocí gradientního sestupu. S pouhými 50 sekvencemi RNA – bez odpovídajících struktur – by pravidla párování bází vyplynula již po několika epochách trénování. Odpověď na jejich původní otázku tedy zněla, že naučit se tento typ modelu trvá "mnohem méně, než si možná myslíte". Nemyslím si, že to znamená, že rozsáhlé školicí úsilí je nutně hloupé nebo zavádějící. Tento výsledek však naznačuje, že existuje spousta efektivity a výkonu, které lze stále získat z inovací architektury. Jazyk biologie má spoustu základní struktury.
3,21K