計算機學習RNA鹼基配對規則需要什麼? 人們正在訓練大型語言模型以預測RNA結構。這些模型中的一些具有數億個參數。 一個令人興奮的早期結果是,這些模型直接從數據中學習了沃森-克里克-富蘭克林鹼基配對的規則。 哈佛大學的一個研究小組決定看看能夠實現這一結果的最小模型是什麼。 他們使用梯度下降訓練了一個只有21個參數的小型概率模型。 僅用50個RNA序列——沒有相應的結構——鹼基配對的規則在僅僅幾個訓練周期後就會顯現出來。 因此,他們最初問題的答案是,學習這種類型的模型「遠比你想像的要少得多」。 我認為這並不意味著大規模訓練工作必然是愚蠢或誤導的。但這個結果表明,架構創新仍然可以挖掘出很多效率和性能。 生物學語言中有很多潛在的結構。
3.24K