DApp Mağazası | Etkinlikler ve Oyunlar için Web3 Merkezi

Trend Olan Konular

Buradaki gerçek içgörü "LLM'ler bilimde kötü" değil (bu bariz görüş). Daha derin hikaye, tüm yapay zeka ölçekleme paradigması hakkında ne ortaya çıkardığına ve sektörün gerçekte nereye gittiğine dair bir şey. Bu makale, yüksek kıyaslama puanlarının bilimsel keşif yeteneğiyle ilişkili olmadığını bulmaktadır. Akıl yürütme testlerini domine eden modeller, yinelemeye, revize etmeye ve hata kabul etmeye zorlandıklarında tamamen başarısız olur. Bu da OpenAI, DeepMind ve Anthropic'in neden daha büyük baz modeller yerine ajanik sistemlere yöneldiğini açıklıyor. Bu verilerin iç versiyonlarını gördüler. Ölçeklendirme parametreleri, "Yanılmışım, işte yeni hipotezim" deme yeteneğini ölçeklendirmez. Listelenen beş arıza modu aslında aynı arıza modu ama farklı maskeler takıyor: LLM'ler, gerçeklik izleme süreçleri için değil, makul görünen çıktılar için optimize edilir. Yüzey desenlerine aşırı uyum sağlamak, kötü hipotezleri terk etmeyi reddetmek, korelasyonu nedensellikle karıştırmak... Bunların hepsi, bilimsel sonuçları tanımlayan metin üzerine yapılan Next-token tahmin eğitiminden kaynaklanır; bu sonuçların ulaşılmasının karmaşık yineleme sürecini belgeleyen metin değil. Gerçek bilimsel akıl yürütme, eğitim verilerinin neredeyse hiç içermediği bir şeyi gerektirir: işe yarayan deneyden önceki 47 başarısız deney, üç ay boyunca parlak görünen hipotez, sonra çöktü, bir araştırmacının "bu sistem hakkında inandığım her şey yanlış" dediği anda. Makale, bireysel senaryo puanları düşük olsa bile tesadüf ve rehberli keşifin hâlâ işe yaradığını öne sürüyor. Bu da LLM'lerin bilim insanlarının düşünmedikleri keşiflere ulaşmasına yardımcı olabileceği, ancak revizyon döngüsünün yerini alamayacağı anlamına geliyor. Bu aslında belirli bir yapay zeka aracı türü için olumlu bir yaklaşım: insanların test edebileceği birçok aday hipotez üreten sistemler, testleri kendilerinin yaptığını iddia eden sistemler yerine. Döngüde olan insan kazanır. Yine.

En İyiler

Sıralama

Takip Listesi