本週最佳 AI 論文(7 月 28 日 - 8 月 3 日): - GEPA - Graph-R1 - AlphaEarth - 自我演化代理 - 層次推理模型 - 高效注意力機制 - 幾何平均政策優化 繼續閱讀以了解更多:
1. AlphaEarth 基金會 AlphaEarth 基金會 (AEF) 介紹了一個任務無關的地理空間基礎模型,該模型學習地球表面的一個緊湊、時間連續的嵌入場。
Google DeepMind
Google DeepMind2025年7月30日
我們的新人工智慧模型 AlphaEarth Foundations 正在以驚人的細節繪製地球地圖。🌏🔍 科學家們現在將能夠追蹤森林砍伐的影響,監測作物健康等,這得益於我們的新數據集,速度顯著加快。🧵
2. 幾何平均政策優化 引入了一種穩定的替代方案,取代廣泛用於通過強化學習提高大型語言模型推理能力的群體相對政策優化(GRPO)。
3. 格帕 推出新的優化器 GEPA,它使用自然語言反射和基於帕累托的搜索自適應地改進複合 AI 系統的提示。
Lakshya A Agrawal
Lakshya A Agrawal2025年7月29日
提示優化與 GRPO 等 RL 演算法相比如何? GRPO 需要數千次推出,但人類可以從一些試驗中學習——通過反思哪些有效,哪些無效。 認識 GEPA:一種反射式提示優化器,其性能比 GRPO 高出 20%,推出次數減少 35 倍! 🧵
5. Graph-R1 介紹了一種新穎的RAG框架,超越了傳統的一次性或基於區塊的檢索,通過整合圖結構知識、主動的多輪互動和強化學習。
elvis
elvis2025年7月30日
Graph-R1 新的 RAG 框架剛剛推出! 結合了代理、GraphRAG 和強化學習。 以下是我的筆記:
7. 在您的提示中應該在哪裡顯示示範? 介紹了 DPP 偏差,這是一種在大型語言模型 (LLMs) 中的新型位置敏感性,其中示範在提示中的位置顯著影響輸出準確性和穩定性。
elvis
elvis2025年7月31日
在您的提示中應該放置示範的位置? 這篇論文發現,許多任務在提示的開始處放置示範會有好處。 如果示範放在用戶消息的末尾,它們可能會翻轉超過30%的預測,但不會提高正確性。 對於AI開發者來說,這是一篇很棒的閱讀。
140.53K