一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

GPT-5 昨天推出。AIME 2025 的得分為 94.6%。SWE-bench 的得分為 74.9%。隨著我們接近這些基準的上限，它們將消亡。使 GPT-5 和下一代模型革命性的不是它們的知識，而是知道如何行動。對於 GPT-5，這在兩個層面上發生。首先，決定使用哪個模型。但第二，更重要的是，通過工具調用。我們生活在一個 LLMs 精通知識檢索和重組的時代。消費者搜索和編碼，最初的殺手級應用，根本上是知識檢索挑戰。兩者以新的方式組織現有信息。我們已經攀登了這些山丘，因此競爭比以往任何時候都更加激烈。Anthropic、OpenAI 和 Google 的模型正在朝著相似的能力趨近。中國模型和開源替代品正在不斷推進，越來越接近最先進的技術。每個人都可以檢索信息。每個人都可以生成文本。新的競爭軸心？工具調用。工具調用將 LLMs 從顧問轉變為行動者。它彌補了純語言模型無法克服的兩個關鍵模型弱點。首先，工作流程編排。模型在單次回應方面表現出色，但在多步驟、有狀態的過程中卻掙扎。工具使它們能夠管理長工作流程，跟踪進度，處理錯誤，保持上下文，跨越數十個操作。其次，系統集成。LLMs 生活在一個僅限文本的世界中。工具讓它們能夠與外部系統（如數據庫、API 和企業軟件）進行可預測的接口，將自然語言轉化為可執行的行動。在過去的一個月中，我建立了 58 種不同的 AI 工具。電子郵件處理器。CRM 整合器。Notion 更新器。研究助手。每個工具都將模型的能力擴展到一個新的領域。 AI 最重要的能力是快速且正確地選擇合適的工具。每一步錯誤的路由都會殺死整個工作流程。當我說「閱讀這封來自 Y Combinator 的電子郵件並找到所有不在 CRM 中的初創公司」時，現代 LLMs 執行一個複雜的序列。一個英語命令取代了整個工作流程。而這只是一個簡單的例子。更好的是，模型在正確的工具設置下，可以驗證自己的工作，確保任務按時完成。這個自我驗證循環在工作流程中創造了可靠性，這在其他情況下很難實現。將這一點乘以數百名員工。數千個工作流程。生產力的增長呈指數級增長。未來 AI 世界的贏家將是那些在編排工具和路由正確查詢方面最為精明的人。每一次。當這些工作流程變得可預測時，我們都將成為代理經理。

3.18K