熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GPT-5 昨天推出。AIME 2025 的得分為 94.6%。SWE-bench 的得分為 74.9%。
隨著我們接近這些基準的上限,它們將消亡。
使 GPT-5 和下一代模型革命性的不是它們的知識,而是知道如何行動。對於 GPT-5,這在兩個層面上發生。首先,決定使用哪個模型。但第二,更重要的是,通過工具調用。
我們生活在一個 LLMs 精通知識檢索和重組的時代。消費者搜索和編碼,最初的殺手級應用,根本上是知識檢索挑戰。兩者以新的方式組織現有信息。
我們已經攀登了這些山丘,因此競爭比以往任何時候都更加激烈。Anthropic、OpenAI 和 Google 的模型正在朝著相似的能力趨近。中國模型和開源替代品正在不斷推進,越來越接近最先進的技術。每個人都可以檢索信息。每個人都可以生成文本。
新的競爭軸心?工具調用。
工具調用將 LLMs 從顧問轉變為行動者。它彌補了純語言模型無法克服的兩個關鍵模型弱點。
首先,工作流程編排。模型在單次回應方面表現出色,但在多步驟、有狀態的過程中卻掙扎。工具使它們能夠管理長工作流程,跟踪進度,處理錯誤,保持上下文,跨越數十個操作。
其次,系統集成。LLMs 生活在一個僅限文本的世界中。工具讓它們能夠與外部系統(如數據庫、API 和企業軟件)進行可預測的接口,將自然語言轉化為可執行的行動。
在過去的一個月中,我建立了 58 種不同的 AI 工具。
電子郵件處理器。CRM 整合器。Notion 更新器。研究助手。每個工具都將模型的能力擴展到一個新的領域。
AI 最重要的能力是快速且正確地選擇合適的工具。每一步錯誤的路由都會殺死整個工作流程。
當我說「閱讀這封來自 Y Combinator 的電子郵件並找到所有不在 CRM 中的初創公司」時,現代 LLMs 執行一個複雜的序列。
一個英語命令取代了整個工作流程。而這只是一個簡單的例子。
更好的是,模型在正確的工具設置下,可以驗證自己的工作,確保任務按時完成。這個自我驗證循環在工作流程中創造了可靠性,這在其他情況下很難實現。
將這一點乘以數百名員工。數千個工作流程。生產力的增長呈指數級增長。
未來 AI 世界的贏家將是那些在編排工具和路由正確查詢方面最為精明的人。每一次。當這些工作流程變得可預測時,我們都將成為代理經理。

3.18K
熱門
排行
收藏