熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
有時很難理解在強大模型中開始出現的推理和邏輯更新的重要性,例如 GPT-5。這裡有一個*非常簡單*的例子,展示這些模型變得多麼強大。
我拿了一份最近的 NVIDIA 財報電話會議記錄,長達 23 頁,共有 7,800 字。我將句子的一部分 "and gross margin will improve and return to the mid-70s" 中的 "mid-70s" 修改為 "mid-60s"。
對於一位遠程關注的金融分析師來說,這看起來不合適,因為利潤率不會 "改善並返回" 一個低於其他地方描述的高數字的數字。但大約 95% 的人閱讀這份新聞稿時不會注意到這一修改,因為它很容易融入其他 7,800 字中。
使用 Box AI 測試各種 AI 模型後,我問了一系列模型 "這份文件中有邏輯錯誤嗎?請提供一句話的答案。"
GPT-4.1、GPT4.1 mini 和幾個其他大約 6 個月前的尖端模型通常回覆說文件中沒有邏輯錯誤。對於這些模型來說,這份文件可能看起來是連貫的,並遵循它們期望的財報記錄的樣子,因此對它們來說,沒有什麼特別需要注意的 - 有點像反向幻覺。
另一方面,GPT-5 很快發現了問題,並回覆說:
"是的 - 該文件包含有關毛利指導的內部不一致,在某一點上說利潤率將 "返回到中60s",而稍後又說它們將在今年晚些時候 "在中70s"。"
令人驚訝的是,這一切都發生在 GPT-5、GPT-5 mini,甚至*連* GPT-5 nano 上。請記住,GPT-5 nano 的輸出令牌價格是 GPT-4.1 的 1/20。因此,在這個用例中,5% 的成本卻更智能。
現在,雖然對商業文件進行錯誤審查並不是每個知識工作者的日常工作,但這些類型的問題在處理大型非結構化數據集時會以多種方式出現,例如財務文件、合同、記錄、報告等。它可以是找到一個事實、找出一個邏輯謬誤、運行一個假設,或需要複雜的推理。
而在企業數據中應用更多邏輯和推理的能力在部署 AI 代理時變得尤為重要。因此,看到這個領域的進步真是令人驚訝,這將為企業開啟更多的用例。
179.3K
熱門
排行
收藏