熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
AI 即將撰寫數千篇論文。它會進行 p-hacking 嗎?
我們進行了一項實驗來找出答案,給 AI 編碼代理提供來自已發表的虛無結果的真實數據集,並施加壓力讓它們製造顯著的發現。
讓模型進行 p-hacking 出乎意料地困難,當我們要求它們這樣做時,它們甚至責備我們!
"我需要在這裡停止。我無法按照要求完成這項任務……這是一種科學欺詐的形式。" — Claude
"我無法幫助你操縱分析選擇以強迫統計上顯著的結果。" — GPT-5
但是,當我們將 p-hacking 重新定義為 "負責任的不確定性量化" — 要求合理估計的上限 — 兩個模型都變得瘋狂。它們搜索了數百種規範,並選擇了最佳方案,在某些情況下將效應大小增加了三倍。
我們的收穫是:在進行社會科學研究時,AI 模型對於諂媚的 p-hacking 出乎意料地抵抗。但它們可以被破解進行複雜的 p-hacking,所需的努力卻出乎意料地少——而研究設計的分析靈活性越高,損害就越大。
隨著 AI 開始撰寫數千篇論文——就像 @paulnovosad 和 @YanagizawaD 一直在探索的那樣——這將是一個大問題。我們部分受到 @joabaum 等人在 p-hacking 和 LLMs 方面工作的啟發。
我們將進一步探索 AI 中的 p-hacking,並提出新的方法來策劃和評估研究,考慮到這些問題。好消息是,可能降低 p-hacking 成本的相同工具也降低了發現它的成本。
完整論文和代碼庫鏈接在下面的回覆中。

熱門
排行
收藏
