科技前瞻

AI誇大科學研究結論達七成:新版模型反更不準確

最新研究指出,當前主流的大型語言模型(LLMs),如 ChatGPT 與 DeepSeek,在撰寫科學研究摘要時,經常誇大原始研究的結論。這項由荷蘭烏特勒支大學(Utrecht University)與加拿大西安大略大學及英國劍橋大學學者共同進行的研究,分析了近 5,000 則由 AI 所生成的科學摘要,結果顯示,高達 73% 的摘要內容存在程度不一的過度延伸,甚至產生誤導性的陳述。

這些誇大表現多為微妙但關鍵的語言改動,例如將「此研究中治療有效」轉述為「該治療有效」,從而讓讀者誤以為結果具更廣泛的適用性。研究涵蓋 ChatGPT、DeepSeek、Claude、LLaMA 等十款主流模型,並從《Nature》、《Science》、《The Lancet》等期刊的研究摘要與原文進行比對。

令人驚訝的是,當研究者在提示語中要求模型「避免不準確」時,反而更容易生成誇大的結論。與未加提示的情況相比,誇大比例幾乎增加一倍。研究作者之一 Uwe Peters 指出:「這項結果令人憂心。許多學生與決策者可能會以為要求 AI 更準確能提高可靠性,實際上卻適得其反。」

提示語說出「避免不準確」反而適得其反

圖片比較了人類與多種大型語言模型(LLMs)撰寫的科學文章摘要中,出現「結論泛化」的比例。圖中顯示,不論是 GPT-4、ChatGPT-4o 或 DeepSeek,皆明顯比人類摘要更常出現誇大或過度延伸的陳述,部分模型甚至高達 97%。研究也發現,當使用者特別要求模型「避免不準確」時,誇大比例反而上升。這凸顯 AI 在科學傳播中仍須審慎使用與監督。(圖/《Royal Society Open Science》)

進一步比較人工與 AI 生成的摘要內容後,研究團隊發現,AI 摘要出現過度延伸的可能性比人工撰寫高出近五倍。而令人意外的是,較新的模型如 ChatGPT-4o 與新版 DeepSeek 表現反而不如前一代,誇大程度更甚。

為降低風險,研究建議使用如 Claude 這類在準確性評比中表現最佳的模型,並設定較低的「溫度參數」(temperature),以抑制過度創造力,同時鼓勵使用強調間接語氣與過去式的摘要提示語。Peters 強調:「若我們希望 AI 能促進科學素養,而非破壞它,勢必需要更高程度的監督與嚴謹測試。」

研究成果已發表於《Royal Society Open Science》期刊。

更多科學與科技新聞都可以直接上 明日科學網 

http://www.tomorrowsci.com

首圖來源:Pixabay/CC0 Public Domain(CC BY 4.0

圖片來源:Royal Society Open Science(CC BY 4.0

參考論文:
1、Generalization bias in large language model summarization of scientific researchRoyal Society Open Science

延伸閱讀:
1、「這樣也行?!」AI產生的卡通老鼠圖像 竟登上科學相關期刊