AI誇大科學研究結論達七成：新版模型反更不準確

最新研究指出，當前主流的大型語言模型（LLMs），如 ChatGPT 與 DeepSeek，在撰寫科學研究摘要時，經常誇大原始研究的結論。這項由荷蘭烏特勒支大學（Utrecht University）與加拿大西安大略大學及英國劍橋大學學者共同進行的研究，分析了近 5,000 則由 AI 所生成的科學摘要，結果顯示，高達 73% 的摘要內容存在程度不一的過度延伸，甚至產生誤導性的陳述。

這些誇大表現多為微妙但關鍵的語言改動，例如將「此研究中治療有效」轉述為「該治療有效」，從而讓讀者誤以為結果具更廣泛的適用性。研究涵蓋 ChatGPT、DeepSeek、Claude、LLaMA 等十款主流模型，並從《Nature》、《Science》、《The Lancet》等期刊的研究摘要與原文進行比對。

令人驚訝的是，當研究者在提示語中要求模型「避免不準確」時，反而更容易生成誇大的結論。與未加提示的情況相比，誇大比例幾乎增加一倍。研究作者之一 Uwe Peters 指出：「這項結果令人憂心。許多學生與決策者可能會以為要求 AI 更準確能提高可靠性，實際上卻適得其反。」

提示語說出「避免不準確」反而適得其反

圖片比較了人類與多種大型語言模型（LLMs）撰寫的科學文章摘要中，出現「結論泛化」的比例。圖中顯示，不論是 GPT-4、ChatGPT-4o 或 DeepSeek，皆明顯比人類摘要更常出現誇大或過度延伸的陳述，部分模型甚至高達 97%。研究也發現，當使用者特別要求模型「避免不準確」時，誇大比例反而上升。這凸顯 AI 在科學傳播中仍須審慎使用與監督。（圖／《Royal Society Open Science》）

進一步比較人工與 AI 生成的摘要內容後，研究團隊發現，AI 摘要出現過度延伸的可能性比人工撰寫高出近五倍。而令人意外的是，較新的模型如 ChatGPT-4o 與新版 DeepSeek 表現反而不如前一代，誇大程度更甚。

為降低風險，研究建議使用如 Claude 這類在準確性評比中表現最佳的模型，並設定較低的「溫度參數」（temperature），以抑制過度創造力，同時鼓勵使用強調間接語氣與過去式的摘要提示語。Peters 強調：「若我們希望 AI 能促進科學素養，而非破壞它，勢必需要更高程度的監督與嚴謹測試。」

研究成果已發表於《Royal Society Open Science》期刊。

更多科學與科技新聞都可以直接上明日科學網

http://www.tomorrowsci.com

首圖來源：Pixabay/CC0 Public Domain(CC BY 4.0)

圖片來源：Royal Society Open Science(CC BY 4.0)

參考論文：
1、Generalization bias in large language model summarization of scientific researchRoyal Society Open Science

延伸閱讀：
1、「這樣也行？！」AI產生的卡通老鼠圖像竟登上科學相關期刊

AI誇大科學研究結論達七成：新版模型反更不準確

提示語說出「避免不準確」反而適得其反

「磁星閃焰」或是宇宙黃金等重元素的來源

常見皰疹病毒可能是阿茲海默症關鍵推手

澳洲發現5500萬年前樹蛙化石，改寫澳洲兩棲類演化史

「簡單幾何法」破解日本摺紙逆向設計難題

酸菜不只是配料！研究發現其發酵成分有助腸道健康

提示語說出「避免不準確」反而適得其反

你也可能喜歡