ai.doge.tg 繁體 AI 情報 最新 專案 搜尋 Telegram ↗

不需要隱藏提示!僅靠呈現式修訂即可「操控」AI 同行評審

研究 1 個來源 · 2 天前
為何重要

揭露了自動化同行評審系統潛藏的重大誤判風險,指出學術界佈署 AI 審核可能導致「形式勝於內容」的決策失誤。

研究人員針對 AI 同行評審系統發表一種不需要修改隱藏指令或科學證據的新攻擊手法:對抗性重組。此策略僅透過調整摘要、相關文獻定位及敘事結構等「呈現層面」的內容,便能在三種主流 AI 評審器上達到 75.1% 的攻擊成功率與 +1.21 的平均分數增益。實驗發現,AI 評審不僅容易被最佳化優點的對話所訓練,還容易混淆「書面上回應缺點」與「實際上解決問題」的差異。

Hugging FaceAI Peer Review對抗性重組Prompt InjectionAcademic Integrity

來源 · 1 篇報導

首發 Hugging Face Daily Papers huggingface.co 04:00