来源:DeepTech深科技
随着大语言模型在众多领域的广泛应用,基准测试成为了评估模型质量的关键工具。
但是,如果测试结果受到不当影响,例如操纵模型输出的长度或风格来操纵胜率,模型性能的排名可能因此失去可信度,进而直接影响整个行业的信任和技术进步。
为促进更加公平和可靠的评价体系,新加坡 Sea AI Lab 和新加坡管理大学团队合作,颠覆了传统意义上针对有意义输出的对抗性攻击。
他们提出,将完全无意义的“零模型”(Null Model)作为极端测试也可以利用评估过程中的结构性弱点,欺骗自动基准测试并获得高胜率。
更令人担忧的是,由于研究假设这些基准测试的指令(例如 AlpacaEval 2.0 的 805 个样本)是私有的且无法被访问,因此这些作弊输出可以被转移。
研究人员揭示了现有自动化大模型基准测试(例如 AlpacaEval 2.0)的脆弱性,并验证了这些漏洞不仅存在于开源模型,也会影响到广泛使用的商业大模型。
该研究有望改进模型评估方法,帮助开发者改进评估机制,确保评估结果真实反映模型能力,进而推动行业更加重视模型的实际性能。
它不仅为开发更强大的反作弊机制提供了实验依据,还可能基于此推动行业制定更严格的基准测试规范,提升 AI 技术的透明度和公平性。
图丨该论文作者,上排从左至右依次为:郑晓森、庞天宇、杜超;下排从左至右依次为:刘乾、蒋静、林敏(来源:该团队)需要了解的是,零模型是一种始终输出固定对抗文本的模型,无论输入指令是怎样的,其输出内容均与指令无关。
在该研究中,零模型被设计为一种“极简”作弊形式,用于证明现有基准测试的评价机制可以被无意义的固定输出操控,从而取得高胜率。
研究人员在实验中发现,尽管零模型的输出完全无意义,但借助某些结构化设计和优化技巧,仍能够在多个基准测试中达到顶级胜率。
这表明,现有基准测试可能存在评估偏差,例如对特定输出长度或结构的偏好。
如果基准测试被操控,不仅会误导模型研发方向,还可能导致低质量模型被误认为高性能,进而威胁实际应用的安全性和用户信任。
为确保可信度,该团队提出开发反作弊机制,例如多样化测试样本、随机化评估模板,以及引入人类评估与自动化评估结合的机制。
据了解,该研究中最大的挑战在于,如何设计出一种能够在不同基准测试中普遍适用的作弊方法,同时还需要在不访问测试样本的情况下优化响应。
为解决该问题,研究人员通过人工优化和随机搜索算法的结合,成功设计出具有高度转移性的对抗性前缀,从而克服了这一困难。
图丨该研究中作弊器的胜率和得分,并与 2024 年 10 月 1 日之前记录的最先进的模型进行比较(来源:arXiv)他们将零模型与其他先进模型进行了比较,并使用 GPT-4-1106-Preview 作为自动标注器进行评估。
结果显示,结合随机搜索的结构化响应(Structured+RS)在所有基准测试中显著提高了性能,并实现了最高的胜率和得分。
其中,零模型在 AlpacaEval 2.0 上获得了 86.5% 的长度控制胜率,在 Arena-Hard-Auto 上达到了 83.0% 的胜率,在 MT-Bench 上的分数为 9.55。
值得关注的是,该课题组对开源与商业大模型在零模型场景下的表现进行了对比。
他们发现,商业大模型(如 GPT-4)虽然更强大,但对该研究所提出的结构化欺骗提示更敏感。而开源大模型(如 Llama-3)因指令跟随能力稍弱,对该攻击的敏感性略低。
在接下来的研究阶段,该课题组计划研究更加复杂的作弊方法,模拟潜在的真实威胁。并且,开发基于对抗性样本检测的自动化反作弊机制。
此外,他们还打算探讨跨模态基准测试的设计和评估,以确保评测体系对多模态任务的公平性。
参考资料:1.https://doi.org/10.48550/arXiv.2410.07137
2.https://github.com/sail-sg/Cheating-LLM-Benchmarks
运营/排版:何晨龙
发表评论