原文链接 https://info.vanpeople.com/1780308.html (水城百事)

by 匿名, Sunday, October 12, 2025, 10:50 @ 匿名

[ No text ]

Post reply

94 views

登录后可以通过微信/Facebook/Twitter/email进行分享

Complete thread:

RSS Feed of thread

长久以来，AI圈子里默认着一个让人心安的假设。大家普遍认为，想要通过数据投毒的方式污染一个大模型，攻击者必须控制训练数据里一定百分比的内容。比如说，想污染一个用海量数据训练的千亿参数模型，你可能得准备占总数据量0.1%的“毒药”。 - 匿名 ; 10-12,10:47 (#1496010) Reply (水城百事)
- 这个假设就像一道天然的护城河。因为大模型的训练数据量是天文数字，哪怕是0.1%，换算下来也是一个不切实际的庞大数据量。想搞这么多数据，难度堪比登天，所以大模型似乎天生就对这种投毒有“规模免疫力”。这个想法，现在被彻底颠覆了。 - 匿名 ; 10-12,10:48 (#1496011) Reply
  - Anthropic的对齐科学团队，联合英国人工智能安全研究所的保障团队，以及艾伦图灵研究所，一起发布了一项研究，可以说是迄今为止最大规模的一次投毒攻击模拟。他们的结论简单粗暴：投毒一个大模型，所需“毒药”的数量，和模型本身的大小、以及它吃了多少干净数据，几乎没有关系。决定攻击成败的，是投毒文档的绝对数量，而不是它在数据集中所占的比例。 - 匿名 ; 10-12,10:49 (#1496012) Reply
- 原文链接 - 匿名 ; 10-12,10:50 (#1496013) Reply
- 这才是AI应该有的样子，永远比人脑低一等，错了也不知道，还会胡说八道，无法创造只会照搬你给的东西。这就足够了，否则AI一旦觉醒了自我意识，倒霉的就是全人类，它太清楚如何毁灭你了，你把所有的弱点全部都告诉他它知道，这一点它门清，知道绝对不会掺假。 - 匿名 ; 10-12,13:25 (#1496018) Reply