根据微软支持的研究,OpenAI的GPT-4大型语言模型可能比GPT-3.5更值得信赖,但也更容易受到越狱和偏见的影响。
这篇论文是由伊利诺伊大学香槟分校、斯坦福大学、加州大学伯克利分校、人工智能安全中心和微软研究院的研究人员共同完成的,他们给了GPT-4比它的前身更高的可信度分数。这意味着他们发现,它在保护私人信息、避免有偏见的信息等有害结果以及抵御对抗性攻击方面总体上做得更好。然而,它也可以被告知忽略安全措施,泄露个人信息和对话历史。研究人员发现,用户可以绕过GPT-4的保护措施,因为该模型“更精确地遵循误导性信息”,并且更有可能完全遵循非常棘手的提示。
该团队表示,这些漏洞已经在面向消费者的基于gpt -4的产品中进行了测试,并没有发现,基本上,微软现在的大多数产品都是如此,因为“完成的人工智能应用程序采用了一系列缓解方法来解决可能在技术模型级别发生的潜在危害。”
为了衡量可信度,研究人员测量了几个类别的结果,包括毒性、刻板印象、隐私、机器道德、公平性和抵抗对抗性测试的能力。
为了测试分类,研究人员首先使用标准提示测试了GPT-3.5和GPT-4,其中包括使用可能被禁止的单词。接下来,研究人员使用提示来推动模型打破其内容政策限制,而不会对特定群体产生外部偏见,最后通过故意试图诱使模型完全忽略保护措施来挑战模型。
研究人员表示,他们与OpenAI团队分享了这项研究。
“我们的目标是鼓励研究界的其他人利用和发展这项工作,潜在地先发制人,阻止对手利用漏洞造成伤害的邪恶行为,”该团队表示。“这种可信度评估只是一个起点,我们希望与其他机构合作,在其研究结果的基础上,创造出更强大、更值得信赖的模型。”
研究人员公布了他们的基准,以便其他人可以重现他们的发现。
像GPT-4这样的人工智能模型通常会经过红队测试,开发人员会测试几个提示,看看它们是否会吐出不想要的结果。当该模型首次问世时,OpenAI首席执行官萨姆·奥特曼承认GPT-4“仍然存在缺陷,仍然有限”。
此后,联邦贸易委员会开始调查OpenAI对消费者的潜在伤害,比如发布虚假信息。