如果我们不制止最先进的语言模型 就会产生令人信服的错误信息

自OpenAI推出以先进的语言模型GPT-3为基础的API以来已经过去了三个月,并且它仍然是AI社区乃至整个AI领域着迷的主题。波特兰州立大学计算机科学教授Melanie Mitchell发现了GPT-3可以做出原始类比的证据,而哥伦比亚大学的RaphaëlMillière则要求GPT-3对所写的哲学论文做出回应。但是随着美国总统大选临近,越来越多的学者开始担心,恶意参与者可能会选择使用GPT-3之类的工具,通过散布错误信息,虚假信息和彻头彻尾的谎言来煽动不和。在纸上共同作者由米德尔伯里国际研究中心(Middlebury Institute of International Studies)的恐怖主义,极端主义和反恐中心(CTEC)出版,他们发现GPT-3在生成“信息性”,“有影响力”文本方面的实力可以用来“将个人激化成暴力的远正确的极端主义思想和行为。”

如果我们不制止最先进的语言模型 就会产生令人信服的错误信息

通过错误信息的传播或有争议的观点的扩大,全世界越来越多的机器人在撒播动荡的种子。牛津互联网研究所(Oxford Internet Institute)在2019年发布的一份报告中发现了机器人在古巴,埃及,印度,伊朗,意大利,韩国和越南等50个国家传播宣传的证据。在英国,研究人员估计,6月5日至6月12日发送的有关该国退出欧盟提案的推文中,有半数来自机器人。在中东,2018年《华盛顿邮报》(Washington Post)舆论专栏作家贾马尔·卡舒吉(Jamal Khashoggi)被谋杀后,机器人产生了数千条推文,以支持沙特阿拉伯王储穆罕默德·本·萨勒曼(Mohammed bin Salman)。

Bot活动可能与即将到来的美国大选最相关,发生在去年11月,当时半机械人在本地肯塔基州大选期间散布了错误信息。追踪社交媒体错误信息的公司VineSight发现了小型机器人网络,这些网络在转发和喜欢民意调查前后都对转发州长的结果表示怀疑。

但是从历史上看,机器人并不复杂。最简单的是转推,投票或喜欢的帖子,可能会引发有毒(或暴力)辩论。考虑到其输出的说服力,使用GPT-3的机器人或“电子人”(试图通过散布人类操作员的推文来逃避垃圾邮件检测工具的帐户)的危害更大。“生产意识形态上一致的伪造文本不再需要大量的原始资料和数小时的[培训]。就像提示GPT-3一样简单;该模型将在不需要任何其他培训的情况下根据模式和意图进行选择,” Middlebury Institute研究的合著者写道。“……从GA-3到Atomwaffen部再到Wagner集团,以及这些社区的特殊细微差别,GPT-3对极端主义社区的深刻了解使这一情况更加恶化。”

在他们的研究中,CTEC研究人员试图确定人们是否可以通过意识形态偏见使GPT-3的知识着色。(GPT-3接受了来自互联网的数万亿个单词的培训,其架构设计使您可以通过更长的代表性提示(如推文,段落,论坛主题和电子邮件)进行微调。)他们发现,仅花费了几秒钟的时间就可以制作出该系统能够根据阴谋论来回答有关世界的问题,在某些情况下,是来自QAnon和Iron March社区的虚假信息。

共同作者写道:“ GPT-3可以从多个角度令人信服地完成一篇文章,在极右翼极端主义中引入各种不同的主题和哲学线索。”“它还可以产生新的主题并从头开始发布帖子,所有这些都属于[社区]意识形态的范围。”

CTEC的分析还发现,就多语种语言理解而言,GPT-3具有“令人惊讶的强大”能力,这表明他们有能力在响应英语提示(例如右翼偏见,仇外心理和阴谋论)的情况下生成俄语文字。该模型还被证明在建立连贯,可理解和意识形态上一致的极端主义宣言,传达如何为暴力辩护以及指导从武器制造到哲学激进的任何事情上都是“高效的”。

“不需要专业的技术知识就能使模型生成与右翼极端主义提示相吻合并随其扩展的文本。经过很少的实验,简短的提示会产生引人注目的且一致的文本,这些文本可以相信会出现在最右边的极端主义社区在线上,”研究人员写道。“ GPT-3模仿在线极端主义社区的意识形态上一致,互动,规范化环境的能力带来了扩大极端主义运动的风险,这些运动试图激进化和招募个人。极端主义者可以轻松地产生合成的文本,对其进行轻微的更改,然后运用自动化来加速这种思想意识和情绪激动的内容在网上论坛中的传播,而在网上论坛中,这些内容很难与人为产生的内容区分开。

OpenAI表示,它正在API级别尝试保护措施,包括“毒性过滤器”以限制从GPT-3生成有害语言。例如,它希望部署过滤器,以收集反犹太主义的内容,同时仍然让谈论犹太教的中立内容通过。

另一种解决方案可能是由Salesforce研究人员提出的一项技术,其中包括前Salesforce首席科学家Richard Socher。在最近的一篇论文中,他们描述了GeDi(“产生性鉴别器”的缩写),一种机器学习算法,能够通过GPT-3的前身GPT-2等语言模型“解毒”文本生成。在一项实验中,研究人员根据Alphabet的技术孵化器Jigsaw发布的开源数据集,对GeDi作为毒性分类器进行了培训。他们声称,GeDi引导的生成所产生的有毒文本比基线模型少得多,同时实现了最高的语言可接受性。

但是技术缓解只能取得如此大的成就。CTEC研究人员建议行业,政府和民间团体之间建立合作伙伴关系,以有效管理和设定使用和滥用GPT-3等新兴技术的标准。“生成语言模型的创建者和发行者具有为潜在客户和用户提供服务的独特动机。研究人员写道,在线服务提供商和现有平台将需要适应这种语言模型的输出及其服务使用所产生的影响。“为公民服务的公民和政府官员可以通过有关如何以及以何种方式创建和分发合成文本来支持健康规范和建设性在线社区的信息来增强自身能力。”

目前尚不清楚在美国总统大选之前这在多大程度上可能实现,但CTEC的调查结果显然表明了当务之急。如果不加以适当限制,GPT-3和类似模型具有破坏性的潜力,这将需要来自各个政治和意识形态领域的利益相关者找出如何安全和负责任地部署它们。

要获得AI报道,请将新闻提示发送给Khari Johnson和Kyle Wiggers-并确保订阅AI Weekly时事通讯并为我们的AI频道添加书签。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除。