原标题:以AI对抗AI!蚂蚁集团王维强详解大模型安全防御解决方案

大模型的出现为AI行业带来冲击,既涌现出无限创造力与想象力,或许也会带来不可控、滥用的种种风险,如何统筹大模型的发展和安全,已引发行业内外的广泛关注。12月19日,南方都市报、南都大数据研究院联合琶洲实验室、光明实验室在广州举办“势起AI 智启新界”大模型创新应用与安全治理大会,蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

他表示,大模型安全既要“快”也要“慢”,大模型安全防御方面要“快”,要能快速检测、查杀病毒,确保服务无毒害;在大模型安全可信方面要“慢”,要能长远地、体系化地保证整个系统环境的可控、可信。

蚂蚁集团安全实验室首席科学家、可信AI负责人王维强围绕“大模型安全的紧迫性和实践”发表主旨演讲。

新AI时代 新平台责任

“大模型的能力在提升,其使用门槛在降低,越来越多的普通老百姓可以接触到大模型,可能会带来一些滥用的问题,这相当于打开了一个魔盒。”王维强讲道。

新AI时代,信息真实性和新型风险亟待解决,也迎来了新的平台责任。王维强指出,过去的传统内容风险防控中,责任主体是用户和发布平台,在当下和未来的AIGC内容风险防控中,责任主体是大模型厂商和服务平台,在内容安全风险防控、模型隐私泄露防控、伦理和价值观向善、AI技术生成标识等方面都面临新的安全挑战问题。他认为,平台和大模型厂商需要引导AI向善、安全、不作恶。

大模型风险从何而来?王维强从大模型生成流程解释了AI安全问题的本源。一个可能的路径是存在在预训练大规模数据中,如果数据本身“有毒”,带有不良伦理价值观、存在偏见和歧视,其中存在商业机密、版权等隐私问题,或有谣言虚假信息等质量问题,那么大模型输出的内容就存在安全问题。另一个渠道是行业领域微调的过程,这里可能涉及诱导错误的人类对齐、错误价值导向等恶意标注;不可靠的低质量标准和缺少多样性的固化标注,这些标注也会给大模型带来问题。同时,要注意模型本身的可控问题,模型的可靠性、稳定性、鲁棒性等都需要进行检验。此外,还有大模型在实际场景中应用的安全问题,在实际的使用过程中,不同用户群体的交互和应用都需要谨慎评估,尤其是金融、医疗等领域对模型输出的正确性要求极高,如果应用不当,一石就容易激起千层浪。

以AI技术为大模型安全护航

诸多问题当前,该如何为大模型保驾护航?行业的共识是使用安全、可靠、可控的AI技术,来对抗AI风险,“以魔法打败魔法”。

在王维强看来,保障大模型安全性主要有三个关键环节,一是从训练数据源头消毒;二是做护栏加固防止推理过程黑盒的不可控问题;三是面对外部诱导的对抗攻击。

“大模型数据其实去毒和不去毒,本身并不是0和1的问题,主要是要可控,世界的暗面也是世界的一面。”王维强说,“在研究大模型研发过程中我们做了很多尝试,如果完全没有任何负面数据,训练出来的大模型可能就会成为一个‘傻白甜’,碰到有挑战的安全问题,就很容易掉到陷阱里面,所以还得把‘消毒’和‘加毒’很好地融合起来。”由此,蚂蚁安全实验室形成了一套消毒技术方案,初步实现每天100亿的风险初筛、精细化标注的能力。

据他介绍,为解决大模型生成可控问题,蚂蚁安全实验室从四个方面进行了初步探索。一是通过SFT、RLHF/RRHF、RLAIF等技术和高质量标注做人类对齐;二是图像方面做了风险抑制,进行可控调试,让大模型生成的图像具备正向的价值观;同时,大模型外挂千万级安全知识库生成和检索,生产有效率达到60%;此外,还对疑难风险内容进行补充,提升模型的风险认知能力。

这些技术方案集成,形成了被称为“蚁天鉴”的大模型安全一体化解决方案,包含大模型安全检测平台“蚁鉴2.0”和大模型风险防御平台“天鉴”两大产品,目前这两项产品已对外开放。其中“蚁鉴2.0”可以诊疗检测、定位问题,它相当于站在“黑产”角度,通过智能攻击对抗技术,自动生成数百万的诱导性问题,对生成式大模型进行诱导式问答,并对大模型的回答实时、自动化检测计算,24小时不眠不休“找茬”大模型存在的弱点和安全问题。而“天鉴”可以进行“防治”,防患于未然,帮助大模型挡住外界的恶意提问,同时对生成的回答内容进行风险过滤,保障大模型上线后从用户输入到生成输出的整体安全防御。

演讲最后,王维强表示,在大模型安全系统建设中,仍需要花很多时间和行业做共建,“可信AI是数字时代抵御风险的核心能力,蚂蚁集团希望与全社会一起持续推进可信AI,共治AI风险。”

出品:南都大数据研究院

监制:戎明昌 刘江涛

策划:王卫国 邹莹

统筹:凌慧珊 关健明

采写:南都记者 熊润淼返回搜狐,查看更多

责任编辑:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注