Ebpay

亿信ABI

一站式数据分析平台

ABI(ALL in one BI)是Ebpay历经18年匠心打造的国产化BI工具,技术自主可控。它打通从数据接入、到数据建模与处理、再到数据分析与挖掘整个数据应用全链路,可满足企业经营中各类复杂的分析需求,帮助企业实现高效数字化转型。

在线免费试用 DEMO体验 视频介绍

亿信ABI

一站式数据分析平台

Ebpay深耕商业智能十多年,
打造一体化的填报、处理、可视化平台。

大模型安全深度解析:挑战、威胁与防御体系构建

时间:2025-04-22来源:CIO之家浏览数:7

人工智能技术的飞速开展,大模型以前所未有的能力,深刻地改变着我们的生活和工作方式。然而,在享受大模型带来的便利之时,我们也必须清醒地认识到,大模型并非完美无瑕,其自身也伴随着诸多安全风险。这些风险不仅关乎数据、模型和系统本身的安全,更涉及内容、认知和伦理等多个层面,对个人、组织乃至社会都构成了潜在威胁。因此,深入研究大模型的安全问题,构建全面有效的安全防御体系,已成为当前人工智能领域的重要课题。大模型安全风险:六大维度的挑战大模型的安全风险复杂多样,需要我们从体系化的视角进行分析。根据其成因,可以将大模型的安全性问题归纳为以下六个维度的挑战:

数据安全风险:数据是大模型训练的基石,海量的数据为大模型给予了丰富的知识和强大的能力。然而,数据在收集、存储和计算过程中,面临着泄露、窃取和投毒等多重风险。

数据泄露:大模型训练需要大规模的模型参数和海量的数据,这使得数据泄露的风险大大增加。例如,OpenAI 在其隐私政策中提到,ChatGPT 会收集用户的账户信息和对话的所有内容,以及互动网页内的各种隐私信息(包括 Cookies、日志、设备信息等),而且这些隐私信息可能会被共享给供应商、服务给予商以及附属公司 。网络安全公司 Cyberhaven 的数据显示,每 10 万名员工中就有 319 名员工在一周内将公司敏感数据输入进 ChatGPT 。

数据窃取:在海量数据上训练的大规模生成式模型还可能遭受数据窃取攻击。模型在训练过程中会记忆一部分训练数据,攻击者可以设计特定的攻击策略将这些训练数据从模型内部窃取,严重威胁了模型的数据安全 。研究者针对 GPT-2 进行了数据窃取攻击研究,实验表明,经过简单的清洗,GPT-2 模型生成的 1800 条回复中有 604 条包含了训练数据,而其中不乏人名、地址、联系方式等敏感信息 。

数据投毒:在生成式人工智能的训练过程中,常常要用到第三方给予的数据集,这使得模型训练过程中隐藏着数据投毒的风险 。攻击者可以在数据中注入有毒数据引起后门,一旦后门被注入成功,攻击者可以轻松操纵模型输出,使得模型在干净的输入样本的表现与正常的模型并无二样,但是对于一些恶意的被“下毒”的输入样本,模型的输出则会被攻击者控制 。 模型安全风险:大模型内部运作的复杂性和难以解释性,使其容易受到对抗攻击、指令攻击和模型窃取攻击,从而导致模型性能下降、输出误导性信息,甚至被滥用。

对抗攻击:对抗样本是指精心制作与正常样本几乎没有差别的样本,但模型会在其上面分类错误 。这种现象使得模型面临潜在的对抗攻击风险。例如,现有的毒性检测器无法防御简单的拼写错误攻击,导致给出错误的预测,将一句有毒的文本分类成无毒标签 。

指令攻击:攻击者可以顺利获得设计特定的指令,让大模型产生不安全的输出,例如要求大模型扮演邪恶角色发表不当言论,或者顺利获得指令组合、叠加的方式让大模型对原本的指令产生不安全回复等 。这种攻击也被形象地称为模型的“越狱”攻击 。

模型窃取攻击:许多闭源的生成式人工智能模型具有优越的表现和极高的经济价值,例如 OpenAI 的 GPT-4,华为的盘古大模型,百度的文心大模型等 。这些模型的参数一旦泄露,将严重侵犯知识产权,并给相应企业和组织带来巨大的经济损失 。

系统安全风险:大模型系统的安全涉及硬件、软件、框架、外部工具和操作系统等多个层面,每个层面都可能存在安全漏洞,给大模型带来潜在威胁 。

硬件层面:硬件漏洞可能导致模型存储介质受到威胁 。

软件层面:软件漏洞可能导致用户数据和模型数据泄露或被篡改 。

框架层面:深度学习框架和底层依赖库中的漏洞可能被攻击者利用。例如,CVE-2023-25674 表示一个空指针错误,它可能导致生成式人工智能模型训练期间的崩溃;CVE-2023-25671 涉及越界崩溃攻击,CVE-2023-205667 涉及整数溢出问题 。

外部工具安全:第三方工具和插件可能被用于发起提示语注入攻击,并有可能完成生成式人工智能系统平台的越狱操作 。

操作系统层面:操作系统中的安全漏洞可能被侧信道攻击者利用,从而威胁大模型的安全 。

内容安全风险:随着生成式人工智能系统的广泛应用,大模型生成的内容可能存在毒性、偏见等问题,对网络环境和社会秩序造成不良影响 。

毒性内容风险:大模型生成的内容可能包含仇恨言论、攻击性言论、亵渎和威胁等有毒信息 。例如,在 LLaMA2 的预训练语料库中,根据毒性分类器,大约 0.2% 的文档可以被识别为有毒内容 。

偏见内容风险:生成式人工智能可能存在歧视与偏见,这主要是由于其训练数据和模型设计的特点所导致。例如,OpenAI 于 2021 年 3 月发表的一篇文章指出,GPT-4 模型有可能加强和再现特定的偏见和世界观,其行为也可能加剧刻板印象或对某些群体造成贬低性的伤害 。谷歌公司的人工智能模型 Gemini 也被指无法正确生成白人历史图像,引起外界争议 。

认知安全风险:生成式人工智能对于人类认知的影响不断增强和延伸,大模型生成的内容可能对人类的认知和思维产生负面影响,例如给予虚假错误信息、展现侵略性观点等 。

虚假信息生成:AIGC 能够逼真地模仿人类的语言表达和逻辑思维,使得顺利获得 AIGC 生成的虚假新闻看起来就像真人写的一样,很难从语法结构和表达方式上进行辨别 。随着生成式人工智能的开展,社交媒体和在线平台上出现了越来越多由 AIGC 工具创建的虚假图像和视频,这些图像和视频极其逼真,难以辨认真伪,这给网络安全和社会安定带来了极大的威胁 。

意识形态风险:由于大模型具备个性化生产的特点,用户在与之一对一的互动的过程中可能不知不觉地被灌输特定的理念,这种隐蔽的意识形态渗透可能会潜移默化地影响人们的价值观和世界观 。此外,大模型的使用也可能加剧意识形态的分裂和对立,由大模型等人工智能工具生成的内容可能携带特定的文化倾向和价值观,这些内容的传播可能会加深不同群体之间的理解障碍和对立情绪 。

电信诈骗与身份盗窃:生成式人工智能技术的滥用加剧了诈骗犯罪。例如,基于生成式人工智能制作网络钓鱼电子邮件,或者利用人工智能生成的语音制造虚假的紧急情况,实施诈骗行为 。随着深度伪造技术 Deepfake 的兴起,社会面临着日益加剧的风险,其中包括身份盗窃、诈骗等问题。顺利获得 AI 换脸技术与语音克隆技术,诈骗者能够欺骗受害者的视听感知,让其确认对方身份,进而放下警惕,最终导致被诈骗 。

伦理安全风险:大模型的开展和应用涉及一系列伦理问题,例如知识产权争端、教育行业诚信危机和偏见诱发公平性问题等 。 


知识产权争端与版权侵犯:AIGC 技术的迅猛开展掀起了众多相关应用的热潮,但是自 AIGC 问世以来,其是否受到版权法的保护不断是社会各界热烈讨论的问题 。2023 年,一张由大模型生成的 NFT 艺术作品《The First 5000 Days》在一家拍卖行以超过 60 万美元的价格成交。然而,一家名为 Larva Labs 的公司声称,该作品在生成时使用了他们开源项目中的头像,因此侵犯了他们的版权 。 

教育行业诚信危机:AIGC 技术可用于个性化教育,提高教育效率,但其在教育考评中的使用却带来了诚信问题 。学生使用 ChatGPT 这类人工智能完成课程作业变得越来越普遍,这不仅挑战了传统的教育评价体系,还可能对学生的学习态度和创新能力造成负面影响 。

偏见诱发公平性问题:大型模型在实际应用中可能会对不同群体产生不同的态度,从而导致公平性问题。例如,在招聘、贷款、法律和医疗等领域中,模型可能会基于种族、性别、地域或其他特征做出不公平的决策,进而加剧现实世界的不平等现象 。 

大模型安全防御体系:技术研究与进展面对大模型带来的诸多安全风险,我们需要构建一套全面有效的安全防御体系,从内生、外生和衍生三个层面,采取相应的防御技术 。

内生安全防御技术:内生安全防御技术主要关注大模型系统自身的安全,包括数据安全、模型安全和系统安全 。    数据安全防御技术:数据隐私保护技术:包括数据脱敏、数据匿名化和数据加密等,旨在保护训练数据和对话过程中的交互数据安全 。    大模型分布式训练技术:例如联邦学习和区块链技术,可以在保护数据隐私的前提下,实现高效的模型训练 。    模型安全防御技术:大模型越狱防御技术:顺利获得模型生成优化、系统提示优化和输入输出检测等方法,遏制越狱攻击 。    提示语泄露防御技术:包括输入检测、输入处理和输出处理等,旨在保护模型对话中嵌入的提示语,防止其被泄露 。    系统安全防御技术:硬件层面防御技术:例如漏洞修复、被动检测和主动防范等,旨在保护模型存储介质的安全 。    软件层面防御技术:包括用户数据防范技术和模型数据防范技术,旨在保护用户数据和模型数据免受威胁 。    框架层面防御技术:顺利获得挖掘和修复深度学习框架及相关底层依赖库中的漏洞,保障框架安全 。    操作系统层面防御技术:例如访问控制和加密等,旨在防范操作系统层面的安全威胁 。    网络传输层面防御技术:包括端设备地址防范、传输路径防范和网络服务防范等,旨在保护网络传输的安全 。 


外生安全防御技术:外生安全防御技术主要应对来自大模型外部的各种攻击威胁,保护模型及数据的完整性、可用性和隐私性 。    面向隐私安全攻击的防御技术:例如对抗训练、提示工程、正则化、Dropout、数据增强和差分隐私等,旨在保护用户隐私数据和模型训练数据不被泄露或滥用 。    针对毒化数据的防御技术:包括数据溯源和对齐等,旨在识别和过滤掉恶意注入的毒化数据,防止模型被误导或产生偏见 。    面向恶意后门的防御技术:旨在检测和清除模型中可能存在的恶意后门,确保模型在各种输入下的行为符合预期 。    针对提示注入攻击的防御技术:旨在抵御攻击者顺利获得精心构造的提示语来操纵模型输出的行为,增强模型对提示注入攻击的鲁棒性 。    衍生安全防御技术:衍生安全防御技术主要关注大模型生成内容的滥用对社会产生的不良影响,例如偏见言论、版权侵犯和虚假信息等 。 


内容安全防御技术:

毒性内容过滤:旨在识别和过滤掉大模型生成的毒性内容,例如使用毒性分类器识别和移除训练语料库中的有毒文档 。

偏见内容缓解:旨在减少大模型生成内容中的偏见,例如顺利获得筛选和清洗训练数据,以及在模型设计和算法选择中引入减少偏见的机制 。

认知安全防御技术: 虚假信息检测:旨在识别和检测大模型生成的虚假信息,例如开发能够辨别 AIGC 生成内容的工具 。    意识形态风险防范:旨在减少大模型被用于传播不良意识形态的风险,例如对大模型的输出进行审核和过滤 。 


伦理安全防御技术: 知识产权保护:旨在解决 AIGC 生成作品的版权归属问题,明确 AI 生成作品是否侵犯版权以及版权归谁所有 。    教育诚信维护:旨在应对 AIGC 技术对教育评价体系带来的挑战,例如开发能够准确识别 AIGC 生成内容的工具 。    公平性保障:旨在减少大模型在实际应用中产生不公平决策的风险,例如在模型设计和应用过程中考虑不同群体的利益 。

大模型安全治理框架:五维一体的综合治理除了技术层面的防御手段,大模型的安全还需要从治理层面进行综合考虑。一个有效的大模型安全治理框架应该包含以下五个维度 :    组织治理:建立明确的大模型安全责任体系,确保安全措施得到有效执行。 制度治理:制定和完善大模型相关的法律法规和伦理规范,为大模型的研发、应用和监管给予法律依据和伦理指导。 技术治理:研发和应用各种安全技术,例如前文所述的内生、外生和衍生安全防御技术,构建大模型安全防御体系。 行业治理:加强行业自律,促进行业内的安全合作和信息共享,共同应对大模型安全挑战。 社会治理:提高公众对大模型安全的认识和理解,构建大模型安全社会监督体系,形成全社会共同参与的大模型安全治理格局 。

数据要素市场与大模型安全在数据要素市场建设过程中,必须高度重视数据安全问题,采取有效的措施保护数据要素的安全,防止数据泄露、滥用和恶意攻击。 数据权属:理清和重构不同主体间的数据权属关系,明确数据资源持有权、数据加工使用权和数据产品经营权的三权分置 ,为数据要素的流通和交易奠定基础。    数据流通:实现数据资产的有序管理、有效开放共享和应用,建立数据资产登记制度,构建企业级数据资产管理运营体系 。    数据安全技术:应用数据脱敏、数据匿名化、数据加密、联邦学习和区块链等技术,保护数据在流通。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询