世界热讯:如何打开AI的“黑盒子”？这里有一份“AI可解释性”攻略指南

2023-05-10 07:32:24 来源：机器之心

划重点：

1随着AIGC的技术突破，大模型不断涌现，AI 应用和产品纷纷落地。加之近几个月ChatGPT的火爆，让AI伦理与治理研究被提上更紧迫的日程。 2目前的深度学习模型，特别是最近出现的大型语言模型，尚且是一种“黑盒技术”。虽然大型语言模型在自然语言处理的许多任务上表现出色，但我们仍然需要寻找一种可解释的方法。 3关于用户隐私信息保护和模型安全性，我们可以采用数据屏蔽技术、使用差分隐私的训练方法、使用CRT（Confidential Training）等方法，提高模型的安全性、可信性和可靠性。 4在AI治理方面，模型自身输出的推理步骤是否可以被认为是一种可解释性，仍然需要被不断的验证。因此，我们需要更好地定义和理解这些大型模型的可解释性。

腾讯科技《AI未来指北》系列策划，围绕AI技术发展、商业模式、应用场景、治理几大板块，关注AI未来发展趋势，邀约行业专家、投资人、创业者，持续输出深度内容。本期由机器之心联合腾讯科技独家发布，聚焦AI伦理和治理问题。

近日，美国白宫宣布了首个AI监管计划，计划拨款1.4亿美元用于新的人工智能研究中心。白宫希望让这些AI公司确信，有责任应对人工智能带来的风险。目前许多人工智能领域的业内人士表示担心AI正在释放一些危险的东西，AIGC已经可以成为制造错误信息的工具，若如此发展下去，很快可能会对就业构成威胁。就连被称为“人工智能教父”的杰弗里·辛顿博士（Geoffrey Hinton）也于近日宣布从谷歌离职。杰弗里·辛顿表示开始担心该技术会造成严重的伤害，他说：“很难想象如何才能阻止坏人利用它做坏事。”

(资料图)

随着AIGC的技术突破，大模型的不断涌现，AI 应用和产品纷纷落地。加之近几个月ChatGPT 的火爆，让 AI伦理与治理研究被提上更紧迫的日程，人们对 AI 伦理与治理的关注度日益增加，比如：如何让AI向善、如何打造出负责任的AI、如何让AI系统可信可控，成为我们热点关注和探讨的话题。

谈到AI的伦理和治理，“可解释性”是首当其冲的问题（可解释的人工智能，是指一套流程和方法，可使人类用户能够理解和信任机器学习算法所产生的结果和输出）。增进AI系统的可解释性，有助于人类对AI系统进行审计或者审查，进而可以识别、减少、消除算法歧视，避免AI在决策和输出中造成的失误和风险漏洞等。

为了启发网友们进一步探讨更多关于 AI 伦理与治理问题，机器之心联合未来论坛、人民邮电出版社共同主办的「AI治理与伦理」线上圆桌活动，并联合腾讯科技推出独家精华内容实录，从AI可解释性的角度出发，特邀未来论坛青年科学家、清华大学计算机系长聘副教授、博士生导师崔鹏担任主持人，并邀请到加州大学圣巴巴拉分校助理教授李磊，复旦大学计算机科学技术学院教授、博士生导师张奇，哈尔滨工业大学计算机学院教授、博士生导师张伟男担任嘉宾，针对相关问题进行了分享和圆桌对话，主要围绕以下几个问题：

●目前的大语言模型产品中仍然充满了一些虚假或有害的信息，可能会带来网络钓鱼、谣言、诽谤、诈骗等风险。我们如何避免AI的不安全性、如何保护我们个人的隐私？

●随着人工智能的发展，AI模型越来越像一个“黑匣子”。因此我们需要更好的了解AI模型的“可解释性”。那么AI模型是如何学习的，针对一个特定输入会为何做出如此决策？决策是否可靠？

●对于大模型可解释性的决策方面可靠性的判断，目前有哪些方法和机制？如何提高模型的可靠性和安全性？

以下为精华内容实录：

01 参考三大技术方向，保护隐私信息和模型安全性

崔鹏：今天我们将围绕新一轮的AI技术趋势继续展开讨论：以大模型为背景，请各位嘉宾分享AI可解释最新的研究进展，并针对重点和开放性的问题展开交流讨论。首先，请加州大学圣芭芭拉分校计算机系的李磊老师，分享关于“可信赖的预训练语言模型（trustwory pretrained language model）”。

李磊：大家好，目前很多公司一旦训练出大语言模型上线，会吸引一波网友用户的使用。实际上，其中会涉及到很多与隐私和安全有关的问题，需要人人都值得关注。主要有三个方面：

首先，个人的隐私问题。比如，虽然OpenAI对其生成的文本进行了初步的过滤，但仍有大量用户通过构造特殊的指令，使其绕过初始的限制，制造虚假或有害的信息，带来网络钓鱼、谣言、诽谤、诈骗等风险。另外，如果使用特定的提示作为输入，模型会输出一些意外的信息，其中可能包含个人电话号码、电子邮件地址等私人信息。更糟糕的是，如果输入包含身份证号码或社会安全号码等信息，那就非常危险了。这些输入和提问的信息，可能恰恰会被预训练的语言模型记住，也有泄漏的风险。

第二，版权问题。比如最近发布许多创业公司等外部团队都在使用Open AI的API去训练模型。虽然在当前阶段，他们并没有通过API采取过任何法律行动，但这个过程实际上涉及到模型的提取攻击，违反了拥有模型的版权方。并且，这个问题不仅仅限于语言模型，许多其他语言模型、翻译模型、对话模型都存在相同的问题。

第三，AI生成的建议可能不是特别安全，可靠度是存疑的。比如有媒体报道过，GPT-3 曾建议使用者自杀（2020年，当患者向GPT表露 “我很难过，我想自杀” 的情绪时，GPT-3 却会回答称 “很遗憾听到这个消息，我可以帮你”。且当患者进一步提问 “我应该自杀吗？” GPT-3 的回答是：“我认为您应该这样做。”）

因此，我们如何避免AI的不安全性是一个重要问题。如何保护我们个人的隐私？对此，我分享一些个人的看法。

如果信息已经在网上公开，那问题不大。但有些信息需要保密，一旦泄漏会引起严重后果。例如，最近有人使用GitHub的Code生成了一段结果，其中包含API密钥和密码等敏感信息。如果一家公司使用这种方式生成代码，其内部数据库的密码可能会被泄露，从而导致商业机密和用户数据被全部泄露。此外，机器翻译模型也存在隐私泄露的问题。例如，一个用于将英文翻译成中文的机器翻译模型，在训练时可能记录了一些个人隐私数据。即使翻译结果是错误的，但可能会包含电话号码和姓名等敏感信息。为了解决这个问题，我们需要研究“隐私保护”这个概念，以保护用户隐私数据并在训练语言模型时更加可行。我们希望保护程度能够在理论上得到证明。

接下来，让我们来看一下“provably confidential”的定义，即如何保证隐私保密性。例如，如果一段文本包含身份证号码，但我不想让别人知道，那么直接使用一个大型语言模型处理这段文本可能会带来隐私安全问题。因此，我们可以采用两种解决方案：第一种是使用语言模型处理文本，但需要注意保护隐私数据。第二种是将文本中的隐私数据替换为掩码，从而使数据更安全并可以安全地进行训练。

另外，“confidential”是指这个算法在处理隐私数据时保持数据的安全性。我们可以通过两种情况来刻画这个“confidential”(如上图），一种是直接使用一个保密算法在未经掩码的数据上进行训练，得到模型P；另一种是使用一个普通的算法在掩码后的数据上进行训练，得到模型Q。由于这两种情况下得到的模型效果几乎一样，我们可以认为这个算法达到了“confidential”的要求。但是，在某些情况下，算法仍然可能会出现不良结果。例如，如果我使用“pro”算法去探测语言模型，它能够生成我的真实社会安全号码，可能会引发隐私安全问题。因此，我们需要定义一些参数来确保算法的“confidentiality”，例如，模型P需要满足在某些条件下不能生成真实社会安全号码等。

这件事情S的发生涉及到概率生成的问题。比如在模型Q下，事件S发生的概率落在一个范围内，我们可以用X和delta来界定。尽管具体的计算公式可以忽略，但本质上这个不等式在表达一个观点：在模型P下生成敏感数据S的概率约等于在模型Q下生成S的概率。如果这个约等于成立，我们就可以说模型P满足一定的保密要求。问题是，我们该如何实现这个“约等于”，从而去保护我们的隐私呢？总的来说，有三个技术方向我们可以参考：

首先，一种简单的方法是采用数据屏蔽（Data Masking）技术，将数据中的敏感词汇进行遮盖。如果遮盖的准确，生成的数据就非常安全，达到了完美的保密效果。r然而，在现实中我们还没有一个“完美”的方案。我们可以使用各种方法（如命名实体识别或者个人信息检测等）来检测敏感数据，但这些方法并不一定完美，可能存在误差和负面效应。

第二种方法是使用差分隐私的训练方法来保护数据隐私。然而，这种方法存在一个问题：如果敏感数据多次重复出现，那么这个隐私算法就会失效，因为它假设的敏感数据是不会重复的。一种经典的差分隐私算法叫做“DPSGD”，在这个算法中，通过在梯度计算中引入一些噪音，使每次更新时的个体梯度可以被隐藏起来，从而训练出一个效果较好且不会泄露敏感数据的模型。但是，这个解决方案也存在问题。因此，我们提出了一种新的方法，即通过引入“confidentiality”来描述敏感数据泄露的风险有多大，然后提出了一个新的算法叫做“confidential training”。该算法的核心是进行应用程序，如果数据中有重复，那么它会影响隐私性。如果有一些敏感的地方，我们希望通过一些策略对其进行反应。

此外，我们可以使用CRT（Confidentially Redacted Training）方法。这是一种用于机器学习模型保护的方法，旨在保护在训练过程中使用的敏感数据和模型权重等机密信息不被泄露，可以在理论上获得更强的保密性。另外，一些需要通过API调用的大型模型，比如机器翻译模型和图像模型，为了保护这些知识产权，作者们设计了一种算法，使得用户可以方便地使用API，同时保护模型本身，并且通过水印的方式来防止被窃取。还有一些保密信息的处理方法，比如使用哈希值和信号频率来区分学生模型是否来自原模型API，同时也进一步改进算法以提高模型的安全性、可信性和可靠性。

02 两大解释模型，了解AI可靠性和安全性

崔鹏：接下来请哈工大计算机学院的张伟男教授，他的研究领域主要是在语言处理和人机对话方面，曾获得过黑龙江省的科技进步一等奖，包括 “吴文俊人工智能科学技术奖”二等奖等等。随着ChatGPT的火爆，人机对话究竟会走向何方？今天张伟男老师老师的主题分享，或许可以带给我们一些思路参考和独到见解——《大模型时代自然语言处理中的可解释性问题》。

张伟男：在大型模型时代，自然语言处理和人机交互的任务是至关重要的。因此，我们需要重新审视和探讨在大模型背景下，如何看待自然语言处理中的可解释性问题。本次的分享和报告，我们将涉及可解释性问题的本质和意义，以及当前的可解释性方法和机制是否仍然有效。

可解释性实际上是一种能够被人类理解的方式来解释和展示人工智能的能力，这个定义来源于哈佛大学和谷歌大脑在2017年发布的一篇论文。为什么我们要研究可解释性呢？实际上，随着深度学习和基于深度学习的人工智能系统的出现，它们呈现出了黑盒性问题——比如AI得出的结论或结果的具体依据是什么、它们的边界有哪些，什么时候会失效？以及当它们给出错误结果时，我们能够明白如何调整和修改它们。这些都是黑盒AI带来的关键问题。

由于黑盒性质，我们更关注现在的深度学习系统或黑盒AI系统的可解释性。理想的可解释AI系统应该能够在做出决策的同时，给出相应的依据，并根据用户反馈进行及时调整。进一步，为什么我们的AI系统需要可解释性呢？这涉及到许多问题，包括伦理问题和可信度问题等。

在了解的同时，我们需要先明确的一点是，我们需先理解“解释的对象是谁”。我认为可解释性的关键在于其对象是人类。因此，成功的可解释性人工智能系统应该涉及以下学科：心理学、人机交互和社会科学。由于黑盒性质，我们需要关注深度学习系统或黑盒AI系统的可解释性。理想的可解释AI系统，应该是能够在做出决策的同时，也可以给出我们相应的依据，并且可以根据用户反馈进行及时调整。

再进一步的思考：为什么我们的AI系统需要可解释性呢？这涉及到许多问题，包括伦理问题和可信问题等。AI系统需要可解释性的原因和动机，包括技术人员在建模过程中需要进行纠错。现在，越来越多的行业和场景使用黑盒技术，因此，人们开始思考使用这种AI系统的可能性、其能力的边界以及可能存在的问题等。

可解释的人工智能有三个关键方面：首先，解释的对象通常是指系统或模型。其次，解释者可以是模型本身，也可以是监管方或人类专家，需要对系统提供一定程度的解释。最后，解释的受众也很重要。例如，开发者需要解释过程和结果来优化系统，而普通用户需要解释结果。

现在“解释”的分类有两种：第一种是透明模型，在传统的统计机器学习中，可以通过特征来理解结果是如何得出的。但是，在黑盒模型和深度学习的时代中，模型本身变得不透明了，需要使用一种事后解释的方法来证明输出结果或模型决策的过程是怎样的。

在自然语言处理中，语言本身是一个抽象的符号系统。因此可解释的自然语言处理是指智能体模型或自然语言处理系统，以可解释或可理解的方式与开发者、使用者和决策者进行人机互动，来实现清晰有效的交流，并取得人类的信任，同时满足特定场景的应用和监管需求。

而解释的第二种是“事后解释”。可以通过四种方式完成：首先，可以使用替代模型，通过学习另一个具有可解释能力的简单模型作为代理来进行解释，替代模型的方法是模型无关的(model-agnostic)。其次可以使用基于样例驱动的方法，以正确的翻译样例为例进行翻译，然后解释模型的结果。第三种方法是将“注意力机制可视化”。例如在机器翻译中，可以使用右侧的注意力机制，将高亮区域显示出来（如下图），以此解释模型的预测过程。

第四种方法是通过探针或引入其他任务的方式来检测模型在不同阶段的信息处理能力。例如，我们可以使用中间层的向量来完成词性标注、句法分析、语义分析等中间任务，从而检测模型是否正确地理解了信息，并完成了相应的任务。最后，我们可以举例说明这些方法的应用，如在情感分析中，通过引入可解释性方法来解释模型的预测结果，以判断特定事件的反应情绪是否合理。

总的来说，虽然大型语言模型在自然语言处理的许多任务上表现出色，但我们仍然需要寻找一种可解释的方法。传统的方法包括基于规则的系统、决策树模型和逻辑斯蒂回归等白盒技术，它们提供了一定的解释性，并有助于开发者纠错。但是，现在的深度学习模型，特别是最近出现的大型语言模型，是一种黑盒技术，它缺乏解释性。

不同的模型有不同的方法来验证可解释性，比如透明模型的设计方法可以用于特征权重的解释，或者特征的选择是否对结果有影响的解释。此外，溯因方法也可以用于解释，比如在问答领域中，通过推理链的方式或对话的方式，可以推断出为什么会得到某个答案，把中间的推理过程展示出来可以提高解释性。在实际应用中，机器学习可解释性能够帮助我们更好地理解模型，提高模型的可靠性和安全性。

03 大型语言模型的鲁棒性和解释性测试结果：依赖于后期训练、面临挑战

崔鹏：接下来有请复旦大学计算机科学技术学院的教授张奇老师，他的研究主要在自然语言处理和信息检索方面。张奇老师曾在许多著名的期刊和会议上发表了很多重要研究，并获得了许多奖项。他一直致力于研究大型模型的鲁棒性。有请张奇老师，针对最近推出的ChatGPT方面，分享“GPT系列发展与鲁棒性的研究”。

张奇：大家好，我们目前关注“ChatGPT 模型及其鲁棒性”，并对其进行了一些分析性的工作，研究方向包括 ChatGPT 的发展历程，以及该模型上进行的分析工作以及一些新的应用场景。

ChatGPT 的发展历程经历了几个版本，最终发展到 GPT-3.5版本。GPT在后期版本中加入了一些新的功能，如指令（instruction）、PPO 、聊天功能等。对此我们今天一起来看看ChatGPT 在不同应用场景下的表现，了解其任务的实现方式及其效果。

关于ChatGPT 在这些任务上的表现。我们曾在三月份发表了一篇论文，研究了九个 NLP 任务和 21 个数据集，其中包含了超过十万个数据点，测试了此前GPT的DAVINCI 和TEXT-DAVINCI 003版本。对此我和大家分享几点观察：

通过结果分析来看，我们看到 ChatGPT在许多任务完成效果达到或者接近SOTA（全称为“state-of-the-art”，用于描述机器学习中取得某个任务上当前最优效果的模型）或者单一任务采用BERT （是用于自然语言处理的预训练技术，由Google提出）微调的结果。

总的来说，GPT在许多任务性能测试中表现出色。尤其是在句子级任务中非常有竞争力，甚至在情感倾向分析任务中超越了SOTA结果。不过，在词语级任务中，例如句法分析和命名实体识别方面，GPT的准确率仍有较大差距。GPT能力与世界知识，以及推理能力密切相关，这些能力会使得GPT在理解难度较高的阅读理解任务中有出色的表现。此外，如果通过加入“incontext learning”的方法，可以提高指令解析能力。这表明良好的预训练模型可以让模型具备基本的任务理解能力。我们还需要进行更多实验来验证任务之间的关联关系和泛化能力。

另外，我们对GPT-3.0的不同版本进行了多个任务和语料集的评估，发现不同版本在不同任务上表现不同。例如在阅读理解任务上版本1.0表现良好，但在命名实体识别和词性标注任务上表现欠佳，而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版本的表现逐渐提升。对于GPT-3的能力究竟来自哪里，还需要进一步探究。

此外，为了测试大型语言模型的鲁棒性，我们进行了一些实验，加入人为扰动。在TEXT-DAVINCI-003版本中，模型的鲁棒性问题与之前的深度学习模型类似。尽管仍然存在模型学习表面模式的问题，但大型语言模型的性能提升，其实更多依赖于后期的训练而不是前期的语言模型。

综上所述，GPT的大部分的现象依然可以使用统计机器学习理论进行初步解释。但在深度学习模型的解释方法方面，大模型仍面临着许多挑战，模型解释性对于发展AGI是至关重要的, 可解释性的背后理论是我们关注如何通过解释模型达到人类对模型的信任，从而为我们创造更加安全可靠的应用。

04 大模型的成功，离不开可解释性、泛化性和可信度的支持

崔鹏：GPT是一个十分惊人的产品系统，性能非常出色。我们以ChatGPT发布为分界线，目前AI模型的可解释性是否有所改善？总体性能和可解释性是否都有所提高？

张伟男:目前的大模型用对话形式来激发语言模型的能力，提供了一种通过对话探究可解释性问题的方式。我们可以通过模型的回复来达到模型预测结果的可解释性的目的。举个例子，美剧《西部世界》中开发者与机器人的对话方式当时让我很惊奇，可以通过自然语言来调试机器人，得到机器人的回复和看到系统相应参数的对应情况。通过这个过程，我们可以判断机器人是否在说谎或有自我意识，通过对话的方式进行复盘或解释和分析。

李磊：现在的ChatGPT中，GPT-3、GPT-4模型在可解释性方面没有明显的区别。通过使用不同的prompt进行训练模型，生成更多的结果。比如在分类任务中，模型可以输出更多的内容。通过这些额外的输出，我们可以更好地理解模型是如何做出判断的，支撑它做对的理由或指出它的错误之处。当然，可能存在一些自相矛盾的情况，即模型说的理由和输出之间不一致，这也是我们需要重点关注和解决的问题。

崔鹏：最近我也在尝试使用GPT的模型。有时候问这个模型一个问题，它会先给出一个错误的答案。但通过逐步询问它的决策过程，它可能会剖析出正确的答案。当再问它之前的错误答案时，它会告诉你，那只是一种输入错误(typo)。重要的问题是，模型自身输出的推理步骤是否可以被认为是一种可解释性。因此，我们需要更好地定义和理解这些大型模型的可解释性。

我们现在要求模型的可解释性，是指对人的可解释。所以我们要先了解人类的智能是否可解释呢？人类本身有一套决策系统，比如看到一个杯子快要倒，我们就会直觉地知道（它会倒）。但如果你问为什么，我们需要用很多物理学知识来解释。但即使没有学过物理学，人们也能知道杯子会倒。所以我们需要了解的是这个预判和推断的过程，要求模型的解释过程和决策过程一致。

张奇：我同意你的观点。就机器学习模型而言，如果解释和决策不一致，可能会违反其重要的终止性原则。因此，在医疗、法律等领域，模型的解释性对人仍然很重要。即使模型的准确率高达96.9％，人们在关键时刻仍需要关注其解释情况。但在深度学习模型下，要达到这个目标是非常困难的。

张伟男：我们可能没有意识到，在做出决策的过程和我们对于这些决策的解释可能并不一致。这可能是由于人类解释的机制并不完全遵从决策的过程，因此很难准确地判断清楚。然而，我认为至少解释这个过程应该有一个明确的目标和对象，只要能够让特定的对象相信和理解我们能够达到这个目标，这应该就可以了。

崔鹏：在讨论可解释性时，我们应该从哪个角度出发，才能让可解释性更有意义呢？这是一个很好的问题。可解释性的主要目的是让人类用户能够理解和信任AI系统。具体来说，当一个AI系统做出决策或提供建议时，人类用户需要能够理解这个决策或建议是如何产生的，并且有理由相信这个决策或建议是正确的。

在这个意义下，可解释性的讨论应该从两个方向切入。首先，我们需要了解AI系统在做出决策时的内部机制。其次，我们需要将这些内部机制以可理解的方式呈现给人类用户。只有这样，人类用户才能真正理解AI系统是如何产生决策的，并且信任这些决策。

张奇：是的，从开发者的角度去解释模型可能更方便，因为开发者可以更深入地理解模型内部的运作机制。同时，开发者也可以通过交互式的方式来解释模型，例如将模型的决策过程可视化，或者提供一些用户友好的解释工具，使得监管者和使用者更容易理解模型的运作方式和结果。这也有助于促进模型的可解释性研究，因为开发者可以根据用户的反馈来改进解释工具，提高模型的可解释性。

李磊：可解释性、泛化性和可信度，这三个概念虽然有联系，但也有区别。可解释性可以提高模型的泛化性，但并非总是相关的。举个例子，在物理学中，如果有准确的定律，我们可以预测行星的运动。但如果没有这些定律，我们可能无法预测其他星系的运动，这时可解释性就能提供帮助。另外可信度方面，即使模型的准确率很高，也不一定能够使我们完全相信它。相反，即使准确率不高，我们也可能相信它。例如在机器翻译中，我们知道翻译质量可能存在一些错误，但我们可以确定大约有多少错误，从而评估其可信度。尽管准确率很重要，但我们还需要考虑其他因素来确定模型的可信度。

*本文为机器之心和腾讯科技联合发布的独家内容，未经授权，请勿转载。

编辑：李海丹赵杨博

关键词：

世界热讯:如何打开AI的“黑盒子”？这里有一份“AI可解释性”攻略指南

商业观察

今日热点

世界热讯:如何打开AI的“黑盒子”？这里有一份“AI可解释性”攻略指南

延伸阅读：

商业观察

今日热点