清华大学朱军：发展将数据和知识有机融合的第三代人工智新范式以提高内在安全性

21世纪经济报道记者郑雪北京报道

(资料图)

7月2日，由北京市人民政府联合工业和信息化部、国家网信办、商务部、中国科协共同主办的全球数字经济大会在北京召开，其中包括人工智能高峰论坛。清华大学计算机系长聘教授、清华大学人工智能研究院副院长朱军对人工智能目前发展态势以及安全态势做出相应介绍。

在他看来，未来需要关注多模态模型的发展，或许将成为未来更强的技术基座形态。在人工智能安全方面，正在探索中的第三代人工智能新的范式，或能将数据和知识有机融合在一起，发展更加安全可靠的人工智能框架。

“过去十年，人工智能最大的变化趋势就是从小模型变成大模型。机器学习常用的模型的规模发生了巨大的变化，呈现指数型增长的趋势。最受关注的典型成果就是ChatGPT大语言模型的横空出世，解决过去机器学习模型从不好用到好用，能够理解意图和上下文等等，做出了超强的能力展示，现在成了人工智能最受关注、使用最广泛的产品。”朱军说道。

在他看来，ChatGPT的发展，可以追溯到1978年技术架构的突破和GPT系列的发展，去年年底Chat版本的发布，从根本上解决了意图理解和可用性、好用性的问题。今年的发展速度会更快。大模型的三个关键技术分为别内容学习、思维链和指令学习，当然还有基于人类反馈的强化学习。

“从应用和理论上都需要我们关注多模态模型的发展，可能这些是未来更强的技术基座形态，” 朱军说道。在他看来，以大脑为参照，人是多模态感知的系统，天然希望能够处理多模态数据。很多复杂工程问题中，也会遇到图像、文本、语音，甚至是触觉等等各种模态的数据。

目前来看，文本的进展是相对最成熟的，其它模态也正快速发展，图像、语音、视频、3D，甚至包括分子结构等等，大家都在尝试训练和拥抱这种大规模预训练模型。“有了多模态基座模型，应用场景是非常丰富的，除了文本以外，包括视频、图像、音频等等生成任务都有可能受益，甚至启发新的应用。”

大模型的迅速发展，如何理解安全问题？

“大模型之前的人工智能时代，我们已经发现人工智能本身具有所谓的内在安全。人工智能算法可能会被对象样本攻击，正常样本加入少量对抗就会误导识别结果。不管是数字世界还是物理世界，很多场景都存在这种情况。”朱军说道。

在他看来，AIGC特别是ChatGPT出现以后，安全问题越来越严重。“大模型本身可能会对Prompt Injection有攻击风险，加入少量编辑就会误导。也存在数据泄露的风险，ChatGPT会把很多隐私数据上传。现在也有用AIGC技术提升诈骗手段，通过虚假内容实现黑产攻击，包括代码生成实现网络攻击。生成的虚假内容本身是不良的，存在误导性和欺骗性。”

除此之外，算法本身是否存在政治偏见和数字鸿沟，数据采集的过程中会不会侵犯知识产权，这些在大模型时代都在变得越来越重要和受关注。

究竟有哪些思路和尝试可以解决这些问题？

一是关注从基础理论研究突破、提高内在安全性能的第三代人工智能。从人工智能基础尝试，针对深度学习、深度神经网络，学术界一直在探索第三代人工智能新范式，希望能够将数据和知识有机融合在一起，发展更加安全可靠的人工智能框架。其优势在于安全、可信、可靠和可拓展。

二是提升安全评测能力。主要关注对抗攻击评测、角色扮演与诱导欺骗评测、混淆指令欺骗评测、标识性能评测、数据安全评测、伦理安全评测方面。

三是构建人工智能安全治理有效工具。如人工智能本身的安全平台，安全评测、防御和整个态势的评估，包括对抗样本这些场景，可以通过平台化的方式对人工智能的算法和服务进行评测。又如特殊专业的应用场景，专门针对对抗样本检测、伪造视频检测等进行防护。

关键词：