材料一
作为一款AI语言模型,ChatGPT由美国人工智能实验室OpenAI于2022年11月底发布,并迅速火遍全球。人们长期苦于那些智能语音助手的傻瓜回答,这次ChatGPT却出乎意料的聪明:它可以用来创作故事、撰写新闻、回答客观问题、聊天、写代码和查找代码问题等。外媒评论称,ChatGPT会成为科技行业的下一个“颠覆者”。
ChatGPT是自然语言处理中一项引人瞩目的进展,它阅览了互联网上几乎所有数据,并在超级复杂的模型之下进行深度学习。因为语言是人类智慧、思维方式的核心体现,所以,自然语言处理被称作“AI皇冠上的明珠”。而ChatGPT的出色表现,被认为可能是迈向通用型AI的一种可行路径——作为一种底层模型,它再次验证了深度学习中“规模”的意义。
2023年1月12日,曾担任微软董事长的比尔·盖茨表示,他不认为Web3有那么重要,也不认为元宇宙本身是革命性的,但是人工智能却是颇具颠覆性的。当被问及如何看待ChatGPT时,他说,“这让我能一窥未来。整个平台的方法和创新速度都令我印象深刻。”人类世界有许多重复性的、程式化的语言文字工作,不需要复杂的逻辑思考或决策判断。ChatGPT具有帮助人们更流畅、更快速地处理这些工作的潜力,可能会成为微软应用程序的“杀手锏”。比如,在人们需要请假时,只要打出“写一封请病假的邮件”几个字,0utlook(应用程序,微软电子邮箱)就能把措辞正式的请假申请写好。
(摘编自2023年1月《中国新闻周刊》)
材料二
以ChatGPT为代表的生成式人工智能在创造社会福利的同时,也带来了诸多风险。因此,当务之急是结合我国生成式人工智能发展状况,厘清其应用价值与潜在风险之间的关系,以便在不影响应用发展的前提下有效化解风险。
生成式人工智能的运行机理主要分为三个阶段,也就是机器学习和人工标记的准备阶段、运用算法对数据进行处理以求出处理后结果的运算阶段、数据运算产出成品向社会输出并产生影响的生成阶段。当前,生成式人工智能最突出的风险就是在准备阶段的数据合规风险、运算阶段的算法偏见风险以及生成阶段的知识产权风险。
根据我国现行法律要求,数据处理者在处理过程中需采取必要措施以保障数据安全、网络安全和个人信息安全。生成式人工智能的数据合规风险主要体现在三个方面。首先是数据来源合规风险。以ChatGPT为代表的生成式人工智能,初始阶段往往要采集大量数据以供训练。基于此,可能会面临如下问题:一是收集个人信息用户是否同意;二是收集使用已公开的信息是否在“合理范围”;三是收集的样本受到版权保护,进行训练时可否被认定为“合理使用”。其次是数据使用合规风险。一方面是数据泄露风险。用户会将个人信息、商业信息甚至商业机密等传输给ChatGPT。因此,如何保证这些数据的安全是一个很大的难题。另一方面是用户行使个人信息删除权比较困难。虽然OpenAI的隐私协议中规定了用户对其个人信息享有相关的权利,但是鉴于要求生成式人工智能系统删除数据的复杂特性,开发者能否实现对个人信息的真实删除,还存在较大的不确定性。最后是数据的准确性风险。在ChatGPT训练的早期,被投入到数据中的内容是由开发人员从网络中获得和选择的,有可能出现因为数据的缺失或错误而致使生成内容不准确。
以“人工标注”为辅助的“机器学习”,通过二者的结合,提高了生成式人工智能的智能化与精确性。但是,这也使得算法偏见的概率急剧增加。这种结合方法比传统的机器学习方法更能体现人的主观判断和偏好,这是由于人们将自己的偏好信息加入到机器学习的模型中,从而增加了人们的偏见,并且这种偏见很难被追踪和防范。ChatGPT的算法偏见主要表现为两方面:其一,由于接收到的数据需要人工标注,因此在理解过程中存在着一定的误差。其二,当ChatGPT对数据进行加工得出结论后,由于原始结果与大众期望不一致,需要对之进行修正,但这一过程同样会产生一定程度的算法偏见。
生成式人工智能的兴起,对众多产业提出了新的挑战,而最具冲击之处,在于生成阶段对知识产权领域所构成的挑战。因为生成式人工智能具有高度的智能化,所以在运算过程中,与之前的人工智能系统相比,其知识产权的归属发生了颠覆性的变化。ChatGPT在处理和分析数据方面远远强于分析式人工智能,其内容生成过程主要包括内容自动化编纂、智能化修整加工、多模态转换、创意生成等,直接影响着出版的内容生产模式和内容供应模式。尽管ChatGPT的创造者中包含一些自然人的创作因素,但这种由生成式人工智能所创造的作品能否被赋权,仍然存在争论,并且具体的赋权认定标准研究还处于空白状态。因此,知识产权风险成为生成式人工智能无法规避的第三大风险。
(摘编自马羽男《生成式人工智能的风险与治理——以ChatGPT为例》)