抢抓ChatGPT带动的新一轮人工智能发展机遇

当前位置：首页 > 创新研究 > 技术预见 > 上海研究成果 > 正文

发布日期：2023-06-06 来源：上海市科学学研究所

　　ChatGPT是OpenAI 公司研发的对话AI模型，在准确度、细节叙述和上下文连贯性等方面具有极为突出的表现，自2022年底推出以来，迅速成为AIGC（AI Generated Content，人工智能生成内容）的一个全球爆款应用。上海作为改革开放的排头兵、创新发展的先行者，承担建设具有全球影响力的科技创新中心的重要使命，必须牢牢把握此次ChatGPT所引领的AIGC发展机遇，加快人工智能赋能社会经济发展。

　　一、ChatGPT是人工智能生成内容技术在语义理解和人机对话上的一个突破

　　ChatGPT是OpenAI公司基于其GPT-3.5（Generative Pre-trained Transformer 3.5）模型研发的。OpenAI是由埃隆•马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、PayPal联合创始人彼得•蒂尔等人于2015年在美国旧金山创立的一家非盈利AI研究公司，以GPT系列自然语言处理模型而闻名。

　　ChatGPT是人工智能领域各项前沿技术的集大成者。ChatGPT应用了自然语言处理（NLP）、自然语言理解（NLU）、机器学习（ML）、深度学习（DL）等诸多底层技术。在NLP方面，ChatGPT可以理解单词的含义、如何造句，能结合上下文返回有意义的回答，且具备使用俚语和专业词汇的能力。在ML方面，ChatGPT利用已输入语句条件，预测不同语句出现的概率分布。训练模型是ChatGPT深度学习的重要方式，ChatGPT通过评估式强化人工训练代理（Training an Agent Manually via Evaluative Reinforcement）框架加快训练速度。

　　不断迭代的GPT模型为ChatGPT的问世奠定了基础。从2018年到2022年，GPT经历了GPT-1、GPT-2、GPT-3到GPT-3.5的持续迭代完善，每一代GPT模型的参数量都呈爆炸式增长。 2019年2月发布的GPT-2参数量为15亿、预训练数据量40GB，而2020年5月的GPT-3，参数量达到了1750亿、预训练数据量达45TB。ChatGPT不仅优化调整了各项底层技术，而且通过人类反馈数据系统进行模型训练，提高了自然语言理解和作品生成方面的性能，使其在情感分析、信息获取、阅读理解等文本场景中拥有突出表现，适用于多类下游任务。此外，ChatGPT具备更丰富的语料库、更强的计算能力和更高的适应性。

　　ChatGPT有着极为广阔的市场前景，将催生一批新模式、新业态。ChatGPT凭借其更加自然、智能化的对话体验以及良好的用户体验等优点，可用于聊天机器人、问答系统、机器翻译、文本分类、情感分析等多种NLP任务，还可以用于智能客服、智能对话系统、智能搜索引擎、智能家居等领域，提高服务客户水平，提升客户体验，增强产品的市场竞争力。随着ChatGPT相关技术性能的不断优化提升，将赋能更多行业、拓宽市场。美国新媒体巨头Buzzfeed宣布计划采用ChatGPT协助内容创作，其股价一夜间暴涨近120%，两天内飙升逾300%；基于GPT-3技术的文案自动生成平台Jasper在成立18个月后就达到15亿美元的高估值。

　　二、ChatGPT及其国内外竞品发展提速

　　科技巨头积极助推ChatGPT进一步发展。尽管微软宣布裁员计划，但其仍加大了在AI领域的投入。2023年1月23日，微软宣布对OpenAI进行第三轮投资，加速其在人工智能领域的技术突破。微软计划将ChatGPT整合进Bing搜索引擎、Office全家桶、Azure云服务、Teams程序等产品中。而另一家巨头亚马逊公司已经将ChatGPT用于各种不同的工作职能中，包括回答面试问题、编写软件代码和创建培训文档等。Copy.ai、Jasper、Copysmith将GPT-3引入广告撰写领域，为商家和个人创作者提供宣传产品和服务的能力。

　　国外企业竞争产品加速发展。为应对ChatGPT的威胁，谷歌公司于2023年2月4日注资3亿美元投资ChatGPT竞品企业Anthropic。Anthropic开发了一款名为Claude的智能聊天机器人。Stability AI研发的开源模型Stable Diffusion可以根据文字，生成分辨率、清晰度高、不失真实性和艺术性的图片。此外，Midjourney也开发了通过文字生成图片的ChatGPT竞品Midjourney。

　　国内科技企业研发正迎头赶上。2023年1月10日，百度宣布将升级百度搜索的“生成式搜索”能力，智能解答用户的搜索提问；2023年2月7日，百度宣布将在3月份完成其ChatGPT产品—文心一言的内测。2023年2月3日，腾讯公布一项能够实现机器与用户之间自然且顺畅沟通的人机对话专利。

　　三、ChatGPT存在两大局限性

　　凭借良好的人机对话能力，ChatGPT实现了人工智能从生硬到自然的转变，但ChatGPT依然有其局限性。

　　尽管能够生成大量的信息，但ChatGPT可靠性存疑。首先，ChatGPT回答的准确性受到训练数据的影响。训练数据的丰富程度、完整性、语言、文化、经济等特征会均会影响ChatGPT回答的准确性。ChatGPT只能提供接受过训练的信息，无法回答训练数据之外的其他问题。此外，由于欠缺对新知识的训练，ChatGPT可能无法高效且准确的输出结果。其次，一般用户可能不具备一定的专业知识，使得其难以甄别ChatGPT是否在“一本正经地胡说八道”。最后，不法分子可能通过恶意“训练”，提供虚假内容、诈骗信息、钓鱼网站等，损害公民人身财产安全。

　　ChatGPT不仅存在数据泄露隐患，还可能带来知识产权问题。由于无法核查信息、数据来源，ChatGPT存在个人数据与商业秘密泄露的隐患。ChatGPT可能将大量的用户个人数据、商业秘密等其纳入自身语料库而产生泄露风险。因此，为防备员工泄密，微软和亚马逊禁止公司员工向ChatGPT分享敏感数据。在未获得第三方知识产权授权的情况下，ChatGPT通过互联网抓取信息时可能会触犯法律。目前，在国内外大部分国家的知识产权法律条款中，仅有自然人可以享有著作权。由于ChatGPT输出内容是建立在大量数据基础之上，其输出内容可能侵犯其他作品的知识产权。

　　四、上海需加强人工智能底层技术自主可控和应用推广

　　人工智能是上海三大先导产业之一，《上海市人工智能产业发展“十四五”规划》中指出，到2025年，上海人工智能规上产业规模年均增长12%以上，达到4000亿元；培育500家智能化示范企业。ChatGPT再次激起了人工智能发展的热潮，上海亟需把握机遇，加快推进人工智能技术发展和赋能经济。

　　一是加强ChatGPT底层技术的自主研发与可控。大力度布局研究机器情感认知理论，情感可检测、可计算和可表达的学习理论；研究理解海量多模态数据并自主构建多模态知识库；研究机器价值认知理论，探索具备美丑、是非、对错、善恶辨别能力的机器认知机制与方法，实现机器的价值判断、价值度量、价值引导、价值矫正等。加强自主与通用学习研究，研究基于因果学习的环境感知模型、基于因果推断与逆向因果的数据生成技术、跨媒体多模态知识表达与关联算法等。持续支持高效能学习、协同学习、具身智能、交互智能、可解释学习、跨媒体生成技术、可持续分布式学习等前沿热点方向的研究。

　　二是加快AIGC领域技术产品的推广应用。制定引导、优惠、转化政策措施，营造良好的政策环境。以商汤科技、依图科技等企业为主体，加快AIGC领域图形图像和视频人工智能理解与生成的规模化应用。推动明略科技、合合信息科技等企业在营销智能和商业大数据等方面积极打造AIGC示范应用。支持面向云端训练和终端执行的开发框架、基础算子库、算法库等研发，构建大规模人工智能数据、算法、知识等资源库。构建国产AIGC框架和算法的开源平台，完善国产开源生态的发展和人才培养，鼓励企业开放软件源代码、硬件设计和应用服务。

　　三是推动ChatGPT类技术产品与智能终端产业的融合发展。促进ChatGPT底层技术及类似产品与智能网联汽车、智能机器人、虚拟现实交互终端、智能家居终端、智能穿戴终端等融合发展，打造上海消费终端爆款产品。在浦东、嘉定、松江、奉贤、临港等重点区域智能终端特色园区或精品微园中培育AIGC细分领域产业集群。

　　四是加快建设风险分担机制。加快上海人工智能领域发展的风险分担机制建设，合理化科学家、科研机构、企业、政府在人工智能领域研发的风险分担比例和收益获取比例。建立容错机制，鼓励科研人员探索、挑战未知，并保障容错机制有效运行。建立上海人工智能领域的中长期的投资机制，为人工智能的发展提供长期资金保障。

　　五是加快人工智能产业赋能转化平台建设。鼓励高校、企业、金融机构等建立合作联盟，构建一个持续完善的人工智能产业赋能转化平台，强化创新链、产业链上各主体间的联系，支持高校、科研机构、企业等创新主体借助平台开展联合研究攻关。建立完善的管理制度，加强平台的管理、确保平台有效运行。

　　六是探索人工智能知识产权标准制定。积极推动AIGC等人工智能领域的知识产权认定标准制定、完善和实施，促进人工智能领域知识产权的有效保护。积极推动人工智能领域知识产权的保护、等机制，加强人工智能领域知识产权的监督和规范化服务。积极推动参与制定国家或国际标准，以标准带动人工智能赋能应用，加快人工智能技术海外应用发展步伐。

　　作者：余全明、庄珺。作者单位：上海市科学学研究所。

【纠错】【推荐】【打印】【关闭】