让机器读懂人类语言需要经过哪些历程?从模型建立到模型训练再到最终推出面向用户端的产品,每一步都经历了大规模实验。近期全网爆火的ChatGPT引发我们对于人工智能的关注,有人认为ChatGPT是数字时代的“珍妮纺纱机“,而AI可能会像工业革命和信息革命一样,引领人类走向下一个时代。
那么我们究竟是如何在智能化道路上越走越远,迈向大规模语言模型呢?本期财联社连线分享复旦大学计算机学院教授、博士生导师黄萱菁的观点,讲述语言模型发展的来龙去脉、大规模语言模型的应用将会给人类发展带来的改变,以下:
本文整理自复旦大学计算机学院教授、博士生导师黄萱菁教授在复旦管院主办的“我们︱WOMEN”2023复旦科创先锋论坛——迈向大规模语言模型主题演讲
编辑 | 李梦琪 蔺文颖
策划 | 郭楠
从理解模型到产生式模型,预训练语言的飞跃发展
近期ChatGPT的广泛传播使得大规模语言模型这一概念深入人心,不过究竟什么是大规模语言模型?我们首先要从语言模型入手,语言模型即语言的规律。无论汉语还是英语等语言,都需要从语法学起。
(资料图)
然而,现实中的语言并不会严格按照语法表达,光有语法人们依然难以捕捉客观世界纷繁复杂的语言现象,所以需要使用数学“武器”——概率在各种语言现象中间去寻找规律,这个概率模型被称为语言模型。由于句子在诸多情景下可能包含巨大的词汇量,导致传统概率语言模型所需的计算资源爆炸式增长。
2017年Transformer模型开始出现,这个模型是现有预训练模型的基石,也是大规模语言模型的基石。传统的预训练模型有两种思路,一种是以BERT为例的理解模型,另一种是以ChatGPT的前身GPT为代表的产生式模型。尽管部分从业者尝试将理解模型与产生式模型结合起来,但过去很长一段时间里,理解模型被使用得比较多。而产生式模型则需要更高的算力和更长的词符窗口,直到GPT-3出现之后,人们才意识到其如此强悍,而ChatGPT更是拥有了人类语言的能力。
我们生活在一个飞速变化的时代,几乎每周都有新的模型发布,而预训练+微调的方式是前ChatGPT时代的范式,诸如Google、Open AI这样的大厂将自身开发的大模型开源,供下游应用者在这些模型上进行参数的微调,以取得优异的表现。例如电影的正负面影评需要进行分类,仅用原来的GPT和BERT不能达到效果,需要人工标注一批任务相关的数据,对模型进行微调。这种预训练+微调的范式是过去三年内自然语言处理的主要范式。
在少样本场景下,一两条数据就能让大规模语言模型表现出相当不错的性能。然而,随着语言模型变大,一方面厂商会出于商业原因逐渐舍弃开源,比如OPenAI没有开放过GPT-3模型,只开放API接口,外部人员可以调用却拿不到内部细节;另一方面用户也缺乏足够的计算资源使用大模型。
基于此情况,利用大规模语言模型的涌现能力的新范式出现。涌现能力是当模型的参数规模未到达某个阙值时,其能力有限,当达到某一阙值,这个模型就会非常强大,目前这一参数规模的临界值被认为可能是650亿。早期GPT-3缺乏对用户需求的理解力,但目前的ChatGPT和我们实验室开发的MOSS,都拥有较强的理解用户需求的能力。
范式转变,一个模型打天下
自然语言处理共有七种范式:分类、匹配、序列标注、机器阅读理解、Seq2Seq、Seq2ASeq(序列到动作序列)及掩码语言模型范式。下图说明了这几年自然语言处理的范式迁移。
过去很多公司专注于一件任务做到极致,就能够占领相应细分领域。但时代不同了,我们可以通过一种模型统一所有的任务,一个模型就可以打天下。
统一模型基座,即可以用一种武器、一个方法统一所有的任务。
BERT针对自然语言理解,GPT是自然语言生成,复旦大学NLP实验室架在2021年提出新的语言模型——GPT,合并理解任务和生成任务。GPT是非对称的Transformer模型结构,该结构由一个Encoder(任务间共用)和两个Decoder(一个面向理解,一个面向生成)组成,同时具备理解和生成能力,在此基础上训练MOSS。
ChatGPT时代,如何使用语言模型方面有以下几个思路:
一是Text prompt(文本提示),即通过人工设计一些基于文本的指令,激活大模型面向特定下游任务的能力。但是手工设计偏向于特征工程问题,需要工程师依据既往经验不断调试,十分耗费精力。
二是In-context learning(情景学习),在GPT模型上展现了良好的表现,这种手段开辟了一个极具前景的方向,值得学界和工业界继续共同研究。
三是Data generation(数据生成),不同于直接使用大模型,这种手段是使用大模型生成一定量的数据,再利用生成的数据训练一个小体量的模型,以追求在小样本场景下的应用效果。
四是Feature-based-learning(特征学习),把预训练模型的输出作为一种 Feature,并结合标签,输入给一些特定的模型,使参数由标签空间向特征空间靠拢,极大地减轻了端侧优化的负担。
Black-box optimization(黑箱优化),让用户根据推理API的返回结果,使用基于搜索的无梯度优化方法自己优化指令。让ChatGPT等大模型返回更符合个性化需求的结果,需要用户调整指示,在指令上加一段向量修改,经过修改可以得到自适应的调整,获得更优的返回结果。
我们从来没有觉得与通用人工智能如此接近
ChatGPT的强大性能都是在现有的机器学习框架下可以解释的,今年国内外,除了OpenAI,会有很多机构(包括企业和大学),会在ChatGPT模型方面有大的突破。
ChatGPT曾经参加谷歌的招聘面试,拿到L3级入门工程师的offer。除了写代码之外,还测试让ChatGPT做中国的高考题,在客观题上进行了测试,其水平基本相当于500分左右的高考生。测试发现,ChatGPT更擅长文科,在历史、地理、政治上取得了不错的成绩,而生物、化学、物理等理科学科上表现不佳。
在肉眼可见的未来,善用AI的人将和不用AI的人在工作效率上会产生巨大差距,大家应多去使用和熟悉AI。在未来一段时间内,ChatGPT还不足以完全替代某一岗位,但将大大促进各个领域的生产效率,AI应该是帮助人类的工具,而不是取代人类的机器。
微软CEO萨提亚·纳德拉(Satya Nadella)接受媒体采访时曾表示,内燃机带来了廉价的动力,互联网技术减少了信息传递的成本,而ChatGPT会让信息的整合、转译、流通变得更加廉价。AI可能会像工业革命和信息革命一样,引领我们走向下一个时代。