ChatGPT所能实现的人类意图,来自于机器学习、神经网络以及Transformer模型的多种技术模型积累
经过长久积累,最终形成针对人类反馈信息学习的大规模预训练语言模型LLM。
本文,简单说说它发展至今的基础,也及它从哪里而来,要到哪里而去。
- Transformer出现,奠定了预训练大语言模型的基础。
2017年,论文《Attention Is All You Need》 中,通过注意力机制(attention mechanism)连接encoder编码器和decoder解码器,是一种全新的架构。
Transformer,基于注意力, 完全不用重复和卷积,相较于RNN、CNN等经典模型是个极大的突破。模型更易于并行化训练、并改善网络深层的遗忘问题,特征抽取能力更强。
所以,Transformer出现以后,迅速取代了CNN、RNN系列变种,跻身最主流的模型架构基础。
在这之前,通过CNN、RNN等模型,对特征的抽取能力不强。更深的网络、更多的遗忘。标注数据本就不易,模型却往往不能学到数据中的足够知识。特征提取器,是让模型从输入数据中学到、并真正沉淀下来、用来完成目标任务的。
Transformer,做到了前无古人,后无来者。直到现在,不曾出现更强大的特征提取器取代它。
- 进一步发展出GPT、Bert系列,进入两阶段预训练模型的时代
以Transfomer为基础,GPT、Bert等预训练的大模型,进一步突破传统限制,模型开始不需要那么多高质量的标注数据,并且在下游任务上只需少量标注数据。微调后即可用,且效果更好。
以Transformer架构为基础的特征提取器,继续发展而越来越强大的模型,主要分为3大系列。
一是利用tranformer的decoder发展而来的GPT系列,在自然语言生成方面,表现更好。
紧接着继续放大和微创新,得到的GPT-2、GPT-3、GPT3.5等等。
二是双向Transformer+Mask的自编码系列,BERT系列, 偏好自然语言理解。比如Bert、Roberta、Albert等等。
三是Encoder-decoder架构的T5,使用双向/单向attention,偏好条件文本生成。(Google的T5模型,在形式上统一了自然语言理解和自然语言生成任务的外在表现形式)
- 以GPT 3为代表的“自回归语言模型+Prompting”模式的时代
我们希望语言模型们,能够用人类常用的命令方式来执行任务,也就是实现通用人工智能AGI(,artficial general intelligence)。
但是现在技术还做不到,退而求其次,用替代技术来表达人类的任务需求,也就是现在的prompting技术。
从zero shot prompting(零示例提示语)、few shot prompting(少数示例提示语)、以及有一定推理能力的 Chain of Though (思维链)Prompting,都是给模型一定的prompting示例,它就能表现的更好。
- 开始走向通用人工智能AGI时代(AGI,artficial general intelligence)
我们习惯的表达方式,就是机器能够理解的。而现在的ChatGPT,就是个很好的开始,开始有点儿善解人意。
ChatGPT是结合了InstrutGPT来理解人类偏好知识,同时结合GPT3.5对世界知识的沉淀,达到了现在的能力。
GPT3.5的训练数据,涵盖编程,社交媒体,搜索结果,新闻,生物医学,体育,政治以及旅游等等几乎所有的内容领域。比如:英文维基百科,新闻文章,论坛言论,数据库,推特推文,聊天文本,Reddit帖子,开源代码,博客文章等等。真的是,知一切历史。
InstructGPT,主要通过RLHF (Reinforcement Learning From Human FeedBack)来学习,也就是通过人类反馈的强化学习,来理解人类偏好。它只有几万人工标注数据,是人类的偏好表述。例如“帮我把这段话翻译成英文”,表示的是要做“机器翻译”的需求。
ChatGPT是生成式人工智能技术(AIGC)浪潮的一部分,也是迈向AGI时代的开始。
未来,以ChatGPT为代表的AIGC将会带来生产力的巨大提升,AIGC将促进各行业转型升级。
5. 最后
历史:人工智能技术,从1950年的基于规则的处理,到经典的机器学习、深度学习,和现在的大型预训练模型阶段LLM,从人类的反馈中学习,预示着通用人工智能时代(AGI)已经来临。
现在,以ChatGPT为代表的人工智能生成内容AIGC,蓬勃发展,值得期待。
本网站文章皆为作者授权。发布者:虹七,转载请注明出处:https://ruofanseo.com/chatgpt-research-framework-2023/