|
“原理从 Bert 甚至从 lstm..没变过”这样说不对,bert 是判别模型,gpt 是生成模型,压根不是一个路子。BERT 属于走了岔路,跟当前的生成模型进步没啥关联。
真正一步一个脚印的基石是
AlexNet(2012 ,横空出世,证明了神经网络有用)
word2vec ( 2013 ,文字到向量,文字也能打上神经网络便车)
Attention 机制用于机器翻译( 2014,发明 Attention 机制,简单有效,天才的创新)
Attention 用于文本蕴含( 2016 ,加入全盘 Attention ,Transformer 的灵感源泉与雏形)
ResNet ( 2016 ,残差链接,支持深度网络)<---中国人在 LLM 发展浪潮中为数不多的原创性贡献--->
Attention is All you need (2016 ,抛弃 LSTM ,彻底采用纯 Attention(Transformer),划时代工作)
GPT-1 ( 2018 使用 Transformer 做生成,小有成就)
GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了,这才是量变引起质变)
所以不仅仅量变引起质变,还是一步一个台阶走上来的
其中走了很多网路(例如 BERT , 抛弃了很多旧时代的东西例如 LSTM ,CNN ) |