33 条回复  ·  3516 次点击
LaurelHarmon 小成 2025-11-24 12:39:05
“原理从 Bert 甚至从 lstm..没变过”这样说不对,bert 是判别模型,gpt 是生成模型,压根不是一个路子。BERT 属于走了岔路,跟当前的生成模型进步没啥关联。 真正一步一个脚印的基石是 AlexNet(2012 ,横空出世,证明了神经网络有用) word2vec ( 2013 ,文字到向量,文字也能打上神经网络便车) Attention 机制用于机器翻译( 2014,发明 Attention 机制,简单有效,天才的创新) Attention 用于文本蕴含( 2016 ,加入全盘 Attention ,Transformer 的灵感源泉与雏形) ResNet ( 2016 ,残差链接,支持深度网络)<---中国人在 LLM 发展浪潮中为数不多的原创性贡献---> Attention is All you need (2016 ,抛弃 LSTM ,彻底采用纯 Attention(Transformer),划时代工作) GPT-1 ( 2018 使用 Transformer 做生成,小有成就) GPT-2.5, GPT3.5, ChatGPT(接下来这些就是 Scaling law 了,这才是量变引起质变) 所以不仅仅量变引起质变,还是一步一个台阶走上来的 其中走了很多网路(例如 BERT , 抛弃了很多旧时代的东西例如 LSTM ,CNN )
thinszx 初学 2025-11-24 12:39:15
@YanSeven 我自己的理解是,从统计学的角度出发,深度学习模型拟合的是数据集的高维分布,我们可以假设不管模型大小,深度学习模型的权重都由很多个不同分布的低维高斯分布构成,同样地,我认为人类对于世界的拟合也可以看作很多个高斯分布的复杂组合,即不管是语言、图像还是什么模态,都可以看做是人类对世界的 embedding ,大模型之所以能涌现,是因为输入的人类对世界的 embedding 足够多,因此帮助了大模型将自己的输入输出空间对齐到了人类对世界的拟合维度,你可以认为是因为大模型真的认识到了世界,所以才会出现涌现的现象,当然语言只是对世界的片面描述,这也是为什么李飞飞等人转向了世界模型,用机器人在真实世界的强化学习过程来帮助大模型真的认识世界
thinszx 初学 2025-11-24 12:42:33
@LaurelHarmon 我指的是最基本的先验后验的学习过程,理解和生成一个是学习分布一个主要是从学习后分布采样那肯定是不一样的,但我觉得不管是自监督强化学习最本质的贝叶斯出发的想法是不变的
forisra 初学 2025-11-24 12:47:33
虽然现在的大模型因为上下文问题和原始论文《 attention is all you need 》的那个模型已经天差地别,但在理解大模型上看关于这个论文解析也差不多了。 原始论文就没必要看了,这个论文表达不怎么样,可能是当时的谷歌工程师一直做 NLP 很多表达没有照顾其他领域的人。画的图也比较抽象。我觉得看李沐的论文解析,或者看看 3Blue1Brown 的视频理解都行: https://www.youtube.com/watch?v=wjZofJX0v4M
sillydaddy 初学 2025-11-24 12:52:04
@TabGre #18 我发的完整链接是 3blue1brown 的一个播放列表(关于机器学习的),不止包含上面那个视频,可惜链接被自动截断了,可以在 3blue1brown 频道的播放列表里面找到这个列表,包含了 7 ,8 个神经网络的视频,非常通俗易懂。
Rickkkkkkk 初学 2025-11-24 12:55:13
高维下空间稀疏,不会过拟合
zhanying 初学 2025-11-24 13:12:14
还有一个很神奇的思维实验,和 llm 原理勉强能靠上边,粘贴过来给大家看看: “中国脑是心灵哲学中的一个思想实验,探讨了如果每个中国人被要求使用电话或对讲机模拟大脑中一个神经元的动作,会发生什么情况。对讲机模拟连接神经元的轴突和树突。这会使中国人整体像大脑一样具有思想或意识吗?”
visper 小成 2025-11-24 13:50:10
是啊,太神奇了。感觉就这么一个预测下一个 token, 在参数量上来后,竟然直接给涌现出这样的能力,遵循指令,写代码等。难以想象。
815377546 初学 2025-11-24 13:52:19
@sillydaddy #14 感谢分享
monway 初学 2025-11-24 14:03:08
@IndexOutOfBounds 好东西
返回顶部