14 条回复  ·  1596 次点击
Lyet813 小成 2026-1-13 12:46:45
中文语料污染严重
shakaraka 初学 2026-1-13 12:47:38
是的。今天碰到了
codehz 初学 2026-1-13 12:50:50
就是意外出现一个训练较少的 token ,它的 embedding 方差很大,直接影响了 LayerNorm 层的计算,导致后续 token 归一化后数值集体偏向同一个方向,attention score 分布严重退化(趋向于 uniform 或 single token attention )梯度也跟着爆炸/消失
WinnieKing 小成 2026-1-13 13:08:32
上次我用 Gemini 的时候它直接引用黄网内容来分析,最后写起了小说,越写越黄....
craftsmanship 初学 2026-1-13 13:10:03
这是好事 加速到领导开会放 ppt 时乱入黄色内容后禁用 AI
12
返回顶部