16 条回复  ·  1877 次点击
user8341 初学 2025-2-1 21:40:13
@windyboy 你这是自己的猜测,还是实际参与了,还是有确切的数据? 据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
fun201108 初学 2025-2-1 21:58:14
从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
windyboy 小成 2025-2-1 22:38:55
@user8341 deepseek 不是用别人的模型来训练的吗?
TimePPT 小成 2025-2-1 22:40:31
有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
daweii 小成 2025-2-1 23:01:59
一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。 一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。 话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
cnt2ex 小成 2025-2-1 23:33:26
因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。 弄成小模型小数据集效果反而不会那么好。
yoghurtguy 初学 2025-2-1 23:58:45
翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
12
返回顶部