设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
资源
节点
飞墙
Follow
明白贴
报酬
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
程序员
›
为什么 LLM 模型不能按语言拆分,英文问题就只用英文语 ...
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
求职半个月,感觉快撑不住了,想听听大家的
›
共事了 7 年的同事今天 last day,还是会有
›
F站怎么有这么多人以 PC 为荣?
›
国内 TOP 大厂快满 3 年了,想裸辞自由几个
›
2025 各位心目中的最佳购买
今日热议主题
google photo 上传流量超高
拼多多 12/3 事件到底发生了什么?
Manus 在国人的唾弃下发展的越来越顺利了..
从已损坏的备份中拯救数据
出 mac mini m4 万兆网口版本
吃饱了撑的突发奇想: TypeScript 类型能不
有字节的老哥吗?反馈一个抖音网页端的问题
奇怪,腾讯云的香港服务器访问不了腾讯云香
山姆亲友卡一张
出吃灰闲置主机
显示全部
|
最新评论
16 条回复
·
1877 次点击
11#
user8341
初学
2025-2-1 21:40:13
@windyboy 你这是自己的猜测,还是实际参与了,还是有确切的数据? 据我所知 24 年 5 月发布的 DeepSeek-V2 的训练数据中文比英文还多 12%
12#
fun201108
初学
2025-2-1 21:58:14
从使用角度来看,与语言无关,加“翻译”两个字就能相同问题,英文问英文答,英文问中文答,中文问中文答,中文问英文答
13#
windyboy
小成
2025-2-1 22:38:55
@user8341 deepseek 不是用别人的模型来训练的吗?
14#
TimePPT
小成
2025-2-1 22:40:31
有研究表明,预训练时使用多语言语料是有助于智能提升,且多语言在底层是 Align 的。
15#
daweii
小成
2025-2-1 23:01:59
一个特别有意思的事情是人类不同的语言的结构都是特别相似的,特别是名词。毕竟我们都生活在同一个地球上,看着同一个太阳。 一个更有意思的应用就是之前的无对齐语料翻译。方法就是比如说用中文的语料训练一个模型,然后用英语训练一个模型,然后用其中的阿拉伯数字 1 ,2 ,3……9 建立两个语言模型的联系。 话说回来,现在基本上都是英语数据为主,其他数据都只是个添头。但是一个添头得数据就能多让模型处理一个语言,所以说对训练来说往往是利大于弊。
16#
cnt2ex
小成
2025-2-1 23:33:26
因为 LLM 的意思是 LARGE language model ,不仅仅是 language model 。突出的就是要大模型,大数据集。 弄成小模型小数据集效果反而不会那么好。
17#
yoghurtguy
初学
2025-2-1 23:58:45
翻译只占参数量的一小部分,只需要告诉他苹果是 Apple ,不需要再用中文告诉他苹果是圆圆的,通常红色的,上面有个把的水果
1
2
/ 2 页
浏览过的版块
分享发现
职场话题
返回顶部