设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
资源
节点
飞墙
Follow
明白贴
报酬
工算小助手
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
奇思妙想
›
我有这个需求,请教老师们如何实现较好
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
L 站被爆出有盲水印
›
看了《为什么国漫进步这么明显,有人却还是
›
是我的问题还是女朋友的问题
›
见证黄金和白银历史了,涨得时候创造记录,
›
我们是不是处于第四次工业(科技)革命中。
今日热议主题
开源 macOS DMG 构建工具
M3 Max (16+40)/64G/2T 跟 M5 (10+10)/32G/
征信花了到底有多大影响
[分享创造] 一个让脚本直接跑在 GitHub Run
Kling 3.0 - 免费 AI 视频生成器,支持文字
Google one 家庭组的疑问
Google Ai Pro 掉了,有没有办法批量删除或
老铁们 你们的安卓手机都安装了哪些必备 Ap
关于高铁抢票
youtube 的“不感兴趣”点多了以后,首页推
显示全部
|
最新评论
13 条回复
·
1503 次点击
11#
javalaw2010
小成
2026-1-16 12:13:23
需求太复杂, 只能自己做,房间只放简单的录音设备,录音文件放云端对象存储,再买台服务器定时 ASR 并根据声纹提取讲话人,然后对接火山引擎大模型,配合 RAG ,自己做硬件或魔改个音响。
12#
Peiiii
初学
2026-1-16 12:39:13
你东西付费的话能接受每个月多少钱
13#
seven777
楼主
初学
2026-1-16 13:03:41
@Peiiii 我随便说下啊,每年千元内,能接受
14#
adgfr32
初学
2026-1-16 13:30:54
语音输入,拿到语音的文件或者流->分离说话人->说话人身份判断->语音转文字(这一步可能会丢失一些信息比如:情绪,或者豆包支持语音多模态么,没调研过)->预处理做成 prompt ,送进豆包->拿结果->转语音输出 语音 asr ,tts 这一套已经很成熟了,也可以用云服务,感觉做个 demo 不麻烦,主要是细节的打磨。
1
2
/ 2 页
浏览过的版块
分享发现
职场话题
酷工作
Linux
返回顶部