设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
资源
节点
飞墙
Follow
明白贴
报酬
工算小助手
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
奇思妙想
›
我有这个需求,请教老师们如何实现较好
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
L 站被爆出有盲水印
›
看了《为什么国漫进步这么明显,有人却还是
›
是我的问题还是女朋友的问题
›
见证黄金和白银历史了,涨得时候创造记录,
›
我们是不是处于第四次工业(科技)革命中。
今日热议主题
目前最好用的前端 AI 编译工具是哪个呢?
Vibe Coding 了一个 12306 抢票 App
重要/漏洞:飞牛 fnOS 疑似遭公网未授权访
微信 android 版没有 fcm 推送了?
b 站推荐竖屏视频流被明星 vlog 占领
有没有自动监控众多微信群消息的工具?
求一个 SetApp 家庭版车位
写了一个 base64 图片预览的 web 工具(纯
Mac 平台下安装 Linux 的一点小折腾
L 站给我账号封了 xswl
显示全部
|
最新评论
13 条回复
·
1504 次点击
11#
javalaw2010
小成
2026-1-16 12:13:23
需求太复杂, 只能自己做,房间只放简单的录音设备,录音文件放云端对象存储,再买台服务器定时 ASR 并根据声纹提取讲话人,然后对接火山引擎大模型,配合 RAG ,自己做硬件或魔改个音响。
12#
Peiiii
初学
2026-1-16 12:39:13
你东西付费的话能接受每个月多少钱
13#
seven777
楼主
初学
2026-1-16 13:03:41
@Peiiii 我随便说下啊,每年千元内,能接受
14#
adgfr32
初学
2026-1-16 13:30:54
语音输入,拿到语音的文件或者流->分离说话人->说话人身份判断->语音转文字(这一步可能会丢失一些信息比如:情绪,或者豆包支持语音多模态么,没调研过)->预处理做成 prompt ,送进豆包->拿结果->转语音输出 语音 asr ,tts 这一套已经很成熟了,也可以用云服务,感觉做个 demo 不麻烦,主要是细节的打磨。
1
2
/ 2 页
浏览过的版块
投资
职场话题
问与答
iPhone
分享发现
分享创造
Android
Linux
返回顶部