13 条回复  ·  1503 次点击
javalaw2010 小成 2026-1-16 12:13:23
需求太复杂, 只能自己做,房间只放简单的录音设备,录音文件放云端对象存储,再买台服务器定时 ASR 并根据声纹提取讲话人,然后对接火山引擎大模型,配合 RAG ,自己做硬件或魔改个音响。
Peiiii 初学 2026-1-16 12:39:13
你东西付费的话能接受每个月多少钱
seven777 楼主 初学 2026-1-16 13:03:41
@Peiiii 我随便说下啊,每年千元内,能接受
adgfr32 初学 2026-1-16 13:30:54
语音输入,拿到语音的文件或者流->分离说话人->说话人身份判断->语音转文字(这一步可能会丢失一些信息比如:情绪,或者豆包支持语音多模态么,没调研过)->预处理做成 prompt ,送进豆包->拿结果->转语音输出 语音 asr ,tts 这一套已经很成熟了,也可以用云服务,感觉做个 demo 不麻烦,主要是细节的打磨。
12
返回顶部