15 条回复  ·  1758 次点击
AmoreLee 初学 2025-2-5 12:44:04
看起来不错,或许以后可以直接用说话人本身的音色?
cky951113 楼主 初学 2025-2-5 12:54:59
@AmoreLee 是的!下一步是添加个性化音色,然后是端到端音频翻译模型(可以保留说话人的语气和咳嗽笑声这类信息)
javaluo 初学 2025-2-5 13:15:49
感觉不错,不过这种很容易被大厂竞争? 比如 Google meeting 之类的 可以考虑看看从哪一个细分场景切入,把这里面的体验和问题做好增强壁垒,可以在有风险的时候保住基本盘
Donaldo 小成 2025-2-5 13:26:24
这个需求相当有力,但我还是觉得做成插件会好一些,不过现在的大型平台是不是没有提供插件接口?或许虚拟 mic 和 cam 是个思路,希望有后续!
DICK23 小成 2025-2-5 13:38:26
遇到 connection error ,设备已经授权了
xmsz 小成 2025-2-5 14:42:57
我在国内,一直有个疑问,就是对于像 lz 这样的产品为什么可以存在? 比如解决会议实时翻译的需求,这个对于现有的会议软件如 Zoom/飞书来说就是一个很简单的功能 飞书已经有了,zoom 现在没有未来也会有 一但这些会议软件有个这个功能,那不就算创业失败了? 除非在 AI 翻译的能力和调教上有一定研究,否则不过是一个排期+一个程序员一个下午的活而已 所以,我一直很好奇,像这样「短期功能性」的产品为什么会去做? 是不是有别的原因?比如是用来磨练能力?技术?团队?还是说真的可以有不错的解决方案,然后大公司愿意直接买断?
12
返回顶部