语音助手需要转文字？错，复旦大学直接让AI‘听’和‘说’，跳过所有中间环节。

qimuai 发布于 2025-11-21 18:02 阅读：105 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

你肯定经历过这种场景：和语音助手说话，它总要先把你说的转成文字，理解完再生成语音回答你。一来一回，那股人味儿早就没了。

但现在，复旦大学的研究团队直接把中间环节砍掉了。

他们最新开源的 MOSS-Speech ，是国内首个真正的 “语音到语音”大模型。不用转文字，不用等它“理解”，你说话，它直接“听”懂，然后用自己的声音回答你。

而且，它能捕捉你的语调、情绪，甚至笑声，再原样“还”给你。

这就像把同声传译换成了母语对话。

传统的语音助手，走的是一条“弯路”：先把语音转成文字，交给大脑（大模型）处理，生成文字回复，再转成语音播出来。三步走，步步有损耗。

而 MOSS-Speech 是 真正的端到端。它跳过了所有文本中介，直接通过语音理解，再直接生成语音。少了一步“翻译”，对话的流畅度和自然度立刻上了一个台阶。

它听到的不只是文字，更是情绪。

这才是 MOSS-Speech 最厉害的地方。它能同步捕捉并生成语调、情绪、笑声这些无法用文字承载的信号。

这意味着，你笑着问它一个问题，它的回答里可能也带着笑意；你语气焦急，它也能感知到并给出更紧迫的回应。AI 语音终于不再是冰冷的朗读，开始有了人类的温度。

背后是复旦大学团队的硬核技术。

MOSS-Speech 来自复旦大学邱锡鹏教授领衔的 MOSS 团队。这个团队从2023年发布中文大模型 MOSS 开始，就一直在推动多模态和自主语音交互的发展。

他们采用的 “层拆分架构”与“冻结预训练策略” ，是模型能力强、训练又高效稳定的关键。也正因如此，它才能在语音问答、人机交互等任务中达到业界领先的水平。

开源，免费商用。

是的，和 MOSS 系列的其他模型一样，MOSS-Speech 完全开源，代码和模型权重都已公开，采用热门的 Apache 2.0 等许可证，支持免费商用。

无论你是想集成到智能客服里，打造情感交互机器人，做AI播客、智能访谈，还是用于辅助教育和语言学习，现在都没有任何障碍。

它和之前的TTS模型有啥不同？

你可能听过 MOSS-TTSD，它是一个强大的文本转语音模型。而 MOSS-Speech 是它的进化版：

一个还在文本的框架内，另一个则彻底进入了纯语音的交互世界。

所有领域都值得用AI重做一遍。

从需要转文字的“语音助手”，到能直接对话的“语音伙伴”，MOSS-Speech 让我们看到了AI交互更自然的未来。当技术门槛被开源打破，创新的钥匙就交到了每一个开发者手中。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

文章目录

扫描二维码，在手机上阅读