5月20日讯 据通义实验室消息,通义千问团队发布了 Qwen3.5-LiveTranslate-Flash 实时语音翻译模型,该模型在语种覆盖、延迟控制和音色保留等方面实现显著突破,旨在解决跨境直播、跨国会议等场景中的实时同传痛点。
官方详细介绍如下:
跨境直播卡顿、跨国会议延迟、AI 配音“机器感”太重…… 实时同传一直卡在“延迟、语种、音色”三大痛点。
Qwen3.5-LiveTranslate-Flash 给出了解决方案:支持 60 种语言的音频输入和文字输出,29 种语言的音频输出,端到端字均延迟低至 2.8 秒,还能保留说话人的原声特征。
核心亮点速览
Qwen3.5-LiveTranslate
- 输入音频和输出文本语种从 18 种提升至 60 种,输出音频从 10 种提升至 29 种;
- 语音同传字均延迟降低至 2.8 秒;
- 支持实时音色克隆,翻译后仍保留说话人原声特征;
- 内置热词能力,专有名词和行业术语翻译更精准。






