(相关资料图)
IT之家 12 月 24 日消息,阿里通义今日官宣,Qwen3-TTS 家族新推出两款模型,音色创造模型 Qwen3-TTS-VD-Flash 和音色克隆模型 Qwen3-TTS-VC-Flash。IT之家附模型主要特点如下:
Qwen3-TTS 支持通过自然语言描述生成定制化的音色形象。用户可以随意输入声学属性、人设描述、背景信息等自由描述,轻松创造出自己期望的声音形象。
可控生成:在 InstructTTS-Eval 中,Qwen3-TTS 综合表现显著优于 GPT-4o-mini-tts、Mimo-audio-7b-instruct,在角色扮演测试中也超越 Gemini-2.5-pro-preview-tts。
Qwen3-TTS-VC-Flash
Qwen3-TTS 支持通过自然 3s 级别音色克隆,并且可以基于克隆的音色生成多语种音频,同时对复杂文本和野生音频都有较高的鲁棒性。
多语种音色克隆:在 MiniMax TTS Multilingual Test Set 上,Qwen3-TTS 在中、英、法、意大利等语项的内容稳定性优于 MiniMax、ElevenLabs 及 GPT-4o-Audio-Preview;其平均词错误率(WER)位居第一。
Qwen3-TTS-Voice-Design API 文档:
Qwen3-TTS-Voice-Clone API 文档:
综合阿里通义Qwen3-TTS模型家族上新:声音不仅能复制,还可以定制,音色,克
资讯MotiveIPO招股书:营收稳健增长,亏损规模持续扩大
综合此页面是否是列表页或首页?未找到合适正文内容。
综合欧洲股市节前微涨荷兰三季度GDP增速创三季新高
资讯聚焦模拟和数模混合聚焦高性能模拟与数模混合产品的供应商思瑞浦3PEAK
行政工作主要负责什么?行政工作广义上包括行政事务管理、办公事务管
一、组织领导传销活动罪最多判多少年组织领导传销活动罪最多判15年
酒驾和醉驾有什么区别?酒驾和醉驾的认定标准不同。酒驾是指每100毫
Copyright 2004-2022 faping.com 版权所有 邮箱:434 922 62@qq.com 备案号:京ICP备2023000331号-22 有害信息举报