当前位置：首页 » 网址 » GitHub

Qwen3-TTS

2026-02-12

GitHub

43 2

https://github.com/QwenLM/Qwen3-TTS

复制

链接直达手机查看

模型列表

模型	参数量	功能特性	流式支持	指令控制
Qwen3-TTS-12Hz-1.7B-VoiceDesign	1.7B	基于描述生成语音	✅	✅
Qwen3-TTS-12Hz-1.7B-CustomVoice	1.7B	9种精选音色 + 指令控制	✅	✅
Qwen3-TTS-12Hz-1.7B-Base	1.7B	3秒快速克隆 + 微调	✅	–
Qwen3-TTS-12Hz-0.6B-CustomVoice	0.6B	9种精选音色	✅	–
Qwen3-TTS-12Hz-0.6B-Base	0.6B	3秒快速克隆 + 微调	✅	–

性能对比

模型	中文 WER	英文 WER
CosyVoice 3	0.71	1.45
MiniMax-Speech	0.83	1.65
Qwen3-TTS-12Hz-1.7B-Base	0.77	1.24
Qwen3-TTS-12Hz-0.6B-Base	0.92	1.32
FireRedTTS 2	1.14	1.95

环境配置

# 创建 Python 3.12 环境
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# 安装 qwen-tts 包
pip install -U qwen-tts

# 推荐安装 FlashAttention 2 以减少显存占用
pip install -U flash-attn --no-build-isolation

1. 自定义语音生成（CustomVoice）

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

# 单条推理
wavs, sr = model.generate_custom_voice(
    text="其实我真的有发现，我是一个特别善于观察别人情绪的人。",
    language="Chinese",
    speaker="Vivian",
    instruct="用特别愤怒的语气说",
)
sf.write("output_custom_voice.wav", wavs[0], sr)

# 批量推理
wavs, sr = model.generate_custom_voice(
    text=[
        "其实我真的有发现，我是一个特别善于观察别人情绪的人。", 
        "She said she would be here by noon."
    ],
    language=["Chinese", "English"],
    speaker=["Vivian", "Ryan"],
    instruct=["", "Very happy."]
)

精选音色：

音色	描述	母语
Vivian	明亮、略带锐利的年轻女声	中文
Serena	温暖、温柔的年轻女声	中文
Uncle_Fu	成熟男声，低沉圆润	中文
Dylan	年轻的北京男声，清晰自然	中文（北京话）
Eric	活泼的成都男声，略带沙哑	中文（四川话）
Ryan	动感男声，节奏感强	英文
Aiden	阳光美式男声，中音清晰	英文
Ono_Anna	俏皮日本女声，轻盈灵动	日语
Sohee	温暖韩国女声，情感丰富	韩语

2. 语音设计（VoiceDesign）

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

wavs, sr = model.generate_voice_design(
    text="哥哥，你回来啦，人家等了你好久好久了！",
    language="Chinese",
    instruct="体现撒娇稚嫩的萝莉女声，音调偏高且起伏明显，营造出黏人、做作又刻意卖萌的听觉效果。",
)
sf.write("output_voice_design.wav", wavs[0], sr)

3. 语音克隆（Base）

import torch
import soundfile as sf
from qwen_tts import Qwen3TTSModel

model = Qwen3TTSModel.from_pretrained(
    "Qwen/Qwen3-TTS-12Hz-1.7B-Base",
    device_map="cuda:0",
    dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)

ref_audio = "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone.wav"
ref_text = "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you."

wavs, sr = model.generate_voice_clone(
    text="I am solving the equation: x = [-b ± √(b²-4ac)] / 2a? Nobody can — it's a disaster (◍•͈⌔•͈◍), very sad!",
    language="English",
    ref_audio=ref_audio,
    ref_text=ref_text,
)
sf.write("output_voice_clone.wav", wavs[0], sr)

4. 启动本地 Web UI

# CustomVoice 模型
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 0.0.0.0 --port 8000

# VoiceDesign 模型
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --ip 0.0.0.0 --port 8000

# Base 模型
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --ip 0.0.0.0 --port 8000

然后访问 http://:8000 即可体验。

栖霞阁 » Qwen3-TTS 发布于 2026-02-12，如发现网址过期，或无法访问，请联系我们。

0已赞

Qwen3-TTS

模型列表

性能对比

环境配置

1. 自定义语音生成（CustomVoice）

2. 语音设计（VoiceDesign）

3. 语音克隆（Base）

4. 启动本地 Web UI

相关推荐