CosyVoice Desktop 有声小说生成器

面向创作者的多功能桌面端有声小说生产力工具，基于 CosyVoice 系列大模型构建，提供即开即用的文本转语音体验。

不会用?有问题? README文档可能不够详细 具体使用教程和每个页面的详情介绍和使用逻辑请参考项目Wiki页面: https://github.com/Moeary/CosyVoiceDesktop/wiki

更新日志

2026.02.14 发布 V1.5 版本，模型管理与 API 体验全升级

📂 模型路径智能化：
- 支持相对路径应用（./pretrained_models），解压即用的便携体验更进一步。
- 自动路径补全：下载或设置路径时，程序会自动创建并识别 wetext 和 Fun-CosyVoice3-0.5B 子文件夹，彻底解决路径层级问题。
📊 性能监测增强：
- API 运行日志新增 RTF (实时因子) 与推理耗时显示，生成性能一目了然。
🎨 UI 细节优化：
- 模型下载页面重构：支持独立设置 WeText 和 CosyVoice 路径，并显示已下载状态 (✅/⬜)。
- 移除了启动时的 QFluentWidgets Pro 购买提示弹窗。
- 修复了 API 重启后日志重复输出的 Bug。

2025.12.30 发布V1.4版本，API服务与UI交互大升级

🔌 API服务上线：内置本地 TTS API 服务，适配SillyTavern(酒馆)，并支持通过第三方油猴脚本对接Pixiv/爱丽丝书屋等在线小说阅读平台。
🎨 UI交互大升级：
- 侧边栏新增 GitHub 仓库直达与工具提示。
- 语音设置与任务计划列表支持列宽自由拖动，操作更顺手。
- API 日志支持自适应主题配色，深浅色模式下均清晰可见。
🛠️ 体验优化：
- 启动 API 服务时若未加载模型，将自动触发模型加载，无需手动操作。
- 优化了日志输出，去除冗余信息，专注核心推理状态。

2025.12.16 发布V1.3版本，升级至CosyVoice3,便携包提供两种模式,github里面的压缩包不再打包预训练模型(节省一下体积),百度网盘里面的带预训练模型,以后考虑将所有的发布版本都迁移到github里面去,就再也不用受百度网盘的压迫了

🚀 升级到CosyVoice3-0.5b：全新的语音生成模型，语音质量与情感表达能力大幅提升
📥 灵活的模型下载：内置「模型下载」页面，支持 HuggingFace 和 ModelScope 两种下载渠道，并显示下载进度
🎵 新增语音修补模式：支持四种模式 - 零样本复制、精细控制、指令控制、语音修补(hotfix)

2025.12.14 发布V1.2版本，torch环境更新到torch2.7.0+cu128 理应支持50系显卡了

✨ UI优化：新增"设置"页面，支持主题切换（浅色/深色/自动）
🎵 模式简化：仅保留"零样本复制""精细控制""指令控制"三种推理模式，移除"流式输入"
💾 配置记忆：启动时自动加载上次使用的语音配置和项目设置，无需手动点击"应用"按钮
📁 输出目录优化：音频自动保存到 output/{ProjectName}/ 目录，便于项目分类管理

2025.10.31 主要更新README文档和Asset文件夹程序本身没太大实质性变化根据Issue2的问题反馈添加演示示例视频于Readme下方可以查看,同时asset文件夹下添加更多示例音频数据(大部分来源于【1080p+修复/国语】精灵宝可梦:无印篇第1集自行剪辑获得如有侵权我将立马删除)以供多角色朗读测试使用

2025.10.30 根据Issue反馈缺失Pillow库重新打包上传上传V1.1版本,可以于百度网盘下载最新的一键包,不想重下的也可以下载site-package.zip压缩包根据txt提示将文件解压到制定路径即可使用

2025.10.7 上传V1.0版本

🥘 项目简介

CosyVoice Desktop 是在官方 CosyVoice 能力之上构建的图形化有声内容创作平台。通过 PyQt5 与 Fluent Design 风格界面，整合零样本克隆、精细控制、指令式创作等多种推理模式，帮助小说、广播剧、播客及教育内容创作者快速完成高质量的有声作品。

✨ 核心优势

一站式工作流：从文本管理、角色配置到批量音频导出均在同一界面完成。
四种语音模式：零样本克隆、精细控制、指令控制、语音修补，覆盖旁白/人物/方言转换需求。
智能配置记忆：启动时自动加载上次使用的语音配置和项目设置，提升工作效率。
色彩化标注体验：不同角色以颜色区分，提升长篇文本的配音效率与可读性。
自动化播放与日志：生成后自动按段播放并输出实时日志，快速定位问题。
配置复用：支持语音配置保存/导入，多端协同创作毫不费力。

🔍 功能亮点

智能文本工作台

智能文本编辑器，支持复制/粘贴/剪切/撤销等常用操作。
按段落为文本绑定语音配置，实时查看配音颜色标记。
一键生成后自动顺序播放音频，历史记录清晰可追溯。

多语音角色管理

支持无限量语音配置，适配旁白、主要角色、群演等场景。
配置项包含模式（零样本/精细控制/指令控制/语音修补）、参考文本、参考音频与标记颜色。
启动时自动加载上次使用的语音配置，无需重复设置。
JSON 导入导出，可与团队成员共享同一套角色库。

创作辅助能力

支持中文、英文、日文、韩文及多种方言的跨语言与风格转换需求。
日志面板实时展示生成进度、耗时与潜在告警信息。
输出目录自动管理生成文件（按项目分类），支持批量回放与二次处理。
主题切换功能，支持浅色/深色/自动三种模式。

🔌 API 服务 (New!)

V1.4 新增标准 HTTP API 支持，可将 CosyVoice 能力集成到其他应用中。

一键启动：在 "API 服务" 页面点击启动即可，支持自动加载模型。
酒馆适配：完美支持 SillyTavern (酒馆) 的 TTS 接口，支持角色列表获取。
小说朗读：支持通过 Tampermonkey (油猴) 脚本对接 Pixiv、爱丽丝书屋等网站，实现浏览器内直接朗读。
接口文档：启动服务后，点击界面上的 "?" 按钮即可查看完整 API 文档。

📸 界面示例

🎯 模型下载指南

从 v1.3 开始，程序不再提供打包的模型文件。请根据以下步骤下载所需模型：

快速下载（推荐）

启动程序后，打开侧边栏 模型下载 页面
选择下载渠道：
- 1. HuggingFace - 推荐，如有网络问题可选择 2
- 2. ModelScope - 国内用户推荐，如 HuggingFace 下载困难
点击 一键下载默认模型，程序将自动下载以下模型到 pretrained_models/ 目录：
- wetext/ - 文本标准化模型
- Fun-CosyVoice3-0.5B/ - CosyVoice3 推理模型
下载过程中可在页面内查看日志与进度条，下载完成后模型路径会自动更新

手动下载（进阶）

如需更细化控制，可在命令行运行：

python core/download.py --help

支持的选项：

--all 下载全部模型（默认）
--wetext 仅下载 wetext
--cosyvoice3 仅下载 CosyVoice3
--method huggingface|modelscope 指定下载渠道

两种使用方式概览

方式	推荐人群	前置条件	快速操作
方式一：Github/百度网盘一键包	想立即体验、拥有 NVIDIA GPU 的创作者(实际上使用CPU也可以跑)	支持 CUDA ≥ 12.8 的 NVIDIA 显卡，Windows 10/11	下载压缩包 → 解压 → 双击bat运行程序
方式二：已有 CosyVoice 环境	已经本地部署官方 CosyVoice 的用户	本地 CosyVoice 目录与模型完整可用	安装桌面依赖 → 运行 `python main.py`

🔔 提示：两种方式可并行维护，推荐保留同一套 pretrained_models 以节省磁盘空间。

方式一：Github/百度网盘一键运行包

适用用户

需要最快上手体验 CosyVoiceDesktop 的创作者。
设备搭载 NVIDIA GPU，驱动已支持 CUDA 12.8 及以上版本。
或者设备拥有一颗强力的CPU和足够高的内存带宽可以使用CPU来跑,此时就不需要考虑NVIDIA 显卡了
Windows 10/11 环境。

步骤

访问github release界面或者百度网盘链接下载压缩包：
- GitHub 推荐版：仅含代码+环境，体积较小，需自行下载模型
- 百度网盘完整版：包含预训练模型，开箱即用，体积较大
在本地磁盘解压，例如 D:\CosyVoiceDesktop。
检查显卡驱动与 CUDA Runtime 是否满足 12.8 及以上要求。
首次启动后进入程序内的「模型下载」页面下载模型（如果是完整版可跳过此步）。
再双击运行 StartCosyVoice.bat 启动程序。
进入主界面参考教程使用即可。

📦 一键包说明

asset/: 存放测试音频文件，如 孙笑川_哈喽大家好我小孙这一期收到了一个情感类方面比较抽象的一个粉丝发来这个东西而且他说了这个东西是绝对属实的，用于快速实验测试,省去自行查找音频片段。
config/: 人物语音配置目录，用于存放工程对应的配置文件(json格式,记录命名和参考音频文件，自动保存且启动时自动加载)。
cosyvoice/、pretrained_models/、python_env/、third_party/: 核心项目文件，无需移动或修改。
output/: 默认的音频输出目录，自动按项目名称创建子文件夹（output/{ProjectName}/ ），用于保存生成的音频文件，便于项目分类管理。

注意事项

解压路径请避免中文或空格字符，以免影响 Python 虚拟环境。
若 Windows SmartScreen 拦截，可选择“更多信息 → 仍要运行”。
在首次运行时加载大型模型时耗时较长，耐心等待日志面板提示完成。

方式二：已有 CosyVoice 环境的快速集成

适用用户

已在本地 CosyVoice 源码目录中完成依赖安装与模型下载。
希望直接将 GUI 集成至现有环境，保持与官方脚本同一套虚拟环境(使用pixi管理的前提下)。

操作步骤

切换至 CosyVoice 根目录：
```
cd path\to\CosyVoice
```
确保虚拟环境已激活且可正常运行官方脚本。
安装桌面端依赖：
```
pixi install
```
将 CosyVoiceDesktop 仓库中的 main.py和core文件夹以及ui文件夹复制到 CosyVoice 根目录或自定义工作目录：
运行桌面应用：
```
pixi run start
```
终端开启API服务(可选)：
```
pixi run api
```

🛠️ 工作流程

CosyvoiceDesktop_Demo_AV1.mp4

打开语音设置页面，创建或导入角色配置，选择参考音频并点击"应用配置"（后续启动会自动加载）。
切换到文本编辑页面，输入或粘贴待合成文本，通过快捷键（Ctrl+数字）或右键工具菜单为不同段落分配语音配置（不同颜色标记）。
点击一键运行（或将任务转换为计划任务），切换到计划任务页面，查看任务执行日志和输出。
若合成效果不满意，可在计划任务页面点击"三角形运行按钮"进行重Roll。
所有段落合成完成后，点击"合成音频"按钮（需要ffmpeg环境），将分段音频合并为完整音频文件。

常见问题 FAQ

应用启动时自动加载配置： V1.2版本新增配置记忆功能，应用启动时会自动加载上次保存的语音配置，无需点击"应用配置"按钮。若想切换配置，可在语音设置页面加载不同的配置文件。
No module named 'PIL'：这是由于一键包在打包过程中遗漏了 Pillow 库导致的，我们计划在下个一键运行包版本中修复。目前您可以根据以下任一方法手动解决： 问题根源 程序使用的是自带的便携 Python 环境 (python_env)，而部分用户电脑上通过 pip install Pillow 命令会将库安装到系统默认的 Python 环境中，导致程序无法找到。 解决方案 1：手动复制文件
1. 找到系统库位置：进入您系统 Python 的包目录，例如 C:\Users\Administrator\AppData\Local\Programs\Python\Python313\Lib\site-packages。
2. 复制文件夹：在该目录中找到 PIL 和 Pillow-X.X.X.dist-info (版本号可能不同) 两个文件夹，并复制它们。
3. 粘贴到程序环境：将这两个文件夹粘贴到本程序的便携环境目录中：{解压缩后的文件夹目录}\python_env\Lib\site-packages。
解决方案 2：使用命令行强制安装 (推荐)
1. 打开程序的根目录（即 StartCosyVoice.bat 所在的文件夹）。
2. 在文件夹顶部的地址栏输入 cmd 并按回车，打开终端。
3. 复制并执行以下命令：
```
python_env\Scripts\pip.exe install Pillow --upgrade
```
完成以上任一操作后，重新运行 StartCosyVoice.bat 即可。
合成音频失败: 这通常是因为系统中缺少 ffmpeg 环境。
- 解决方案：请自行搜索并下载 ffmpeg，并将其路径配置到系统的环境变量 Path 中。
- 提示：一键合成功能主要用于快速预览。对于对话场景，合成后的单音频可能效果不佳，建议将 output 文件夹中生成的分段原始音频导入剪辑软件进行精细调整。
模型加载失败：确保 pretrained_models 中的目录与配置指向一致，且显存足够（建议 ≥ 4 GB）。
界面空白或闪退：确保已安装最新显卡驱动，必要时以管理员权限运行。
音频无声或失真：核对参考音频语言与文本语言是否匹配（尤其是在零样本模式下，不能以日语参考音频来推理出中文音频）。

更新与反馈

项目主页
功能需求与问题反馈：请在 GitHub Issues 提交

📝 用户协议

本项目基于 CosyVoice 开源能力，遵循原项目许可证及使用规范。请在下载和部署前阅读并遵守 CosyVoice 官方条款。
用户在创作过程中应确保拥有使用输入文本、参考音频及生成内容的合法权利，不得侵犯第三方的版权、肖像权或其他合法权益。
禁止将本项目用于任何违法、违规或违背公共秩序与善良风俗的用途；如因违规使用导致损失，责任由用户自行承担。
项目提供的打包版本及脚本仅供个人学习与研究使用，未经许可不得用于商业再发行或转售。
项目维护者保留依据法律法规或社区反馈随时更新、暂停或终止服务与支持的权利。

使用 CosyVoiceDesktop 即视为同意上述协议条款。若您不同意任何条款，请立即停止使用并删除相关文件。

Name		Name	Last commit message	Last commit date
Latest commit History 41 Commits
asset		asset
core		core
ui		ui
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
StartCosyVoice.bat		StartCosyVoice.bat
icon.ico		icon.ico
main.py		main.py
pixi.lock		pixi.lock
pixi.toml		pixi.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CosyVoice Desktop 有声小说生成器

更新日志

🥘 项目简介

✨ 核心优势