Skip to content

Moeary/CosyVoiceDesktop

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

41 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CosyVoice Desktop 有声小说生成器

面向创作者的多功能桌面端有声小说生产力工具,基于 CosyVoice 系列大模型构建,提供即开即用的文本转语音体验。

不会用?有问题? README文档可能不够详细 具体使用教程和每个页面的详情介绍和使用逻辑请参考项目Wiki页面: https://github.com/Moeary/CosyVoiceDesktop/wiki

更新日志

2026.02.14 发布 V1.5 版本,模型管理与 API 体验全升级

  • 📂 模型路径智能化
    • 支持相对路径应用(./pretrained_models),解压即用的便携体验更进一步。
    • 自动路径补全:下载或设置路径时,程序会自动创建并识别 wetextFun-CosyVoice3-0.5B 子文件夹,彻底解决路径层级问题。
  • 📊 性能监测增强
    • API 运行日志新增 RTF (实时因子) 与推理耗时显示,生成性能一目了然。
  • 🎨 UI 细节优化
    • 模型下载页面重构:支持独立设置 WeText 和 CosyVoice 路径,并显示已下载状态 (✅/⬜)
    • 移除了启动时的 QFluentWidgets Pro 购买提示弹窗。
    • 修复了 API 重启后日志重复输出的 Bug。

2025.12.30 发布V1.4版本,API服务与UI交互大升级

  • 🔌 API服务上线:内置本地 TTS API 服务,适配SillyTavern(酒馆),并支持通过第三方油猴脚本对接Pixiv/爱丽丝书屋等在线小说阅读平台。
  • 🎨 UI交互大升级
    • 侧边栏新增 GitHub 仓库直达与工具提示。
    • 语音设置与任务计划列表支持列宽自由拖动,操作更顺手。
    • API 日志支持自适应主题配色,深浅色模式下均清晰可见。
  • 🛠️ 体验优化
    • 启动 API 服务时若未加载模型,将自动触发模型加载,无需手动操作。
    • 优化了日志输出,去除冗余信息,专注核心推理状态。

2025.12.16 发布V1.3版本,升级至CosyVoice3,便携包提供两种模式,github里面的压缩包不再打包预训练模型(节省一下体积),百度网盘里面的带预训练模型,以后考虑将所有的发布版本都迁移到github里面去,就再也不用受百度网盘的压迫了

  • 🚀 升级到CosyVoice3-0.5b:全新的语音生成模型,语音质量与情感表达能力大幅提升
  • 📥 灵活的模型下载:内置「模型下载」页面,支持 HuggingFace 和 ModelScope 两种下载渠道,并显示下载进度
  • 🎵 新增语音修补模式:支持四种模式 - 零样本复制、精细控制、指令控制、语音修补(hotfix)

2025.12.14 发布V1.2版本,torch环境更新到torch2.7.0+cu128 理应支持50系显卡

  • UI优化:新增"设置"页面,支持主题切换(浅色/深色/自动)
  • 🎵 模式简化:仅保留"零样本复制""精细控制""指令控制"三种推理模式,移除"流式输入"
  • 💾 配置记忆:启动时自动加载上次使用的语音配置和项目设置,无需手动点击"应用"按钮
  • 📁 输出目录优化:音频自动保存到 output/{ProjectName}/ 目录,便于项目分类管理

2025.10.31 主要更新README文档和Asset文件夹 程序本身没太大实质性变化 根据Issue2的问题反馈添加演示示例视频 于Readme下方可以查看,同时asset文件夹下添加更多示例音频数据(大部分来源于【1080p+修复/国语】精灵宝可梦:无印篇第1集 自行剪辑获得 如有侵权我将立马删除)以供多角色朗读测试使用

2025.10.30 根据Issue反馈缺失Pillow库重新打包上传上传V1.1版本,可以于百度网盘下载最新的一键包,不想重下的也可以下载site-package.zip压缩包根据txt提示将文件解压到制定路径即可使用

2025.10.7 上传V1.0版本

🥘 项目简介

CosyVoice Desktop 是在官方 CosyVoice 能力之上构建的图形化有声内容创作平台。通过 PyQt5 与 Fluent Design 风格界面,整合零样本克隆、精细控制、指令式创作等多种推理模式,帮助小说、广播剧、播客及教育内容创作者快速完成高质量的有声作品。

✨ 核心优势

  • 一站式工作流:从文本管理、角色配置到批量音频导出均在同一界面完成。
  • 四种语音模式:零样本克隆、精细控制、指令控制、语音修补,覆盖旁白/人物/方言转换需求。
  • 智能配置记忆:启动时自动加载上次使用的语音配置和项目设置,提升工作效率。
  • 色彩化标注体验:不同角色以颜色区分,提升长篇文本的配音效率与可读性。
  • 自动化播放与日志:生成后自动按段播放并输出实时日志,快速定位问题。
  • 配置复用:支持语音配置保存/导入,多端协同创作毫不费力。

🔍 功能亮点

智能文本工作台

  • 智能文本编辑器,支持复制/粘贴/剪切/撤销等常用操作。
  • 按段落为文本绑定语音配置,实时查看配音颜色标记。
  • 一键生成后自动顺序播放音频,历史记录清晰可追溯。

多语音角色管理

  • 支持无限量语音配置,适配旁白、主要角色、群演等场景。
  • 配置项包含模式(零样本/精细控制/指令控制/语音修补)、参考文本、参考音频与标记颜色。
  • 启动时自动加载上次使用的语音配置,无需重复设置。
  • JSON 导入导出,可与团队成员共享同一套角色库。

创作辅助能力

  • 支持中文、英文、日文、韩文及多种方言的跨语言与风格转换需求。
  • 日志面板实时展示生成进度、耗时与潜在告警信息。
  • 输出目录自动管理生成文件(按项目分类),支持批量回放与二次处理。
  • 主题切换功能,支持浅色/深色/自动三种模式。

🔌 API 服务 (New!)

V1.4 新增标准 HTTP API 支持,可将 CosyVoice 能力集成到其他应用中。

  • 一键启动:在 "API 服务" 页面点击启动即可,支持自动加载模型。
  • 酒馆适配:完美支持 SillyTavern (酒馆) 的 TTS 接口,支持角色列表获取。
  • 小说朗读:支持通过 Tampermonkey (油猴) 脚本对接 Pixiv爱丽丝书屋等网站,实现浏览器内直接朗读。
  • 接口文档:启动服务后,点击界面上的 "?" 按钮即可查看完整 API 文档。

📸 界面示例

  • 主界面预览
  • 语音配置面板
  • 生成日志与播放器

🎯 模型下载指南

从 v1.3 开始,程序不再提供打包的模型文件。请根据以下步骤下载所需模型:

快速下载(推荐)

  1. 启动程序后,打开侧边栏 模型下载 页面
  2. 选择下载渠道:
    • 1. HuggingFace - 推荐,如有网络问题可选择 2
    • 2. ModelScope - 国内用户推荐,如 HuggingFace 下载困难
  3. 点击 一键下载默认模型,程序将自动下载以下模型到 pretrained_models/ 目录:
    • wetext/ - 文本标准化模型
    • Fun-CosyVoice3-0.5B/ - CosyVoice3 推理模型
  4. 下载过程中可在页面内查看日志与进度条,下载完成后模型路径会自动更新

手动下载(进阶)

如需更细化控制,可在命令行运行:

python core/download.py --help

支持的选项:

  • --all 下载全部模型(默认)
  • --wetext 仅下载 wetext
  • --cosyvoice3 仅下载 CosyVoice3
  • --method huggingface|modelscope 指定下载渠道

两种使用方式概览

方式 推荐人群 前置条件 快速操作
方式一:Github/百度网盘一键包 想立即体验、拥有 NVIDIA GPU 的创作者(实际上使用CPU也可以跑) 支持 CUDA ≥ 12.8 的 NVIDIA 显卡,Windows 10/11 下载压缩包 → 解压 → 双击bat运行程序
方式二:已有 CosyVoice 环境 已经本地部署官方 CosyVoice 的用户 本地 CosyVoice 目录与模型完整可用 安装桌面依赖 → 运行 python main.py

🔔 提示:两种方式可并行维护,推荐保留同一套 pretrained_models 以节省磁盘空间。

方式一:Github/百度网盘一键运行包

适用用户

  • 需要最快上手体验 CosyVoiceDesktop 的创作者。
  • 设备搭载 NVIDIA GPU,驱动已支持 CUDA 12.8 及以上版本。
  • 或者设备拥有一颗强力的CPU和足够高的内存带宽可以使用CPU来跑,此时就不需要考虑NVIDIA 显卡了
  • Windows 10/11 环境。

步骤

  1. 访问github release界面或者百度网盘链接下载压缩包:
    • GitHub 推荐版:仅含代码+环境,体积较小,需自行下载模型
    • 百度网盘完整版:包含预训练模型,开箱即用,体积较大
  2. 在本地磁盘解压,例如 D:\CosyVoiceDesktop
  3. 检查显卡驱动与 CUDA Runtime 是否满足 12.8 及以上要求。
  4. 首次启动后进入程序内的「模型下载」页面下载模型(如果是完整版可跳过此步)。
  5. 再双击运行 StartCosyVoice.bat 启动程序。
  6. 进入主界面参考教程使用即可。

📦 一键包说明

  • asset/: 存放测试音频文件,如 孙笑川_哈喽 大家好 我小孙 这一期收到了一个情感类方面比较抽象的一个粉丝 发来这个东西 而且他说了 这个东西是绝对属实的,用于快速实验测试,省去自行查找音频片段。
  • config/: 人物语音配置目录,用于存放工程对应的配置文件(json格式,记录命名和参考音频文件,自动保存且启动时自动加载)。
  • cosyvoice/pretrained_models/python_env/third_party/: 核心项目文件,无需移动或修改。
  • output/: 默认的音频输出目录,自动按项目名称创建子文件夹(output/{ProjectName}/ ),用于保存生成的音频文件,便于项目分类管理。

注意事项

  • 解压路径请避免中文或空格字符,以免影响 Python 虚拟环境。
  • 若 Windows SmartScreen 拦截,可选择“更多信息 → 仍要运行”。
  • 在首次运行时加载大型模型时耗时较长,耐心等待日志面板提示完成。

方式二:已有 CosyVoice 环境的快速集成

适用用户

  • 已在本地 CosyVoice 源码目录中完成依赖安装与模型下载。
  • 希望直接将 GUI 集成至现有环境,保持与官方脚本同一套虚拟环境(使用pixi管理的前提下)。

操作步骤

  1. 切换至 CosyVoice 根目录:
    cd path\to\CosyVoice
  2. 确保虚拟环境已激活且可正常运行官方脚本。
  3. 安装桌面端依赖:
    pixi install
  4. CosyVoiceDesktop 仓库中的 main.py和core文件夹以及ui文件夹 复制到 CosyVoice 根目录或自定义工作目录:
  5. 运行桌面应用:
    pixi run start
  6. 终端开启API服务(可选):
    pixi run api

🛠️ 工作流程

CosyvoiceDesktop_Demo_AV1.mp4
  1. 打开语音设置页面,创建或导入角色配置,选择参考音频并点击"应用配置"(后续启动会自动加载)。
  2. 切换到文本编辑页面,输入或粘贴待合成文本,通过快捷键(Ctrl+数字)或右键工具菜单为不同段落分配语音配置(不同颜色标记)。
  3. 点击一键运行(或将任务转换为计划任务),切换到计划任务页面,查看任务执行日志和输出。
  4. 若合成效果不满意,可在计划任务页面点击"三角形运行按钮"进行重Roll。
  5. 所有段落合成完成后,点击"合成音频"按钮(需要ffmpeg环境),将分段音频合并为完整音频文件。

常见问题 FAQ

  1. 应用启动时自动加载配置: V1.2版本新增配置记忆功能,应用启动时会自动加载上次保存的语音配置,无需点击"应用配置"按钮。若想切换配置,可在语音设置页面加载不同的配置文件。

  2. No module named 'PIL': 这是由于一键包在打包过程中遗漏了 Pillow 库导致的,我们计划在下个一键运行包版本中修复。目前您可以根据以下任一方法手动解决: 问题根源 程序使用的是自带的便携 Python 环境 (python_env),而部分用户电脑上通过 pip install Pillow 命令会将库安装到系统默认的 Python 环境中,导致程序无法找到。 解决方案 1:手动复制文件

    1. 找到系统库位置:进入您系统 Python 的包目录,例如 C:\Users\Administrator\AppData\Local\Programs\Python\Python313\Lib\site-packages
    2. 复制文件夹:在该目录中找到 PILPillow-X.X.X.dist-info (版本号可能不同) 两个文件夹,并复制它们。
    3. 粘贴到程序环境:将这两个文件夹粘贴到本程序的便携环境目录中:{解压缩后的文件夹目录}\python_env\Lib\site-packages

    解决方案 2:使用命令行强制安装 (推荐)

    1. 打开程序的根目录(即 StartCosyVoice.bat 所在的文件夹)。
    2. 在文件夹顶部的地址栏输入 cmd 并按回车,打开终端。
    3. 复制并执行以下命令:
      python_env\Scripts\pip.exe install Pillow --upgrade

    完成以上任一操作后,重新运行 StartCosyVoice.bat 即可。

  3. 合成音频失败: 这通常是因为系统中缺少 ffmpeg 环境。

    • 解决方案:请自行搜索并下载 ffmpeg,并将其路径配置到系统的环境变量 Path 中。
    • 提示:一键合成功能主要用于快速预览。对于对话场景,合成后的单音频可能效果不佳,建议将 output 文件夹中生成的分段原始音频导入剪辑软件进行精细调整。
  4. 模型加载失败:确保 pretrained_models 中的目录与配置指向一致,且显存足够(建议 ≥ 4 GB)。

  5. 界面空白或闪退:确保已安装最新显卡驱动,必要时以管理员权限运行。

  6. 音频无声或失真:核对参考音频语言与文本语言是否匹配(尤其是在零样本模式下,不能以日语参考音频来推理出中文音频)。

更新与反馈

📝 用户协议

  1. 本项目基于 CosyVoice 开源能力,遵循原项目许可证及使用规范。请在下载和部署前阅读并遵守 CosyVoice 官方条款。
  2. 用户在创作过程中应确保拥有使用输入文本、参考音频及生成内容的合法权利,不得侵犯第三方的版权、肖像权或其他合法权益。
  3. 禁止将本项目用于任何违法、违规或违背公共秩序与善良风俗的用途;如因违规使用导致损失,责任由用户自行承担。
  4. 项目提供的打包版本及脚本仅供个人学习与研究使用,未经许可不得用于商业再发行或转售。
  5. 项目维护者保留依据法律法规或社区反馈随时更新、暂停或终止服务与支持的权利。

使用 CosyVoiceDesktop 即视为同意上述协议条款。若您不同意任何条款,请立即停止使用并删除相关文件。

About

支持10s语音极速配置 多角色管理的有声小说生成器

Resources

License

Stars

Watchers

Forks

Packages