2024年度--年终总结报告

2024绩效评估表
1. 工作业绩
1.1 数据采集和处理
采集数据：完成中文播客、影视剧、公开课、广播电台以及中央和地方卫视等多渠道数据采集，涵盖多种应用场景。
数据处理：完善并优化数据处理的pipeline，包括数据分离、Speaker识别、VAD检测、DNSMOS评估、ASR转换及后续筛选，处理数据量超过10万小时。支持语音识别（ASR）和语音合成（TTS）训练格式需求，提升数据处理效率和质量。
线上数据回归处理：持续完成线上数据的回流处理。
1.2 语言模型训练
通用语言模型优化：
针对专有名词、英文缩写优化识别能力。
清理特殊词汇干扰，提升模型的鲁棒性和精度。
项目定制化语言模型优化：
为智慧评标、联通及东湖公安等项目提供语言模型定制化优化支持。
完成模型部署及加密处理，满足业务需求。
1.3 语音相关指标测试
测试不同版本声学模型和语言模型在公开测试集、业务测试集以及Leaderboard测试集上的性能，确保模型效果持续提升。
基于线上回流数据构建业务测试集，提升模型实际应用表现。
构建TTS评测集，完成人工评测及自动化指标评测流程，为语音合成技术优化提供数据支撑。
1.4 其他工作
海基科技项目：参与完成瞬态温度场预测的POC报告。
专利撰写：《一种快速构建大规模高质量语音数据集的方法与系统》，体现技术创新能力。
ASR训练学习：基于Wenet框架完成ASR训练环境搭建及代码运行。
知识分享：做了一次主题为《大模型时代下的语音合成》的知识分享。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2024年度--年终总结报告 #4

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

2024年度--年终总结报告 #4

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions