“Sinovoice-2015-08-25”版本间的差异
(→9 话者分离) |
(→语音自适应) |
||
(相同用户的6个中间修订版本未显示) | |||
第7行: | 第7行: | ||
202H 一直在标注中 平衡?按照数据来源:输入法、导航 | 202H 一直在标注中 平衡?按照数据来源:输入法、导航 | ||
*8K | *8K | ||
− | + | 按照项目走,平安标注了100小时多,开始训练;(一共700+100); | |
+ | *粤语标注了一个测试集,测试CER:88%; | ||
+ | 已传到平台,等待标注;招聘标注员; | ||
+ | |||
===文本数据=== | ===文本数据=== | ||
*粤语文本 | *粤语文本 | ||
第15行: | 第18行: | ||
*第三季度目标 当前WER:93.5% 目标WER:>94.5% | *第三季度目标 当前WER:93.5% 目标WER:>94.5% | ||
===DNN=== | ===DNN=== | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
===RNN=== | ===RNN=== | ||
*1700+776H LSTM_xent_iter03_910h 27.99 模型训练中 | *1700+776H LSTM_xent_iter03_910h 27.99 模型训练中 | ||
iter05_ | iter05_ | ||
四轮跑完; | 四轮跑完; | ||
+ | 没有进展,SGE故障,在恢复; | ||
*三轮中的一个模型,newschedule | *三轮中的一个模型,newschedule | ||
小LM1e-5(几M),比6000+H的DNN要好,好1个点; | 小LM1e-5(几M),比6000+H的DNN要好,好1个点; | ||
大LM,没有DNN的好; | 大LM,没有DNN的好; | ||
+ | |||
*MPE的问题:还没有解决 | *MPE的问题:还没有解决 | ||
第66行: | 第48行: | ||
</pre> | </pre> | ||
− | *代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest) | + | *代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);通用模型做的。 |
+ | 加多个Tag时,只有第一个Tag起作用,后面的没有起作用; | ||
+ | 只有biglm时存在问题; | ||
+ | |||
+ | 人名加重; | ||
+ | |||
+ | *脚本移到公司,在小米模型上进行训练; | ||
+ | 用PPL选词; | ||
+ | position,借用一个词的context,电影名->黑猫警长 | ||
+ | 最有效的position的词; | ||
+ | 7个position,选的词都加在这个7各position上; | ||
+ | |||
*13万词,加进去并不好;Tag还是需要筛查; | *13万词,加进去并不好;Tag还是需要筛查; | ||
*如果Tag中的词加入count,是否有效? | *如果Tag中的词加入count,是否有效? | ||
===月度语言模型更新=== | ===月度语言模型更新=== | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
*2015-8月,正在下载语料; | *2015-8月,正在下载语料; | ||
第90行: | 第71行: | ||
===小米项目=== | ===小米项目=== | ||
*TagModel: | *TagModel: | ||
− | + | Tag: | |
− | + | 句式补充:赵涛在做; | |
− | + | 词表整理:电影里面不是电影名的去掉;还没有做; | |
− | * | + | *小米线上模型:xiaomi_20150814 0.0175 |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
*多选 | *多选 | ||
− | 调试已差不多了,速度也不慢了; | + | 调试已差不多了,速度也不慢了; |
===勤威项目=== | ===勤威项目=== | ||
− | * | + | *发布了一个模型:数据62H台湾POI,在6776MPE3上增量;尚未得到用户反馈; |
− | + | ||
− | + | ===语音自适应=== | |
+ | 针对个人的 | ||
+ | 能提高2~3%(基数CER约10%) | ||
+ | 客户端提取ivector,传给服务器; | ||
+ | |||
==中文8K== | ==中文8K== | ||
*第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | *第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | ||
===并行训练=== | ===并行训练=== | ||
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; | 并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; | ||
− | 可以在多个GPU上跑了。2个GPU上比1个快1.6倍; | + | 可以在多个GPU上跑了。2个GPU上比1个快1.6倍; |
+ | <pre> | ||
+ | ------------------------------------------------------------------------------------------------- | ||
+ | | | FACC(tr, cv) | loss (tr, cv) | TIME | WER(test_2000ju)| WER_(test_8000ju)| | ||
+ | ------------------------------------------------------------------------------------------------- | ||
+ | | baseline | 56.89, 53.01 | 1.664, 1.911 | 50min * 16 | 35.29 | 20.37 | | ||
+ | ------------------------------------------------------------------------------------------------- | ||
+ | | 2-gpu-gap60 | 57.03, 53.16 | 1.653, 1.901 | 30min * 14 | 35.37 | 20.08 | | ||
+ | ------------------------------------------------------------------------------------------------- | ||
+ | </pre> | ||
===Darkknowledge=== | ===Darkknowledge=== | ||
第145行: | 第131行: | ||
</pre> | </pre> | ||
− | + | ===Data selection=== | |
<pre> | <pre> | ||
Acoustic-based selection: ubm-decoding done. | Acoustic-based selection: ubm-decoding done. | ||
第164行: | 第150行: | ||
CNN:15.37;梦原给了一个模型,公司这边还没有测试; | CNN:15.37;梦原给了一个模型,公司这边还没有测试; | ||
引擎模型的打包工具需要修改,还没有修改;" | 引擎模型的打包工具需要修改,还没有修改;" | ||
+ | |||
+ | 目标有变化:坐席90%;客户:80%;原来是平均85%; | ||
+ | 一个声学模型,两个语言模型,同时计算; | ||
+ | 文本的自动分类: | ||
+ | 双声道数据:? | ||
+ | 按照语音片段,重新进行话者聚类;再做角色判定,完成文本分类,进行模型训练; | ||
===RNN=== | ===RNN=== | ||
700H LSTM_new-sched_4400h 17.39 训练中 | 700H LSTM_new-sched_4400h 17.39 训练中 | ||
− | == | + | ==中英混识== |
*第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%; | *第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%; | ||
===8K=== | ===8K=== | ||
第183行: | 第175行: | ||
已跑6轮:中文:17.30 英文:38.16" | 已跑6轮:中文:17.30 英文:38.16" | ||
− | == | + | ==中文16K远场== |
*第三季度目标 2米有效角度内,WER:>88% | *第三季度目标 2米有效角度内,WER:>88% | ||
===山东共达=== | ===山东共达=== | ||
− | + | 鲁磊提供了远场声音增强的工具; | |
− | + | 准备用近场声音处理后,进行一个模型的训练; | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
===科声讯的方案=== | ===科声讯的方案=== | ||
第201行: | 第189行: | ||
已训练完成 130H | 已训练完成 130H | ||
===语言模型=== | ===语言模型=== | ||
− | + | 下载语料,训练模型,PPL:1000+ | |
− | + | 16K模型:字错误率21.78 | |
− | + | ||
− | + | ||
==粤语8K== | ==粤语8K== | ||
第211行: | 第197行: | ||
*需要标注语料,正在招标注员、验收员,进行招聘;" | *需要标注语料,正在招标注员、验收员,进行招聘;" | ||
*语言模型 "语言模型训练完了,测试结果: | *语言模型 "语言模型训练完了,测试结果: | ||
− | |||
8k模型:字错误率22.0 | 8k模型:字错误率22.0 | ||
测试集采用的是海天润声给的样本数据,从16k转8k。" | 测试集采用的是海天润声给的样本数据,从16k转8k。" | ||
− | 维语16K | + | |
+ | 用实际语料标注的8K测试,CER:88%; | ||
+ | 声学和语言模型,均不匹配; | ||
+ | |||
+ | ==维语16K== | ||
+ | WER:85% | ||
==维语8K== | ==维语8K== | ||
*第三季度目标 目前不支持,目标:支持,WER:>65% | *第三季度目标 目前不支持,目标:支持,WER:>65% | ||
===声学模型=== | ===声学模型=== | ||
− | 已训练35小时;借用梦原的模型;用16K的lm | + | 已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右; |
===语言模型=== | ===语言模型=== | ||
和新疆大学调试:公司Word;实验室 | 和新疆大学调试:公司Word;实验室 | ||
35H标注文本数据已提供实验室处理; | 35H标注文本数据已提供实验室处理; | ||
− | toolkit做完了,维语句子转成monphone串; | + | toolkit做完了,维语句子转成monphone串; |
− | == | + | word比monphone好; |
+ | 42.5% 44% | ||
+ | |||
+ | ==其他语种== | ||
+ | 蒙语 | ||
+ | 藏语 | ||
+ | 哈语 | ||
+ | 朝鲜语 | ||
+ | 彝族语 | ||
+ | ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; | ||
+ | 翻译局:朗读 | ||
+ | |||
+ | ==情感识别== | ||
*第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%; | *第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%; | ||
第237行: | 第239行: | ||
*第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行 | *第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行 | ||
===DNN端点检测=== | ===DNN端点检测=== | ||
− | * | + | *端点检测模型:4*400+500,MPE1: |
− | + | ||
<pre> | <pre> | ||
− | 引擎版本 字错误率 | + | 1、字正确率 |
− | + | 引擎版本 字错误率 总数 错误 警告 缺失 | |
− | r946 cer:0. | + | r925 cer:0.229239308333; allcount:28106; subcount:1757; addcount:889; errcount:3797; |
− | + | r946; cer:0.23354443891; allcount:28106; subcount:1860; addcount:881; errcount:3823; | |
− | 引擎版本 | + | 2、话者分离效果 |
− | + | 引擎版本 时长 正确率 错误 警告 缺失 | |
− | r946 all total: | + | r925 all total:3429752.000000 correct:0.824830 err:0.051051 alarm:0.104936 miss:0.019183 |
+ | r946 all total:3423533.000000 correct:0.810460 err:0.052723 alarm:0.103310 miss:0.033507 | ||
+ | 3、实时率: | ||
+ | 本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283 | ||
</pre> | </pre> | ||
+ | *聚类存在BUG,需要解决; | ||
+ | *角色判定错误,需要定位问题; | ||
==声纹识别== | ==声纹识别== | ||
第255行: | 第261行: | ||
*聚类分类算法 基于Affinity距离的算法研究 | *聚类分类算法 基于Affinity距离的算法研究 | ||
*D-Vector | *D-Vector | ||
+ | *短语音的识别: |
2015年8月25日 (二) 07:43的最后版本
目录
数据
- 第三季度目标
语音数据
- 数字串
电话录音
- 16K 灵云数据
202H 一直在标注中 平衡?按照数据来源:输入法、导航
- 8K
按照项目走,平安标注了100小时多,开始训练;(一共700+100);
- 粤语标注了一个测试集,测试CER:88%;
已传到平台,等待标注;招聘标注员;
文本数据
- 粤语文本
洗出来是400+M;已训练模型,CER:22%
2 中文16K
- 第三季度目标 当前WER:93.5% 目标WER:>94.5%
DNN
RNN
- 1700+776H LSTM_xent_iter03_910h 27.99 模型训练中
iter05_ 四轮跑完; 没有进展,SGE故障,在恢复;
- 三轮中的一个模型,newschedule
小LM1e-5(几M),比6000+H的DNN要好,好1个点; 大LM,没有DNN的好;
- MPE的问题:还没有解决
TagModel
- 实验室解决技术问题,还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来;
- lm中加重;
- tag,在lm中有的去掉;选择词替换,test数据到lm中试;
- 后处理:替换;
- video Tag,不能加太多;不是Name的去掉;清理Video;
- 梦原:有问题的加入Tag,验证是否有效?
- 晓明:指导数据加工,过滤出有效的数据;
1. 没必要调参数,word vector选词;纠错不行;similary pair; 宁可:纠错词典,下周1之前会有一个简单能用的版本; 2. 分类:word vector 人名 电视剧名 电影名; 宁可去掉,不能错放; 重名?
- 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);通用模型做的。
加多个Tag时,只有第一个Tag起作用,后面的没有起作用; 只有biglm时存在问题;
人名加重;
- 脚本移到公司,在小米模型上进行训练;
用PPL选词; position,借用一个词的context,电影名->黑猫警长 最有效的position的词; 7个position,选的词都加在这个7各position上;
- 13万词,加进去并不好;Tag还是需要筛查;
- 如果Tag中的词加入count,是否有效?
月度语言模型更新
- 2015-8月,正在下载语料;
领域语言模型
领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?
小米项目
- TagModel:
Tag: 句式补充:赵涛在做; 词表整理:电影里面不是电影名的去掉;还没有做;
- 小米线上模型:xiaomi_20150814 0.0175
- 多选
调试已差不多了,速度也不慢了;
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;尚未得到用户反馈;
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
中文8K
- 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)
并行训练
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持; 可以在多个GPU上跑了。2个GPU上比1个快1.6倍;
------------------------------------------------------------------------------------------------- | | FACC(tr, cv) | loss (tr, cv) | TIME | WER(test_2000ju)| WER_(test_8000ju)| ------------------------------------------------------------------------------------------------- | baseline | 56.89, 53.01 | 1.664, 1.911 | 50min * 16 | 35.29 | 20.37 | ------------------------------------------------------------------------------------------------- | 2-gpu-gap60 | 57.03, 53.16 | 1.653, 1.901 | 30min * 14 | 35.37 | 20.08 | -------------------------------------------------------------------------------------------------
Darkknowledge
- 三种方法
未标注:soft 已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。 mix训练:未标注+已标注
- 辽宁移动:
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练, Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差; 分析:应该没有太大的增长,对100小时以内的数据,比较显著; 有时间再查具体原因;已基本达标,优先级降低;
- Ensemble training
13 model ensemble training: 30.81% 解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器; 准备训练:分领域,分省; 8K24省的数据,一共500+,每省20小时左右; 列出数据的编码类型;晓明找一下思思给出; 训练方法:DNN的标准训练方法; 数据标注抽检合格率85%; 优先级低,先搁置,等GPU
Data selection
Acoustic-based selection: ubm-decoding done. Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; 脚本还没有再修改;
滴滴项目
声学模型训练:270H的增量训练,大概12日能出来; 语言模型训练:标注语料,ppl:69;识别率:84% 引擎修改多选输出: 语言声学都优化:ppl:67 识别率84.6%
平安项目
DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;梦原给了一个模型,公司这边还没有测试; 引擎模型的打包工具需要修改,还没有修改;"
目标有变化:坐席90%;客户:80%;原来是平均85%; 一个声学模型,两个语言模型,同时计算; 文本的自动分类: 双声道数据:? 按照语音片段,重新进行话者聚类;再做角色判定,完成文本分类,进行模型训练;
RNN
700H LSTM_new-sched_4400h 17.39 训练中
中英混识
- 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;
8K
- RNN 1400+100H
DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 基本已收敛:17.17% 英文 48.46%
LSTM_xent_iter08_1270h 中文:17.49 英文:48.06
- RNN 1400+300H
DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30 英文:38.16"
中文16K远场
- 第三季度目标 2米有效角度内,WER:>88%
山东共达
鲁磊提供了远场声音增强的工具; 准备用近场声音处理后,进行一个模型的训练;
科声讯的方案
远场处理方案;Mic芯片;
粤语16K
- 第三季度目标 目前不支持,目标:支持,WER:>80%
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
- 目标 WER:>65%
声学模型
- 需要标注语料,正在招标注员、验收员,进行招聘;"
- 语言模型 "语言模型训练完了,测试结果:
8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"
用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;
维语16K
WER:85%
维语8K
- 第三季度目标 目前不支持,目标:支持,WER:>65%
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
word比monphone好; 42.5% 44%
其他语种
蒙语 藏语 哈语 朝鲜语 彝族语 ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; 翻译局:朗读
情感识别
- 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;
OpenEar产品化
待引擎产品化;
8K模型训练
开发完引擎,选取语料,进行标注;
话者分离
- 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
DNN端点检测
- 端点检测模型:4*400+500,MPE1:
1、字正确率 引擎版本 字错误率 总数 错误 警告 缺失 r925 cer:0.229239308333; allcount:28106; subcount:1757; addcount:889; errcount:3797; r946; cer:0.23354443891; allcount:28106; subcount:1860; addcount:881; errcount:3823; 2、话者分离效果 引擎版本 时长 正确率 错误 警告 缺失 r925 all total:3429752.000000 correct:0.824830 err:0.051051 alarm:0.104936 miss:0.019183 r946 all total:3423533.000000 correct:0.810460 err:0.052723 alarm:0.103310 miss:0.033507 3、实时率: 本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283
- 聚类存在BUG,需要解决;
- 角色判定错误,需要定位问题;
声纹识别
- 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector
- 短语音的识别: