“Sinovoice-2015-11-25”版本间的差异
(相同用户的3个中间修订版本未显示) | |||
第8行: | 第8行: | ||
*粤语标注了一个测试集,增量9小时,CER:54%;30h,50% | *粤语标注了一个测试集,增量9小时,CER:54%;30h,50% | ||
− | + | 60h trained. no tag text to lm, CER 45% | |
+ | discard english text; | ||
+ | 已完成80小时。 | ||
*维语 | *维语 | ||
− | + | 已完成120小时;last train 50h; | |
===大模型=== | ===大模型=== | ||
第26行: | 第28行: | ||
分了200份 | 分了200份 | ||
大模型的MPE | 大模型的MPE | ||
+ | |||
+ | <pre> | ||
+ | Nnet3 training on LARGE DATA: | ||
+ | |||
+ | 8k: | ||
+ | Dataset = 4200h, LM = 1e-8, beam = 9 | ||
+ | Baseline is pure-CN model, nnet3 models are multi-lingual models. | ||
+ | nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%. | ||
+ | ------------------------------------------------------------------------------------------------------------------------- | ||
+ | AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe | | ||
+ | ------------------------------------------------------------------------------------------------------------------------- | ||
+ | Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 | | ||
+ | Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 | | ||
+ | ------------------------------------------------------------------------------------------------------------------------- | ||
+ | nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 | | ||
+ | ------------------------------------------------------------------------------------------------------------------------- | ||
+ | nnet3_7*2048 | 20.18 | 25.35 | 23.40 | 21.55 | 23.22 | 14.77 | | ||
+ | ------------------------------------------------------------------------------------------------------------------------- | ||
+ | |||
+ | rt: | ||
+ | beam9: beam13: | ||
+ | nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212) | ||
+ | nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92) | ||
+ | nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92) | ||
+ | |||
+ | |||
+ | 16k: | ||
+ | LM = 1e-7, beam = 13 | ||
+ | Baseline is 6000h+776h mpe model. | ||
+ | nnet3 model is trained by 1700h+776h data. | ||
+ | The training nnet3 training is unfinished, the training process is about 75%. | ||
+ | -------------------------------------------------------------------------- | ||
+ | AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju | | ||
+ | -------------------------------------------------------------------------- | ||
+ | 6776h_mpe(baseline)| 10.05 | 21.16 | | ||
+ | -------------------------------------------------------------------------- | ||
+ | nnet3_6*2000 | 9.56 | 20.85 | | ||
+ | -------------------------------------------------------------------------- | ||
+ | |||
+ | rt: | ||
+ | beam13: | ||
+ | nnet1_4*1200+6761: 0.6-0.7 (train212) | ||
+ | nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue) | ||
+ | </pre> | ||
2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音 | 2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音 | ||
第39行: | 第85行: | ||
DarkKnowledge先不训练。 | DarkKnowledge先不训练。 | ||
10000从头训练,nnet3 rectifier 4层600*800 | 10000从头训练,nnet3 rectifier 4层600*800 | ||
+ | |||
+ | 小模型测试,cer20+; | ||
+ | bigLM的生成还有问题! | ||
===TagModel=== | ===TagModel=== | ||
第47行: | 第96行: | ||
词的长度不多,加到lm中,当做新词,lm的state就不merge; | 词的长度不多,加到lm中,当做新词,lm的state就不merge; | ||
*加重path或词边:组合词,lm中加重; 晓明、小韩 | *加重path或词边:组合词,lm中加重; 晓明、小韩 | ||
+ | 测试加重“xx导演的巩俐演的”待测试。 | ||
如果加很多新词,需要找到合适的Context。 之勇、晓明 | 如果加很多新词,需要找到合适的Context。 之勇、晓明 | ||
张艺谋:替换姜文合适,但是替换屠呦呦不合适。 | 张艺谋:替换姜文合适,但是替换屠呦呦不合适。 | ||
− | *WordVector?基于词向量的新词加重。 | + | *WordVector?基于词向量的新词加重。 会训练WordVector,但是没有加入模型。 |
+ | 每个词的权重不一样(distance)。 | ||
计算PPL的,如果太低的词,就不要加了。 | 计算PPL的,如果太低的词,就不要加了。 | ||
加重点词和关注的词。老词(词表中已有的)加重; | 加重点词和关注的词。老词(词表中已有的)加重; | ||
第98行: | 第149行: | ||
目前需要解决的:大约1个月,上线约需要3个月; | 目前需要解决的:大约1个月,上线约需要3个月; | ||
并行:解决了慢的问题,多分了几个流;CTC到Kaldi的Net3 | 并行:解决了慢的问题,多分了几个流;CTC到Kaldi的Net3 | ||
− | CDphone | + | CDphone : 搞定,效果还在验证中 h1clg |
CTC Kaldi版本 | CTC Kaldi版本 | ||
96,实验室;92 8核GPU 16K,215 8K; | 96,实验室;92 8核GPU 16K,215 8K; | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==粤语16K== | ==粤语16K== | ||
第166行: | 第191行: | ||
16K的找到一个1200人的数据,从中挑选; | 16K的找到一个1200人的数据,从中挑选; | ||
8K的采购;但是音量小,是否会有影响? | 8K的采购;但是音量小,是否会有影响? | ||
+ | |||
+ | 考勤系统,mic指定; | ||
+ | 定制背景模型; | ||
+ | |||
+ | 加入情绪,场景的分析,分类的分析; | ||
+ | |||
+ | 将测试数据加入训练,看是否有提高? | ||
使用条件的问题: | 使用条件的问题: | ||
第175行: | 第207行: | ||
Mic信道 | Mic信道 | ||
背景噪音 | 背景噪音 | ||
+ | |||
+ | 端点检测,信噪比计算; | ||
+ | 发音方式:坐着、站着 | ||
PLDA adaptation | PLDA adaptation |
2015年11月25日 (三) 08:08的最后版本
目录
数据
- 第三季度目标
语音数据
- 16K 灵云数据
10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;
- 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%
60h trained. no tag text to lm, CER 45% discard english text; 已完成80小时。
- 维语
已完成120小时;last train 50h;
大模型
1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文
数据已处理完,提参数中;DNN 92上跑; pdf:10000 8000中文 2000英文 GMM 有卡的问题,卡在IO,100线 SCP,ark文件,按照机器号命名,分到不同的机器,本地读取;
选:Rectifier BigAM
分了200份 大模型的MPE
Nnet3 training on LARGE DATA: 8k: Dataset = 4200h, LM = 1e-8, beam = 9 Baseline is pure-CN model, nnet3 models are multi-lingual models. nnet3 4*1200 is final model, while nnet3 7*2048 training is unfinished, the training process is about 40%. ------------------------------------------------------------------------------------------------------------------------- AM / test | test_JS | test_Shanxi | test_Shaanxi | test_Unknown | test_BJYD | test_huaweiFuCe | ------------------------------------------------------------------------------------------------------------------------- Baseline_xEnt| 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 | Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 | ------------------------------------------------------------------------------------------------------------------------- nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 | ------------------------------------------------------------------------------------------------------------------------- nnet3_7*2048 | 20.18 | 25.35 | 23.40 | 21.55 | 23.22 | 14.77 | ------------------------------------------------------------------------------------------------------------------------- rt: beam9: beam13: nnet1_4*1200+7934: 0.45 (train212) nnet1_4*1200+7934: 1.2 (train212) nnet3_4*1200+8393: 0.35 (train92) nnet3_4*1200+8393: 0.9 (train92) nnet3_7*2048+8393: 0.8 (train92) nnet3_7*2048+8393: 1.2 (train92) 16k: LM = 1e-7, beam = 13 Baseline is 6000h+776h mpe model. nnet3 model is trained by 1700h+776h data. The training nnet3 training is unfinished, the training process is about 75%. -------------------------------------------------------------------------- AM / test | 1000ju_from_test_8000ju | 2000ju_from_test_10000ju | -------------------------------------------------------------------------- 6776h_mpe(baseline)| 10.05 | 21.16 | -------------------------------------------------------------------------- nnet3_6*2000 | 9.56 | 20.85 | -------------------------------------------------------------------------- rt: beam13: nnet1_4*1200+6761: 0.6-0.7 (train212) nnet3_6*2000+6761: 0.7-0.8 (train212) 0.9-1.0 (queue)
2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音
华为V3信道压缩:4000小时,GMM 2天,过了10遍;网络结构, 分成了100份 识别率下降:下降1-2个点;网络结构增大;
嵌入式
DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; rectifier 4层600*800 DarkKnowledge先不训练。 10000从头训练,nnet3 rectifier 4层600*800
小模型测试,cer20+; bigLM的生成还有问题!
TagModel
Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径走完,但是也错了,需要查一下 晓明 count:只留两个,不分词,merge可能首外面影响;
count和分词有关:lm中词重了; 词的长度不多,加到lm中,当做新词,lm的state就不merge; *加重path或词边:组合词,lm中加重; 晓明、小韩 测试加重“xx导演的巩俐演的”待测试。
如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。
*WordVector?基于词向量的新词加重。 会训练WordVector,但是没有加入模型。 每个词的权重不一样(distance)。 计算PPL的,如果太低的词,就不要加了。 加重点词和关注的词。老词(词表中已有的)加重;
语料中超过5词,就可以使用。
拼语料和Tag的效果验证比较 晓明
做了几个试验: 1)加几百个词,两个的效果基本一致; 2)加1万、2万、10万个词识别率差不多;10万拼语料太大,没有做出来;Tag比拼语料差3个点;
小米的测试结果: LM和TagModel的合并fst, union,不是compose。 晓明 测试集:句式在Tag中
- 识别后处理
已知道这个词错了,可以处理。不知时,还需要处理?
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;
省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
RNN
LSTM不稳定,和End-to-End Merge,
- End-to-End算法,描述上下文不强,将stat去掉;
On 1400h Chinese data, raid96. 已找到MPE的训练方法,正在训练; MPE有个初步结果,提高0.4个点; MPE的方法是否正确?效果没有Context的好;快了,但是效果不太好; 没有状态;
CTC 单因子,context dependent to independe End-to-End = CTC + CIphone End-to-End + MPE已做完
单机完成;
一个月完成大模型的训练;
目前需要解决的:大约1个月,上线约需要3个月; 并行:解决了慢的问题,多分了几个流;CTC到Kaldi的Net3 CDphone : 搞定,效果还在验证中 h1clg
CTC Kaldi版本
96,实验室;92 8核GPU 16K,215 8K;
粤语16K
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
60小时的,和30小时的(CER45%),没有变化,好了一点点; CER:44%; 只训练最后一层,华为信道;只训练了声学,语言没有更新; 查错,找原因;语言模型训练;
维语8K
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925
导出64小时,声学和语言模型进行优化。
声纹识别
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector
- 短语音的识别:
数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?
考勤系统,mic指定; 定制背景模型;
加入情绪,场景的分析,分类的分析;
将测试数据加入训练,看是否有提高?
使用条件的问题:
音量的影响? 背景噪音:如大厅中,人声噪杂的影响?
信道适应? 端点检测 Mic信道 背景噪音
端点检测,信噪比计算; 发音方式:坐着、站着
PLDA adaptation