Sinovoice-2016-1-06

数据

第三季度目标

语音数据

16K 灵云数据

10000小时实际语料的标注目标，已立项400小时的标注；语料从1000小时中，通过ASR打分，取出中间的400小时；

粤语标注了一个测试集，增量9小时，CER：54%；30h,50%

60h trained. no tag text to lm, CER 45% discard english text;

维语

已完成120小时；last train 50h; 16K标注，灵云，180小时，收集验收；

大模型

1）16K10000小时的跑一个DNN训练，加深加宽：7层2400x10000 rectifier 保留英文

  数据已处理完，提参数中；DNN 92上跑；
  pdf：10000 8000中文 2000英文
  训练第七轮；cer9.20； 900mdl/3500

  拷贝一份，启动8个job；
  原来的继续；进行MPE；
  生成lattice，还没有开始跑；

MPE的训练:

生成lattice

2）8K 领域模型，领域通用：设备 7层TDNN2048x10000,含有英文信道、口音

  华为V3信道压缩：4000小时，GMM
  分成了100份
  识别率下降：下降1-2个点；网络结构增大；
  MPE今天跑起来一个；用Context有问题的脚本先跑起来；

  生成lattice已完成；
  aliment，MPE中间会输出模型，测试识别率；6台机器；
  4天一个Model；

MPE训练

 AM / test       |   test_JS   |  test_Shanxi  |  test_Shaanxi  |  test_Unknown  |  test_BJYD  |  test_huaweiFuCe  |

Baseline_xEnt | 19.90 | 26.90 | 25.43 | 24.13 | 26.89 | 16.15 | Baseline_MPE | 18.39 | 23.97 | 22.82 | 21.35 | 24.53 | 14.22 |

nnet3_4*1200 | 22.44 | 28.31 | 26.59 | 25.10 | 26.57 | 18.93 |

nnet3_7*2048 | 20.06 | 24.86 | 23.08 | 21.33 | 22.40 | 14.61 |

nnet3_7*2048_mpe1 | 16.84 | 21.68 | 20.43 | 20.33 | 21.85 | 13.37 | nnet3_7*2048_mpe5 | 16.67 | 21.65 | 20.52 | 19.94 | 21.77 | 12.66 | nnet3_7*2048_mpe12| 17.75 | 23.79 | 22.06 | 20.18 | 25.16 | 12.77 |

嵌入式

  DarkKnowledge训练； 小网络学习大网络，学的会更准，目标函数会更平滑一些；
  rectifier
  4层600*800
  DarkKnowledge先不训练。
  10000从头训练，nnet3 rectifier 4层600*800
  
  小模型测试，cer20+；
  bigLM的生成还有问题！

  深度的影响更大，宽度相对较小；
  sigmod，改为rectifier

  MPE Contect(6)跑一个；xEnt Contect(-3 -2 -1 0 1 2 3)+MPE；
  Darkknowledge一个；4*600*800 Nnet3的训练脚本；
  5*600*800加深一层跑一个；

  生成lattice，训练MPE，转格式专用空间太大，修改脚本，降低存储空间；
  变差：从27变为30；
  分100分，内部random；

  MPE重新训练：
  global shuffle：重新分组；
  external lattice，加速，为MPE准备
  每天晚上之前跑起来；

  解码效率：
  NNet3的产品化

TagModel

加重path或词边：组合词，lm中加重；晓明、小韩

  Path加重，修改fst；
  测试加重“xx导演的巩俐演的”；
  Word Vector：分堆 加词表的15万；

识别后处理

已知道这个词错了，可以处理。不知时，还需要处理？

  人名识别不好，lm，人名的单字path加重？？？

勤威项目

发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；

省市路，分词，句式：tag的方法来做。晓明需要测试集，数据中心14日标完。

语音自适应

针对个人的能提高2~3%(基数CER约10%) 客户端提取ivector，传给服务器；

RNN

LSTM不稳定，和End-to-End Merge，

End-to-End算法，描述上下文不强，将stat去掉；

100小时验证和预期的差不多，但是大数据和大的LM上，还需要验证。 CTC Kaldi版本，并行的算法完成，在1400h上跑并行。小汤，目前已超过DNN，MPE：NET3已跑起来。 LSTM

训练数据的并行读取问题？Hadoop？分布式磁盘？特征+lattice

96，实验室；92 8核GPU 16K，215 8K；

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料，训练模型，PPL：1000+ 16K模型：字错误率21.78

粤语8K

69小时的（CER28%） FreeTalk 90小时的（CER27.5%）质检之前测试集有问题字面和英文加入，测试集有，训练现在没有；粤语只训练最后一层；90小时单独训练模型的最后一层加到1400的最后一层； LM差的比较远；英文单词还没有加（英文的标音：用粤语的音素标）；粤英文的模型，需要训练；

维语8K

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型： model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

声纹识别

数字串模型训练正在采集数字串语音数据，预期本月内完成；
聚类分类算法基于Affinity距离的算法研究
D-Vector
短语音的识别：

数字模型：单独训练，ivector和plda需要用数字需要训练。之前录得语料，独立人只有100人； 16K的找到一个1200人的数据，从中挑选； 8K的采购；但是音量小，是否会有影响?

8个Phone和1个Tele的录音模型已训练完，尚未测试完成；

测试集                    iv200_digital_8p1t_vox_8k_new_model       iv200_digital_mobile_tele_vox_8k
20_people_same_device1       1.28205%, at threshold 0.541794            1.28205%, at threshold 0.468932
20_people_same_device2       1.25%, at threshold 0.564912                0%, at threshold 0.561153
20_people_same_device3       2.5%, at threshold 0.562019                 1.25%, at threshold 0.565247
20_people_same_device4       1.25%, at threshold 0.632257                1.25%, at threshold 0.67539
20_people_diff_device        11.5044%, at threshold 0.412102             15.0442%, at threshold 0.191909

手机和固定电话，需要分开测试； ubm256，需要加大；组织一下数据，跑D-vector实验；

考勤系统，mic指定；定制背景模型；

加入情绪，场景的分析，分类的分析；

将测试数据加入训练，看是否有提高？

使用条件的问题：

 音量的影响？
 背景噪音：如大厅中，人声噪杂的影响？

信道适应？端点检测 Mic信道背景噪音

端点检测，信噪比计算；发音方式：坐着、站着

PLDA adaptation

Sinovoice-2016-1-06

目录

数据

语音数据

大模型

嵌入式

TagModel

勤威项目

语音自适应

RNN

粤语16K

声学模型

语言模型

粤语8K

维语8K

声学模型

语言模型

声纹识别

导航菜单

个人工具

名字空间

变种

查看

操作

搜索

导航

工具