“Sinovoice-2015-09-08”版本间的差异

2015年9月8日 (二) 07:06的版本

数据

第三季度目标

语音数据

数字字母串

电话录音,已录音完毕，已完成1500句校对，还有5500句尚未校对完毕；

16K 灵云数据

正在标注输入法数据，除了地点的都标注；每周能够标注50H；

8K

平安：已标注895小时，未再标注；英大：已标注80小时，还有20小时，在继续，优先级低于无锡；无锡地税：目标50小时，已标注30小时；滴滴：已提供404，清洗后训练358小时；已标注共计550小时，正在导出，导出的数据有问题；在继续标注，现有已切语料，预计能标注600小时；

粤语标注了一个测试集，测试CER:88%；

兼职有一些，验收一人；在开展培训，计划10月18日标注100小时；合格0.2小时；20个人标注；1个人验收；

维语

已标注完成54.05小时，提供训练; 还有10小时成品，尚未导出，等下次训练时导出；又传上了一批开始标注；

文本数据

香港文本

在继续下载；需要主要下载新闻网站，之前理发店的就下了40G；共10G清理出400M；

台湾文本

在继续下载；

2 中文16K

第三季度目标当前WER:93.5% 目标WER:>94.5%

DNN

RNN

1700+776H

baseline 6776 dnn mpe 27.89 LSTM_xent_iter03_910h 27.99 模型训练中六轮结束：26.06 slm解码（blm 19.x,解码变差，可选路径比较多）相对与baseline:18.x 七轮进行中：测试集从1000句中挑的；

newschedule结论：速度快，但是效果会差些；

MPE的问题：

发现NAN，赋给一个0； NAN错误，根本原因还没有解决

TagModel

代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；通用模型做的。

加多个Tag时，只有第一个Tag起作用，后面的没有起作用； gmerge，小韩测试，可以出多个，梦原需要核对一下脚本；只有biglm时存在问题；

Tag方法要解决的问题：语言模型没有覆盖到；新的电影名称，人名；将新的人名或电影名称加进去；老的，如巩俐等，使用加重，weight是手工选的，不是统计的；

期望解决语料不足的问题，但是只能缓解，不能指望有太大的提高；

TagModel名词： Tag position 词表大小 Tag：人名电影名 ... Position：借用语言模型中词；词表大小：每个Tag中的词汇量；

原则： LM能解决的，就不要用Tag； Tag的词表尽量小； Position的选择：从发音词典中的词，计算PPL，排序，根据Tag的类型，找PPL最小的词，这些词作为Tag的Position；

问题是：都已解决添加一个Tag，小词表范围上是可以的；验证是一致的，添加更多词条，100和10万，结果差不多；Tag的weight值，-1到-5；添加多个Tag，目前小韩测试可以，梦原这有问题，之前马习应该已解决，需要对以下脚本；也已解决：fst上的标号乱了；

识别偏差大：舒淇；黄渤，韩国； G_merge，句式模型，有死循环；

先做一个测试集，最新的电影名：统计Count；几个Tag（尽可能少）：人名？电影名，电视剧？需要调整weight；训练Tag模型测试；

LM和句式的Merge的实验？

振龙测试：小米1.75模型，random语料；在这个上加tag，按照梦原的方法；选10个词，和梦原的一样；加Tag，10万级；但是识别结果比较离谱；

遗留：根据句式，fst的compose，找到唯一路径，选择position；在句式模型上，直接进行Tag处理；

如果Tag中的词加入count，是否有效？

月度语言模型更新

2015-9月,语料下载；

领域语言模型

领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？

小米项目

TagModel:

Tag：句式补充：赵涛在做；词表整理：电影里面不是电影名的去掉；还没有做；

小米线上模型：xiaomi_20150814 0.0175

多选

调试已差不多了，速度也不慢了；

速度慢

灵云SDK在查；

勤威项目

发布了一个模型：数据62H台湾POI，在6776MPE3上增量；尚未得到用户反馈；

语音自适应

针对个人的能提高2~3%(基数CER约10%) 客户端提取ivector，传给服务器；

中文8K

第三季度目标当前WER:75%；目标WER:>78% (相对下降10%)

并行训练

训练机更换第四块GPU卡？启动1400H的8K,DNN,大约1.6倍，正确率基本一样，没有下降； RNN的还不支持；

Darkknowledge

三种方法

未标注：soft
已标注：soft + hard label，diff加权和 实验室是：加权比只有hard会好些。
mix训练：未标注+已标注

辽宁移动:

400h dark knowledge xEnt + MPE， 有标注和无标注的一起训练，
Mix训练方法：400h迭代优化，加500小时未标注，晓明已训练完，小韩测试效果变差；
分析：应该没有太大的增长，对100小时以内的数据，比较显著；
有时间再查具体原因；已基本达标，优先级降低；

Ensemble training

13 model ensemble training: 30.81%
解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；
准备训练：分领域，分省；
8K24省的数据，一共500+,每省20小时左右；
列出数据的编码类型；晓明找一下思思给出；
训练方法：DNN的标准训练方法；
数据标注抽检合格率85%；
优先级低，先搁置，等GPU

Data selection

	
Acoustic-based selection: ubm-decoding done. 
Phonetic-based selection: decoding done.
没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；
脚本还没有再修改；

滴滴项目

引擎修改多选输出； HCLG的可以了；CLG的还没有修改；

使用358H语料训练： PPL：66 CER：0.15073

准备：增加标注数据，整理数据，在迭代训训练；

平安项目

DNN_xent：1400H + 700H 18.16 DNN_mpe：1400H + 700H 16.87 CNN：15.37；引擎模型的打包工具已修改完，引擎提交测试；

目标有变化：坐席90%；客户：80%；原来是平均85%；一个声学模型，两个语言模型，同时计算；文本的自动分类：

声学模型895H，开始训练；从头开始训练，已训练完成DNN的MPE，准备再迭代一次MPE；语言模型，需要话者分离，进行分类模型训练：正在做工具；

RNN

700H LSTM_new-sched_4400h 17.39 训练中，平安的数据已训练完：17.13； MPE的问题已解决，已启动训练；平安的数据，如果超过CNN的15.37，则可以商用；CNN MPE有迭代一次，没有明显提升；

训练算法

梯度算法改进：

共有5个，clean数据训练，noise数据测试好；noise训练，noise数据测试，不如baseline不好；

batch normalization：

对隐藏输出，进行线性变换，再解码；效果是clean好，但是noise不好；

phone级识别算法

还在跑；需要接近Baseline，现在差10~20%；

中英混识

第三季度目标支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；

8K

RNN 1400+100H

DNN_xent 中文：20.83 英文：57.50 DNN_xent_ft4200h-hl3 中文：19.52 英文：57.20 LSTM_xent_iter08_1270h 中文：17.49 英文：48.06 基本已收敛：17.17% 英文 48.46% MPE训练已启动；

RNN 1400+300H

DNN_xent_ft4200h-hl3 中文：20.56 英文：39.75 LSTM_xent_iter04_1340h 中文：18.93 英文：40.08 训练中已跑6轮：中文：17.30；英文：38.16 第8轮：中文：17.91；英文：38.69 第9轮：中文：17.82；英文：36.38 Decision Tree Balance;

中文16K远场

第三季度目标 2米有效角度内，WER:>88%

山东共达

鲁磊提供了远场声音增强的工具；准备用近场声音处理后，进行一个模型的训练；

在使用232小时做实验；已训练完毕，测试集没有没有做增强，测试不好；测试集是用共达芯片录制的，没有增强，正在查问题；

科声讯的方案

远场处理方案；Mic芯片；芯片已到，先用已有的近场模型测试；

粤语16K

第三季度目标目前不支持，目标：支持，WER:>80%

声学模型

已训练完成 130H

语言模型

下载语料，训练模型，PPL：1000+ 16K模型：字错误率21.78

粤语8K

目标 WER:>65%

声学模型

需要标注语料，正在招标注员、验收员，进行招聘；"
语言模型 "语言模型训练完了，测试结果：

8k模型：字错误率22.0 测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；声学和语言模型，均不匹配；

维语16K

WER:85%

维语8K

第三季度目标目前不支持，目标：支持，WER:>65%

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；

word模型：3G+原Word+35H语料 4元 monphone模型： 4元老的模型：word 3元，monphone 4元；需要验证元数的影响：将monphone裁剪为3元；

word比monphone好，都是35小时的文本，4元； 42.5% 44% 请米吉提老师查一下monphone的分词是否正确？

分词有问题？

实验结论： 3元的monphone比word好2个点；

发布了一个维语模型，需要识别标注语料，发布的是word模型： model_35h_20150828 CER:0.419693683925

其他语种

蒙语藏语哈语朝鲜语彝族语 ASR和TTS，技术方案：客户提供数据，能否和学校合作：需要懂语言的人来处理数据；翻译局：朗读

情感识别

第三季度目标目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化；

8K模型训练

开发完引擎，选取语料，进行标注；

话者分离

第三季度目标目前：正确率82%；目标：暂无计划，结合项目进行

DNN端点检测

端点检测模型：4*400+500，MPE1�

@@ 第3行： / 第3行： @@
 ===语音数据===
 *数字字母串
-电话录音,已录音完毕，7000句尚未校对完毕；
+电话录音,已录音完毕，已完成1500句校对，还有5500句尚未校对完毕；
 *16K 灵云数据
@@ 第11行： / 第11行： @@
 *8K
 平安：已标注895小时，未再标注；
-英大：已标注50小时，还有50小时，在继续，优先级低于无锡；
+英大：已标注80小时，还有20小时，在继续，优先级低于无锡；
-无锡地税：目标50小时，验收合格3小时；
+无锡地税：目标50小时，已标注30小时；
-滴滴：已提供404，清洗后训练358小时；已标注共计520小时，尚未提供训练；在继续标注，现有已切语料，预计能标注600小时；
+滴滴：已提供404，清洗后训练358小时；已标注共计550小时，正在导出，导出的数据有问题；在继续标注，现有已切语料，预计能标注600小时；
 *粤语标注了一个测试集，测试CER:88%；
 兼职有一些，验收一人；
 在开展培训，计划10月18日标注100小时；
+合格0.2小时；20个人标注；1个人验收；
 *维语
-已标注完成50+h;
+已标注完成54.05小时，提供训练;
+还有10小时成品，尚未导出，等下次训练时导出；
+又传上了一批开始标注；
 ===文本数据===
@@ 第38行： / 第41行： @@
 baseline 6776 dnn mpe 27.89
 LSTM_xent_iter03_910h 27.99  模型训练中
-五轮结束：26.48  slm解码（blm解码变差，可选路径比较多）
+六轮结束：26.06  slm解码（blm 19.x,解码变差，可选路径比较多）相对与baseline:18.x
-六轮进行中：
+七轮进行中：
 测试集从1000句中挑的；
 *newschedule结论：速度快，但是效果会差些；
-*MPE的问题：NAN错误，还没有解决
+*MPE的问题：
+发现NAN，赋给一个0；
+NAN错误，根本原因还没有解决
 ===TagModel===
@@ 第71行： / 第76行： @@
 Position的选择：从发音词典中的词，计算PPL，排序，根据Tag的类型，找PPL最小的词，这些词作为Tag的Position；
-问题是：
+问题是：都已解决
-添加一个Tag，小词表范围上是可以的；
+添加一个Tag，小词表范围上是可以的；验证是一致的，添加更多词条，100和10万，结果差不多；Tag的weight值，-1到-5；
-添加多个Tag，目前小韩测试可以，梦原这有问题，之前马习应该已解决，需要对以下脚本；
+添加多个Tag，目前小韩测试可以，梦原这有问题，之前马习应该已解决，需要对以下脚本；也已解决：fst上的标号乱了；
-错误率：原来1.7，修改后40+；
+识别偏差大：舒淇；黄渤，韩国；
-小韩：先浮现梦原的结果；
+G_merge，句式模型，有死循环；
+先做一个测试集，最新的电影名：
+统计Count；
+几个Tag（尽可能少）：人名？电影名，电视剧？需要调整weight；
+训练Tag模型测试；
+LM和句式的Merge的实验？
 振龙测试：
@@ 第90行： / 第102行： @@
 *如果Tag中的词加入count，是否有效？
-<pre>
- 我看了下解码结果，count如果问题不大，还得需要从网上爬下关键词的count。
-    识别结果里面错误类型是比较多，有些词是没有覆盖，如“武打”、“致青春”、“冲锋战警”、“神都龙王”之类，需要我们更新词表；
-有些词是所在tag不对，如“动画片”本应属于type里面的“动画”，反而出现在了video中；有些，如“农村”之类的词在video中，count值过高，对识别结果影响较大；还有一些句式不全。
-    剩下的错误原因，有count统计不准，导致正确name被替换；template有些句型后面会接不同类型的tag，这些模板之前会产生竞争关系，是不太好解决的问题。
-    总的来说，对词表的整理还是比较重要的。
-    另外，梦原多tag的tag-model已经正常，可以使用了，tag-model在技术上应该没有什么问题了，下一步主要看如何最优的融合到我们原始的model中。
-</pre>
 ===月度语言模型更新===
@@ 第134行： / 第134行： @@
 *第三季度目标	当前WER:75%；目标WER:>78% (相对下降10%)
 ===并行训练===
-并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；
-可以在多个GPU上跑了。2个GPU上比1个快1.6倍；
 训练机更换第四块GPU卡？
 启动1400H的8K,DNN,大约1.6倍，正确率基本一样，没有下降；
+RNN的还不支持；
 ===Darkknowledge===
@@ 第178行： / 第176行： @@
 ===滴滴项目===
 引擎修改多选输出；
+HCLG的可以了；CLG的还没有修改；
 使用358H语料训练：
 PPL：66 CER：0.15073
-增加标注数据，整理数据，在迭代训训练；
+准备：增加标注数据，整理数据，在迭代训训练；
 ===平安项目===
@@ 第199行： / 第198行： @@
 H LSTM_new-sched_4400h 17.39 训练中，平安的数据
 已训练完：17.13；
-MPE马上启动；
+MPE的问题已解决，已启动训练；
-平安的数据，如果超过CNN的15.37，则可以商用；
+平安的数据，如果超过CNN的15.37，则可以商用；CNN MPE有迭代一次，没有明显提升；
 ===训练算法===
-*梯度算法改进
+*梯度算法改进：
+共有5个，clean数据训练，noise数据测试好；noise训练，noise数据测试，不如baseline不好；
+*batch normalization：
+对隐藏输出，进行线性变换，再解码；效果是clean好，但是noise不好；
 *phone级识别算法
+还在跑；需要接近Baseline，现在差10~20%；
 ==中英混识==
@@ 第214行： / 第217行： @@
 LSTM_xent_iter08_1270h     中文：17.49   英文：48.06
 基本已收敛：17.17% 英文 48.46%
-等MPE的问题解决后，进行MPE训练；
+MPE训练已启动；
 *RNN 1400+300H
 DNN_xent_ft4200h-hl3   中文：20.56   英文：39.75
 LSTM_xent_iter04_1340h 中文：18.93   英文：40.08 训练中
-已跑6轮：中文：17.30 英文：38.16
+已跑6轮：中文：17.30；英文：38.16
 第8轮：  中文：17.91；英文：38.69
+第9轮：  中文：17.82；英文：36.38
+Decision Tree Balance;
 ==中文16K远场==
@@ 第274行： / 第279行： @@
 .5%  44%
 请米吉提老师查一下monphone的分词是否正确？
+分词有问题？
+实验结论：
+元的monphone比word好2个点；
 发布了一个维语模型，需要识别标注语料，发布的是word模型：
@@ 第299行： / 第309行： @@
 *第三季度目标	目前：正确率82%；目标：暂无计划，结合项目进行
 ===DNN端点检测===
-*端点检测模型：4*400+500，MPE1：
+*端点检测模型：4*400+500，MPE1�
-<pre>
-、字正确率
-引擎版本	字错误率	总数	错误	警告	缺失
-r925	cer:0.229239308333;	allcount:28106;	subcount:1757;	addcount:889;	errcount:3797;
-r946;	cer:0.23354443891;	allcount:28106;	subcount:1860;	addcount:881;	errcount:3823;
-、话者分离效果
-引擎版本	时长	正确率	错误	警告	缺失
-r925	all total:3429752.000000	correct:0.824830	err:0.051051	alarm:0.104936	miss:0.019183
-r946	all total:3423533.000000	correct:0.810460	err:0.052723	alarm:0.103310	miss:0.033507
-、实时率：
-本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283
-</pre>
-MPE4的模型出来了，但是测试效果没有MPE1好；
-需要测试以下MPE2，MPE3，找到一个最好的；
-*聚类存在BUG，确认是不同数据库的精度造成的，是算法不太鲁棒；
-*英达财险角色判定错误，需要定位问题；
-==声纹识别==
-*第三季度目标	数字串串长6的EER<1%;支持百万级的实时辨识；
-*数字串模型训练 正在采集数字串语音数据，预期本月内完成；
-*TZNorm算法 TZNorm算法，与预期不符，检查算法的正确性；
-*聚类分类算法 基于Affinity距离的算法研究
-*D-Vector
-*短语音的识别：

“Sinovoice-2015-09-08”版本间的差异

2015年9月8日 (二) 07:06的版本

目录

数据

语音数据

文本数据

2 中文16K

DNN

RNN

TagModel

月度语言模型更新

领域语言模型

小米项目

勤威项目

语音自适应

中文8K

并行训练

Darkknowledge

Data selection

滴滴项目

平安项目

RNN

训练算法

中英混识

8K

中文16K远场

山东共达

科声讯的方案

粤语16K

声学模型

语言模型

粤语8K

声学模型

维语16K

维语8K

声学模型

语言模型

其他语种

情感识别

OpenEar产品化

8K模型训练

话者分离

DNN端点检测

导航菜单

搜索