“Sinovoice-2015-08-25”版本间的差异

2015年8月25日 (二) 07:43的最后版本

数据

第三季度目标

语音数据

数字串

电话录音

16K 灵云数据

202H 一直在标注中平衡？按照数据来源：输入法、导航

8K

按照项目走，平安标注了100小时多，开始训练；（一共700+100）;

粤语标注了一个测试集，测试CER:88%；

已传到平台，等待标注；招聘标注员；

文本数据

粤语文本

洗出来是400+M;已训练模型，CER:22%

2 中文16K

第三季度目标当前WER:93.5% 目标WER:>94.5%

DNN

RNN

1700+776H LSTM_xent_iter03_910h 27.99 模型训练中

iter05_ 四轮跑完；没有进展，SGE故障，在恢复；

三轮中的一个模型，newschedule

小LM1e-5(几M)，比6000+H的DNN要好，好1个点；大LM，没有DNN的好；

MPE的问题：还没有解决

TagModel

实验室解决技术问题,还没有调出一个好的结果，直接在语言模型上fst调权重，可以出来；

lm中加重；
tag，在lm中有的去掉；选择词替换，test数据到lm中试；
后处理：替换；

video Tag，不能加太多；不是Name的去掉；清理Video；
梦原:有问题的加入Tag，验证是否有效？
晓明:指导数据加工，过滤出有效的数据；

1. 没必要调参数，word vector选词；纠错不行；similary pair；
   宁可：纠错词典，下周1之前会有一个简单能用的版本；
2. 分类：word vector 人名 电视剧名 电影名；
   宁可去掉，不能错放；
   重名？

代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；通用模型做的。

加多个Tag时，只有第一个Tag起作用，后面的没有起作用；只有biglm时存在问题；

人名加重；

脚本移到公司，在小米模型上进行训练；

用PPL选词； position，借用一个词的context，电影名->黑猫警长最有效的position的词； 7个position，选的词都加在这个7各position上；

13万词，加进去并不好；Tag还是需要筛查；
如果Tag中的词加入count，是否有效？

月度语言模型更新

2015-8月,正在下载语料；

领域语言模型

领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？

小米项目

TagModel:

Tag：句式补充：赵涛在做；词表整理：电影里面不是电影名的去掉；还没有做；

小米线上模型：xiaomi_20150814 0.0175

多选

调试已差不多了，速度也不慢了；

勤威项目

发布了一个模型：数据62H台湾POI，在6776MPE3上增量；尚未得到用户反馈；

语音自适应

针对个人的能提高2~3%(基数CER约10%) 客户端提取ivector，传给服务器；

中文8K

第三季度目标当前WER:75%；目标WER:>78% (相对下降10%)

并行训练

并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；可以在多个GPU上跑了。2个GPU上比1个快1.6倍；

-------------------------------------------------------------------------------------------------
|              | FACC(tr, cv) | loss (tr, cv) |    TIME    | WER(test_2000ju)| WER_(test_8000ju)|
-------------------------------------------------------------------------------------------------
|   baseline   | 56.89, 53.01 |  1.664, 1.911 | 50min * 16 |      35.29      |       20.37      |
-------------------------------------------------------------------------------------------------
| 2-gpu-gap60  | 57.03, 53.16 |  1.653, 1.901 | 30min * 14 |      35.37      |       20.08      |
-------------------------------------------------------------------------------------------------

Darkknowledge

三种方法

未标注：soft
已标注：soft + hard label，diff加权和 实验室是：加权比只有hard会好些。
mix训练：未标注+已标注

辽宁移动:

400h dark knowledge xEnt + MPE， 有标注和无标注的一起训练，
Mix训练方法：400h迭代优化，加500小时未标注，晓明已训练完，小韩测试效果变差；
分析：应该没有太大的增长，对100小时以内的数据，比较显著；
有时间再查具体原因；已基本达标，优先级降低；

Ensemble training

13 model ensemble training: 30.81%
解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；
准备训练：分领域，分省；
8K24省的数据，一共500+,每省20小时左右；
列出数据的编码类型；晓明找一下思思给出；
训练方法：DNN的标准训练方法；
数据标注抽检合格率85%；
优先级低，先搁置，等GPU

Data selection

	
Acoustic-based selection: ubm-decoding done. 
Phonetic-based selection: decoding done.
没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；
脚本还没有再修改；

滴滴项目

声学模型训练：270H的增量训练，大概12日能出来；语言模型训练：标注语料，ppl：69；识别率：84% 引擎修改多选输出：语言声学都优化：ppl：67 识别率84.6%

平安项目

DNN_xent：1400H + 700H 18.16 DNN_mpe：1400H + 700H 16.87 CNN：15.37；梦原给了一个模型，公司这边还没有测试；引擎模型的打包工具需要修改，还没有修改；"

目标有变化：坐席90%；客户：80%；原来是平均85%；一个声学模型，两个语言模型，同时计算；文本的自动分类：双声道数据：？按照语音片段，重新进行话者聚类；再做角色判定，完成文本分类，进行模型训练；

RNN

700H LSTM_new-sched_4400h 17.39 训练中

中英混识

第三季度目标支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；

8K

RNN 1400+100H

DNN_xent 中文：20.83 英文：57.50 DNN_xent_ft4200h-hl3 中文：19.52 英文：57.20 基本已收敛：17.17% 英文 48.46%

LSTM_xent_iter08_1270h 中文：17.49 英文：48.06

RNN 1400+300H

DNN_xent_ft4200h-hl3 中文：20.56 英文：39.75 LSTM_xent_iter04_1340h 中文：18.93 英文：40.08 训练中已跑6轮：中文：17.30 英文：38.16"

中文16K远场

第三季度目标 2米有效角度内，WER:>88%

山东共达

鲁磊提供了远场声音增强的工具；准备用近场声音处理后，进行一个模型的训练；

科声讯的方案

远场处理方案；Mic芯片；

粤语16K

第三季度目标目前不支持，目标：支持，WER:>80%

声学模型

已训练完成 130H

语言模型

下载语料，训练模型，PPL：1000+ 16K模型：字错误率21.78

粤语8K

目标 WER:>65%

声学模型

需要标注语料，正在招标注员、验收员，进行招聘；"
语言模型 "语言模型训练完了，测试结果：

8k模型：字错误率22.0 测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；声学和语言模型，均不匹配；

维语16K

WER:85%

维语8K

第三季度目标目前不支持，目标：支持，WER:>65%

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；

word比monphone好； 42.5% 44%

其他语种

蒙语藏语哈语朝鲜语彝族语 ASR和TTS，技术方案：客户提供数据，能否和学校合作：需要懂语言的人来处理数据；翻译局：朗读

情感识别

第三季度目标目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化；

8K模型训练

开发完引擎，选取语料，进行标注；

话者分离

第三季度目标目前：正确率82%；目标：暂无计划，结合项目进行

DNN端点检测

端点检测模型：4*400+500，MPE1：

1、字正确率
引擎版本	字错误率	总数	错误	警告	缺失
r925	cer:0.229239308333;	allcount:28106;	subcount:1757;	addcount:889;	errcount:3797;
r946;	cer:0.23354443891;	allcount:28106;	subcount:1860;	addcount:881;	errcount:3823;
2、话者分离效果
引擎版本	时长	正确率	错误	警告	缺失
r925	all total:3429752.000000	correct:0.824830	err:0.051051	alarm:0.104936	miss:0.019183
r946	all total:3423533.000000	correct:0.810460	err:0.052723	alarm:0.103310	miss:0.033507
3、实时率：
本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283

聚类存在BUG，需要解决；
角色判定错误，需要定位问题；

声纹识别

第三季度目标数字串串长6的EER<1%;支持百万级的实时辨识；
数字串模型训练正在采集数字串语音数据，预期本月内完成；
TZNorm算法 TZNorm算法，与预期不符，检查算法的正确性；
聚类分类算法基于Affinity距离的算法研究
D-Vector
短语音的识别：

@@ 第7行： / 第7行： @@
 H 一直在标注中 平衡？按照数据来源：输入法、导航
 *8K
-按照项目走
+按照项目走，平安标注了100小时多，开始训练；（一共700+100）;
+*粤语标注了一个测试集，测试CER:88%；
+已传到平台，等待标注；招聘标注员；
 ===文本数据===
 *粤语文本
@@ 第15行： / 第18行： @@
 *第三季度目标	当前WER:93.5%  目标WER:>94.5%
 ===DNN===
-*已训练完：基础模型6776小时的，迭代增量790+580小时的DNN模型；
---------------
-{| class="wikitable" border="1"
-|                ||7月_v2c_6776MPE3 || v2c_1372H_inc_MPE2 || v2c_1372H_inc_MPE2(0.97)
-|-
-| New_10000      || 0.16112014838   || 0.16241239339      || 0.159341411132
-|-
-| 8000           || 0.0644148011643 || 0.0642472724227    || 0.0623416329864
-|-
-| 10000          || 0.0997464074387 || 0.0994082840237    || 0.0952451394759
-|-
-| 新词测试集     || 0.0689477746334 || 0.0761512734757    || 0.0771803447389
-|}
---------------
-数据中有#号，丢字多了；句中有#的也丢掉？weak sil scale测试一下。
-*现在总共有8500H左右；准备重新跑一个训练过程；
-一个single的暂不跑；
-ensemble的解码变好，训练还没有；
-*准备启动：Random训练，现在是4*1200，增加层好，还是增加节点数好？加2层，用新标的数据来训练；
-		暂时没有时间做。
-		考虑：只用实际数据。
 ===RNN===
 *1700+776H LSTM_xent_iter03_910h 27.99  模型训练中
 iter05_
 四轮跑完；
+没有进展，SGE故障，在恢复；
 *三轮中的一个模型，newschedule
 小LM1e-5(几M)，比6000+H的DNN要好，好1个点；
 大LM，没有DNN的好；
 *MPE的问题：还没有解决
@@ 第66行： / 第48行： @@
 </pre>
-*代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；
+*代码有错：fst加tag时串了；修改后，小实验上效果良好；小米的正在进行merge（nest)；通用模型做的。
+加多个Tag时，只有第一个Tag起作用，后面的没有起作用；
+只有biglm时存在问题；
+人名加重；
+*脚本移到公司，在小米模型上进行训练；
+用PPL选词；
+position，借用一个词的context，电影名->黑猫警长
+最有效的position的词；
+个position，选的词都加在这个7各position上；
 *13万词，加进去并不好；Tag还是需要筛查；
 *如果Tag中的词加入count，是否有效？
 ===月度语言模型更新===
-*2015-7月测试，已上线：
-{| class="wikitable" border="1"
-|           || 4月_model_0.05  || 6月_model       || 7月_v2c_model
-|-
-|New_10000   || 0.162184350153  || 0.161849886739  || 0.16112014838
-|-
-|8000        || 0.0648126819257 || 0.0649802106674 || 0.0644148011643
-|-
-|10000       || 0.100338123415  || 0.100253592561  || 0.0997464074387
-|-
-|新词测试集  || 0.079495755081  || 0.0720349884229 || 0.0689477746334"
-|}
 *2015-8月,正在下载语料；
@@ 第90行： / 第71行： @@
 ===小米项目===
 *TagModel:
-已做一个模型，经常跑入Tag；对人名、地名的加重不好，不稳定，体验不好；
+Tag：
-切出小的ngram模型，调整权重；tag先使用句式，再和大的merge；
+句式补充：赵涛在做；
-Tag的权重不好调，统计词的count;
+词表整理：电影里面不是电影名的去掉；还没有做；
-*赵涛总结句式，准备用造语料的方法，进行lm的训练；
+*小米线上模型：xiaomi_20150814   0.0175
-*加重path路径权重；
-*Word加重，已发给，小韩需要测试；
-*上线了一个针对错误，优化（增加语料，对巩俐、张艺谋）
-<pre>
-xiaomi_20150813   0.0182
-xiaomi_20150814   0.0175
-</pre>
 *多选
-调试已差不多了，速度也不慢了；"
+调试已差不多了，速度也不慢了；
 ===勤威项目===
-*之前有8K和16K混存的问题，数据重新转了一遍，就没有问题了；
+*发布了一个模型：数据62H台湾POI，在6776MPE3上增量；尚未得到用户反馈；
-*发布了一个模型：数据62H台湾POI，在6776MPE3上增量"
+===语音自适应===
+针对个人的
+能提高2~3%(基数CER约10%)
+客户端提取ivector，传给服务器；
 ==中文8K==
 *第三季度目标	当前WER:75%；目标WER:>78% (相对下降10%)
 ===并行训练===
 并行训练：需要新版本cublas的支持；kaldi不支持，需要支持；
-可以在多个GPU上跑了。2个GPU上比1个快1.6倍；"
+可以在多个GPU上跑了。2个GPU上比1个快1.6倍；
+<pre>
+-------------------------------------------------------------------------------------------------
+|              | FACC(tr, cv) | loss (tr, cv) |    TIME    | WER(test_2000ju)| WER_(test_8000ju)|
+-------------------------------------------------------------------------------------------------
+|   baseline   | 56.89, 53.01 |  1.664, 1.911 | 50min * 16 |      35.29      |       20.37      |
+-------------------------------------------------------------------------------------------------
+| 2-gpu-gap60  | 57.03, 53.16 |  1.653, 1.901 | 30min * 14 |      35.37      |       20.08      |
+-------------------------------------------------------------------------------------------------
+</pre>
 ===Darkknowledge===
@@ 第145行： / 第131行： @@
 </pre>
-*Data selection
+===Data selection===
 <pre>
 Acoustic-based selection: ubm-decoding done.
@@ 第164行： / 第150行： @@
 CNN：15.37；梦原给了一个模型，公司这边还没有测试；
 引擎模型的打包工具需要修改，还没有修改；"
+目标有变化：坐席90%；客户：80%；原来是平均85%；
+一个声学模型，两个语言模型，同时计算；
+文本的自动分类：
+双声道数据：？
+按照语音片段，重新进行话者聚类；再做角色判定，完成文本分类，进行模型训练；
 ===RNN===
 H LSTM_new-sched_4400h 17.39 训练中
-==3 中英混识==
+==中英混识==
 *第三季度目标	支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；
 ===8K===
@@ 第183行： / 第175行： @@
 已跑6轮：中文：17.30 英文：38.16"
-==4 中文16K远场==
+==中文16K远场==
 *第三季度目标	2米有效角度内，WER:>88%
 ===山东共达===
-山东共达：基于Android的一个处理算法，将数据处理一遍，进行模型训练；由于效率比较低，鲁磊正在供应商联系，提供Windows或Linux版本的；
+鲁磊提供了远场声音增强的工具；
-是否需要完全模拟远场，进行声音采集或处理？
+准备用近场声音处理后，进行一个模型的训练；
-近场变远场：算法有，需要调试；
-远场变近场：共达提供算法；
-近场数据处理：共达提供算法；
 ===科声讯的方案===
@@ 第201行： / 第189行： @@
 已训练完成 130H
 ===语言模型===
-已拿到数据，开始训练；繁体转简体。
+下载语料，训练模型，PPL：1000+
-数据质量差？
+K模型：字错误率21.78
-网页下载繁体；确认是否是粤语字？
-PPL：1000+"
 ==粤语8K==
@@ 第211行： / 第197行： @@
 *需要标注语料，正在招标注员、验收员，进行招聘；"
 *语言模型	"语言模型训练完了，测试结果：
-K模型：字错误率21.78
 k模型：字错误率22.0
 测试集采用的是海天润声给的样本数据，从16k转8k。"
-维语16K 	WER:85%
+用实际语料标注的8K测试，CER：88%；
+声学和语言模型，均不匹配；
+==维语16K==
+WER:85%
 ==维语8K==
 *第三季度目标	目前不支持，目标：支持，WER:>65%
 ===声学模型===
-已训练35小时；借用梦原的模型；用16K的lm Model，30%左右；
+已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；
 ===语言模型===
 和新疆大学调试：公司Word；实验室
 H标注文本数据已提供实验室处理；
-toolkit做完了，维语句子转成monphone串；"
+toolkit做完了，维语句子转成monphone串；
-==8 情感识别==
+word比monphone好；
+.5%  44%
+==其他语种==
+蒙语
+藏语
+哈语
+朝鲜语
+彝族语
+ASR和TTS，技术方案：客户提供数据，能否和学校合作：需要懂语言的人来处理数据；
+翻译局：朗读
+==情感识别==
 *第三季度目标	目前：识别生气，正确率<30%；目标破：识别生气：16K >65%; 8K >60%;
@@ 第234行： / 第236行： @@
 开发完引擎，选取语料，进行标注；
-==9 话者分离==
+==话者分离==
 *第三季度目标	目前：正确率82%；目标：暂无计划，结合项目进行
 ===DNN端点检测===
-*之前训练的4*300*2的端点检测模型，实时率得到提升，占整个RT的4%左右，但是正确率相对于大模型下降，大模型82%，小模型70%；
+*端点检测模型：4*400+500，MPE1：
-*正在训练新的端点检测模型：4*400+500；MPE的前处理，预计：2天左右能出MPE1；
 <pre>
-引擎版本 字错误率
+、字正确率
-R925 cer:0.229239308333;
+引擎版本	字错误率	总数	错误	警告	缺失
-r946 cer:0.253077634669;
+r925	cer:0.229239308333;	allcount:28106;	subcount:1757;	addcount:889;	errcount:3797;
+r946;	cer:0.23354443891;	allcount:28106;	subcount:1860;	addcount:881;	errcount:3823;
-引擎版本 话者分离总时长        正确率
+、话者分离效果
-R925 all total:3429752.000000 correct:0.824830
+引擎版本	时长	正确率	错误	警告	缺失
-r946 all total:3409079.000000 correct:0.773867"
+r925	all total:3429752.000000	correct:0.824830	err:0.051051	alarm:0.104936	miss:0.019183
+r946	all total:3423533.000000	correct:0.810460	err:0.052723	alarm:0.103310	miss:0.033507
+、实时率：
+本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283
 </pre>
+*聚类存在BUG，需要解决；
+*角色判定错误，需要定位问题；
 ==声纹识别==
@@ 第255行： / 第261行： @@
 *聚类分类算法 基于Affinity距离的算法研究
 *D-Vector
+*短语音的识别：

“Sinovoice-2015-08-25”版本间的差异

2015年8月25日 (二) 07:43的最后版本

目录

数据

语音数据

文本数据

2 中文16K

DNN

RNN

TagModel

月度语言模型更新

领域语言模型

小米项目

勤威项目

语音自适应

中文8K

并行训练

Darkknowledge

Data selection

滴滴项目

平安项目

RNN

中英混识

8K

中文16K远场

山东共达

科声讯的方案

粤语16K

声学模型

语言模型

粤语8K

声学模型

维语16K

维语8K

声学模型

语言模型

其他语种

情感识别

OpenEar产品化

8K模型训练

话者分离

DNN端点检测

声纹识别

导航菜单

搜索