Sinovoice-2015-10-28

数据

第三季度目标

语音数据

16K 灵云数据

正在标注输入法数据，除了地点的都标注；每周能够标注50H；8月250小时；

8K

平安：已标注895小时，继续完成200小时；语言模型极少；英大：已标注110小时，还有几个小时，暂停，cer:84%；滴滴：已提供690，目标标到700小时；山东移动：立项100小时，到25日；

粤语标注了一个测试集，增量9小时，CER：54%；

兼职有一些，验收一人；在开展培训，计划10月18日标注100小时；已完成30小时，60+标注，每天有1.x小时；50小时，预期在CER：35% 香港业务，下载的语料；使用已提交的可以训练；

维语

已标注完成62小时，一个星期出不了1个小时; 可以先结一次。

文本数据

香港文本

在继续下载；转刘桐需要主要下载新闻网站，之前理发店的就下了40G,没有用；共10G清理出400M；

微博数据？借助汉语语料？汉语翻译成粤语：上次翻译测试，不太好，如果能够看懂，可以继续。可以发个专利：基于机器翻译的跨语言语言模型增强方法 - 小韩

台湾文本

在继续下载；

2 中文16K

第四季度目标当前WER:93.5% 目标WER:>94.5%

DNN

RNN

1700+776H

baseline 6776 dnn mpe 27.89 LSTM_xent_iter03_910h 27.99 模型训练中

MPE容易发散，提升也不如DNN； SLTM过训练比较严重；语言模型，越大越不好；

Domain Adaptation：Train集好，Test集不好；（声学和语言一起学了）梦原验证对专业领域的效果，如果可以，可以做专业领域模型；

嵌入式

DarkKnowledge训练； rectifier

TagModel

Weight大，没有出来，路径不一样，路径的整体分值导致不一致；路径没有走完，可能出现；beam增大？要让路径走到底。晓明走到底了，有Warning？

大词表，没有权重，不进去，设一个极小值，保证能进去？晓明计算PPL的，如果太低的词，就不要加了。加重点词和关注的词。老词（词表中已有的）加重；

如果加很多新词，需要找到合适的Context。之勇、晓明张艺谋：替换姜文合适，但是替换屠呦呦不合适。 WordVector？基于词向量的新词加重。语料中超过5词，就可以使用。

拼语料和Tag的效果验证比较晓明

LM和Grammar的合并fst, union，不是compose。晓明

月度语言模型更新

2015-10月,语料下载；

领域语言模型

领域相关模型，类似于声学的mpe，如何描述这个领域？关键词？Grammar？

小米项目

TagModel:

Tag：句式补充：赵涛在做；词表整理：电影里面不是电影名的去掉；还没有做；

小米线上模型：xiaomi_20150814 0.0175

速度慢

灵云SDK在查；

识别后处理

已知道这个词错了，可以处理。不知时，还需要处理？

勤威项目

发布了一个模型：数据62H台湾POI，在6776MPE3上增量；词表量250多万，识别不好；

省市路，分词，句式：tag的方法来做。晓明需要测试集，数据中心14日标完。

语音自适应

针对个人的能提高2~3%(基数CER约10%) 客户端提取ivector，传给服务器；

中文8K

第三季度目标当前WER:75%；目标WER:>78% (相对下降10%)

并行训练

训练机更换第四块GPU卡？启动1400H的8K,DNN,大约1.6倍，正确率基本一样，没有下降； DNN可以，RNN的Nnet3支持，还不支持；

1400H 4GPU 2天10轮 21.75 21.24

16K9000小时的跑一个DNN训练，加深加宽：7层2400x100000 先做500小时； 8K 领域模型，领域通用：设备 4层1200x8000 信道、口音先等等 212，215上训练，一个8k一个16k。

Darkknowledge

已标注数据：对200小时以下，基础模型大于70%；车牌号、粤语使用的是该方法；无监督：平安、国电的使用过。考虑：confitence低的扔掉？

Ensemble training

13 model ensemble training: 30.81%
解码ensemble decoding，声学部分，对多个模型的声学后验概率合并输出给后面的解码器；
准备训练：分领域，分省；
8K24省的数据，一共500+,每省20小时左右；
列出数据的编码类型；晓明找一下思思给出；
训练方法：DNN的标准训练方法；
数据标注抽检合格率85%；
优先级低，先搁置，等GPU

Data selection

	
Acoustic-based selection: ubm-decoding done. 
Phonetic-based selection: decoding done.
没有跑。脚本的效率太慢，准备分布式跑，如果还慢，换C++语言重写；
脚本还没有再修改；

滴滴项目

引擎修改多选输出；

平安项目

DNN_xent：1400H + 700H 18.16 DNN_mpe：1400H + 700H 16.87 CNN：15.37；引擎模型的打包工具已修改完，引擎提交测试；

目标有变化：坐席90%；客户：80%；原来是平均85%；一个声学模型，两个语言模型，同时计算；文本的自动分类：

声学模型895H，已训练完成；语言模型，需要话者分离，进行分类模型训练：正在做工具；将文本语料按照话者分离的结果，分开训练：客户的PPL 160提高到143；混在一起，PPL30+；混50G自由说模型；之前测试是75%

声学模型分客服和客户单独训练？

RNN

700H LSTM_new-sched_4400h 17.39 训练中，平安的数据已训练完：17.13； MPE的问题已解决，已启动训练；平安的数据，如果超过CNN的15.37，则可以商用；CNN MPE有迭代一次，没有明显提升； RNN MPE 100H：16.6

CNN + RNN（2层） CNN + Monohone？

MPE上还有问题；没有比DNN好；

phone级识别算法

On 1400h Chinese data, raid96.

model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47

train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 在进行类似MPE的训练方法，估计一个星期可以出结果；10月份能够应用到项目中；有区分性训练的方法，结果还没有出来；

增量训练的问题？

中英混识

第三季度目标支持中英混识，对纯中文影响<1%，混识识别率达到纯中文的95%；

8K

RNN 1400+100H

DNN_xent 中文：20.83 英文：57.50 DNN_xent_ft4200h-hl3 中文：19.52 英文：57.20 LSTM_xent_iter08_1270h 中文：17.49 英文：48.06 基本已收敛：17.17% 英文 48.46% MPE训练已启动；

100h中文20h英文 10000pdf，ballance提高1个点； 20H40. weight：43

声学模型用中英混训练，语言模型使用中文，嵌入英文单词；时长不够: 语料？16K转的8K300H，华为信道3000H（语料中保留英文）+ 300H英文统计英文词，部分需要手工标注文档样例：语料平衡：

加什么英文？

一个声学+多个语言模型：得分的可比性：

Mixture:silence分开 LanguageID?

中英单独识别：两个解码：

RNN 1400+300H

DNN_xent_ft4200h-hl3 中文：20.56 英文：39.75 LSTM_xent_iter04_1340h 中文：18.93 英文：40.08 训练中第8轮：中文：17.91；英文：38.69 第9轮：中文：17.82；英文：36.38

Decision Tree Balance：MPE之前，8000，英文少，区分能力弱；之勇这周出来加语言模型反而不好。

中文16K远场

第三季度目标 2米有效角度内，WER:>88%

山东共达

鲁磊提供了远场声音增强的工具；准备用近场声音处理后，进行一个模型的训练；

在使用232小时做实验；在6776H上的增量，已训练完毕，测试集没有没有做增强，测试不好；

录制是单声道还是双声道，增强是对单声道还是双声道的？录制，保留原始数据和增强数据；

6776模型测试，测试集不做增强，11.x;增强后是3.1；小米测试集重录，使用小米的模型，从3.1提高到2.8，提高0.3；

科声讯的方案

远场处理方案；Mic芯片；芯片已到，先用已有的近场模型测试；

粤语16K

第三季度目标目前不支持，目标：支持，WER:>80%

声学模型

已训练完成 130H

语言模型

下载语料，训练模型，PPL：1000+ 16K模型：字错误率21.78

粤语8K

目标 WER:>65%

声学模型

需要标注语料，正在招标注员、验收员，进行招聘；"
语言模型 "语言模型训练完了，测试结果：

8k模型：字错误率22.0 测试集采用的是海天润声给的样本数据，从16k转8k。"

用实际语料标注的8K测试，CER：88%；声学和语言模型，均不匹配；

文本语料：普通话翻译成粤语

维语16K

WER:85%

维语8K

第三季度目标目前不支持，目标：支持，WER:>65%

声学模型

已训练35小时；借用梦原的模型；用16K的lm Model，WER：30%左右；

语言模型

和新疆大学调试：公司Word；实验室 35H标注文本数据已提供实验室处理； toolkit做完了，维语句子转成monphone串；

发布了一个维语模型，需要识别标注语料，发布的是word模型： model_35h_20150828 CER:0.419693683925

导出64小时，声学和语言模型进行优化。

其他语种

蒙语藏语哈语朝鲜语彝族语 ASR和TTS，技术方案：客户提供数据，能否和学校合作：需要懂语言的人来处理数据；翻译局：朗读

情感识别

OpenEar产品化

待引擎产品化；

8K模型训练

开发完引擎，选取语料，进行标注；

话者分离

辽宁移动项目，话者分离问题语音存在以下情况： 1) 拖长音： 1600398 没检测出来，但结果变好了：“啊”的拖音，聚类为了一类；

      79770   80750   b   b   correct
           104860  106090  b   b   correct
           114903  115190  b   b   correct

2）噪声 1500284 有噪音，部分聚类错误 1501239 中间有非语音的大噪音，聚为了一类 3）录音末尾，振铃和语音混在一起： 1600551 最后有两个振铃和语音混在了一起，聚为了一类 2311375 最后，振铃和语音混在了一起，聚为了一类；

声纹识别

第三季度目标数字串串长6的EER<1%;支持百万级的实时辨识；
数字串模型训练正在采集数字串语音数据，预期本月内完成；
TZNorm算法 TZNorm算法，与预期不符，检查算法的正确性； PLDA上结果是不好。
聚类分类算法基于Affinity距离的算法研究
D-Vector
短语音的识别：

数字模型：单独训练 ivector和plda需要用数字需要训练。

性别和年龄识别？

password测试集：EER 1~2%

Sinovoice-2015-10-28

目录

数据

语音数据

文本数据

2 中文16K

DNN

RNN

嵌入式

TagModel

月度语言模型更新

领域语言模型

小米项目

勤威项目

语音自适应

中文8K

并行训练

Darkknowledge

Data selection

滴滴项目

平安项目

RNN

中英混识

8K

中文16K远场

山东共达

科声讯的方案

粤语16K

声学模型

语言模型

粤语8K

声学模型

维语16K

维语8K

声学模型

语言模型

其他语种

情感识别

OpenEar产品化

8K模型训练

话者分离

声纹识别

导航菜单

搜索