“Sinovoice-2015-10-28”版本间的差异
(以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 正在标注输入法数据,除了地点的都标注; 每周能够标注50H;8月250小时...”为内容创建页面) |
|||
第11行: | 第11行: | ||
英大:已标注110小时,还有几个小时,暂停,cer:84%; | 英大:已标注110小时,还有几个小时,暂停,cer:84%; | ||
滴滴:已提供690,目标标到700小时; | 滴滴:已提供690,目标标到700小时; | ||
− | |||
*粤语标注了一个测试集,增量9小时,CER:54%; | *粤语标注了一个测试集,增量9小时,CER:54%; | ||
第40行: | 第39行: | ||
*第四季度目标 当前WER:93.5% 目标WER:>94.5% | *第四季度目标 当前WER:93.5% 目标WER:>94.5% | ||
===DNN=== | ===DNN=== | ||
+ | |||
+ | ===并行训练=== | ||
+ | 训练机更换第四块GPU卡? | ||
+ | 启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; | ||
+ | DNN可以,RNN的Nnet3支持,还不支持; | ||
+ | |||
+ | 1400H 4GPU 2天10轮 21.75 21.24 | ||
+ | |||
+ | 16K9000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文 | ||
+ | 8K 领域模型,领域通用:设备 4层1200x8000 信道、口音 | ||
+ | 212,215上训练,一个8k一个16k。 | ||
+ | MPE的并行训练还需要改写脚本; | ||
+ | |||
+ | data:8k 1400 chinese dataset | ||
+ | lr:0.008-0.0008 | ||
+ | GPU:215 | ||
+ | ----------------------------------------------------------------------------------------------------------------------- | ||
+ | nnet architecture | HuaWei_JS2h|huaweiFUle| test_BJYD | HuaWei_ShanXi |training time| decoding time | ||
+ | ----------------------------------------------------------------------------------------------------------------------- | ||
+ | 4*1200 baseline_dnn| 22.72 | 20.75 | 25.91 | 28.58 | 8 days | 14min/5min/7min/16min | ||
+ | ----------------------------------------------------------------------------------------------------------------------- | ||
+ | 7*2048_rectifier | 21.50 | 19.17 | 25.30 | 27.36 | 5 days | 23min/7min/11min/26 | ||
===RNN=== | ===RNN=== | ||
第54行: | 第75行: | ||
===嵌入式=== | ===嵌入式=== | ||
− | DarkKnowledge训练; | + | DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; |
rectifier | rectifier | ||
+ | 8000->800 需要调整pdf对应关系; | ||
+ | 4层600*800 | ||
===TagModel=== | ===TagModel=== | ||
第108行: | 第131行: | ||
==中文8K== | ==中文8K== | ||
*第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | *第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
第177行: | 第189行: | ||
MPE上还有问题;没有比DNN好; | MPE上还有问题;没有比DNN好; | ||
− | * | + | *End-to-End算法,phone级识别 |
On 1400h Chinese data, raid96. | On 1400h Chinese data, raid96. | ||
--------------------------------------------------------- | --------------------------------------------------------- | ||
第190行: | 第202行: | ||
train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 | train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 | ||
train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter | train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter | ||
− | + | 已找到MPE的训练方法,正在训练; | |
− | + | ||
增量训练的问题? | 增量训练的问题? | ||
==中英混识== | ==中英混识== | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
声学模型用中英混训练,语言模型使用中文,嵌入英文单词; | 声学模型用中英混训练,语言模型使用中文,嵌入英文单词; | ||
− | + | 方法没有迭代下去,网络预测语种;指定语种复杂度高,训练慢;需要讨论使用其他方法提升。 | |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
一个声学+多个语言模型: | 一个声学+多个语言模型: | ||
第224行: | 第219行: | ||
两个解码: | 两个解码: | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
==中文16K远场== | ==中文16K远场== |
2015年10月28日 (三) 06:19的最后版本
目录
数据
- 第三季度目标
语音数据
- 16K 灵云数据
正在标注输入法数据,除了地点的都标注; 每周能够标注50H;8月250小时;
- 8K
平安:已标注895小时,继续完成200小时;语言模型极少; 英大:已标注110小时,还有几个小时,暂停,cer:84%; 滴滴:已提供690,目标标到700小时;
- 粤语标注了一个测试集,增量9小时,CER:54%;
兼职有一些,验收一人; 在开展培训,计划10月18日标注100小时; 已完成30小时,60+标注,每天有1.x小时;50小时,预期在CER:35% 香港业务,下载的语料; 使用已提交的可以训练;
- 维语
已标注完成62小时,一个星期出不了1个小时; 可以先结一次。
文本数据
- 香港文本
在继续下载;转刘桐 需要主要下载新闻网站,之前理发店的就下了40G,没有用;共10G清理出400M;
微博数据? 借助汉语语料? 汉语翻译成粤语:上次翻译测试,不太好,如果能够看懂,可以继续。 可以发个专利:基于机器翻译的跨语言语言模型增强方法 - 小韩
- 台湾文本
在继续下载;
2 中文16K
- 第四季度目标 当前WER:93.5% 目标WER:>94.5%
DNN
并行训练
训练机更换第四块GPU卡? 启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; DNN可以,RNN的Nnet3支持,还不支持;
1400H 4GPU 2天10轮 21.75 21.24
16K9000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文 8K 领域模型,领域通用:设备 4层1200x8000 信道、口音 212,215上训练,一个8k一个16k。 MPE的并行训练还需要改写脚本;
data:8k 1400 chinese dataset lr:0.008-0.0008 GPU:215
nnet architecture | HuaWei_JS2h|huaweiFUle| test_BJYD | HuaWei_ShanXi |training time| decoding time
4*1200 baseline_dnn| 22.72 | 20.75 | 25.91 | 28.58 | 8 days | 14min/5min/7min/16min
7*2048_rectifier | 21.50 | 19.17 | 25.30 | 27.36 | 5 days | 23min/7min/11min/26
RNN
- 1700+776H
baseline 6776 dnn mpe 27.89 LSTM_xent_iter03_910h 27.99 模型训练中
MPE容易发散,提升也不如DNN; SLTM过训练比较严重; 语言模型,越大越不好;
Domain Adaptation:Train集好,Test集不好;(声学和语言一起学了) 梦原 验证对专业领域的效果,如果可以,可以做专业领域模型;
嵌入式
DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些; rectifier 8000->800 需要调整pdf对应关系; 4层600*800
TagModel
Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径没有走完,可能出现;beam增大?要让路径走到底。 晓明 走到底了,有Warning?
大词表,没有权重,不进去,设一个极小值,保证能进去? 晓明 计算PPL的,如果太低的词,就不要加了。 加重点词和关注的词。老词(词表中已有的)加重;
如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。 WordVector?基于词向量的新词加重。 语料中超过5词,就可以使用。
拼语料和Tag的效果验证比较 晓明
LM和Grammar的合并fst, union,不是compose。 晓明
月度语言模型更新
- 2015-10月,语料下载;
领域语言模型
领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?
小米项目
- TagModel:
Tag: 句式补充:赵涛在做; 词表整理:电影里面不是电影名的去掉;还没有做;
- 小米线上模型:xiaomi_20150814 0.0175
- 速度慢
灵云SDK在查;
- 识别后处理
已知道这个词错了,可以处理。不知时,还需要处理?
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;
省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
中文8K
- 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)
Darkknowledge
已标注数据:对200小时以下,基础模型大于70%; 车牌号、粤语使用的是该方法; 无监督:平安、国电的使用过。考虑:confitence低的扔掉?
- Ensemble training
13 model ensemble training: 30.81% 解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器; 准备训练:分领域,分省; 8K24省的数据,一共500+,每省20小时左右; 列出数据的编码类型;晓明找一下思思给出; 训练方法:DNN的标准训练方法; 数据标注抽检合格率85%; 优先级低,先搁置,等GPU
Data selection
Acoustic-based selection: ubm-decoding done. Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; 脚本还没有再修改;
滴滴项目
引擎修改多选输出;
平安项目
DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;引擎模型的打包工具已修改完,引擎提交测试;
目标有变化:坐席90%;客户:80%;原来是平均85%; 一个声学模型,两个语言模型,同时计算; 文本的自动分类:
声学模型895H,已训练完成; 语言模型,需要话者分离,进行分类模型训练:正在做工具; 将文本语料按照话者分离的结果,分开训练:客户的PPL 160提高到143;混在一起,PPL30+; 混50G自由说模型;之前测试是75%
声学模型分客服和客户单独训练?
RNN
700H LSTM_new-sched_4400h 17.39 训练中,平安的数据 已训练完:17.13; MPE的问题已解决,已启动训练; 平安的数据,如果超过CNN的15.37,则可以商用;CNN MPE有迭代一次,没有明显提升; RNN MPE 100H:16.6
CNN + RNN(2层) CNN + Monohone?
MPE上还有问题;没有比DNN好;
- End-to-End算法,phone级识别
On 1400h Chinese data, raid96.
model WER(%)
3-gram LM 5-gram LM traning time
dnn 21.00 20.47
train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 已找到MPE的训练方法,正在训练;
增量训练的问题?
中英混识
声学模型用中英混训练,语言模型使用中文,嵌入英文单词; 方法没有迭代下去,网络预测语种;指定语种复杂度高,训练慢;需要讨论使用其他方法提升。
一个声学+多个语言模型: 得分的可比性:
Mixture:silence分开 LanguageID?
中英单独识别: 两个解码:
中文16K远场
- 第三季度目标 2米有效角度内,WER:>88%
山东共达
鲁磊提供了远场声音增强的工具; 准备用近场声音处理后,进行一个模型的训练;
在使用232小时做实验;在6776H上的增量,已训练完毕,测试集没有没有做增强,测试不好;
录制是单声道还是双声道,增强是对单声道还是双声道的? 录制,保留原始数据和增强数据;
6776模型测试,测试集不做增强,11.x;增强后是3.1; 小米测试集重录,使用小米的模型,从3.1提高到2.8,提高0.3;
科声讯的方案
远场处理方案;Mic芯片; 芯片已到,先用已有的近场模型测试;
粤语16K
- 第三季度目标 目前不支持,目标:支持,WER:>80%
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
- 目标 WER:>65%
声学模型
- 需要标注语料,正在招标注员、验收员,进行招聘;"
- 语言模型 "语言模型训练完了,测试结果:
8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"
用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;
文本语料:普通话翻译成粤语
维语16K
WER:85%
维语8K
- 第三季度目标 目前不支持,目标:支持,WER:>65%
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925
导出64小时,声学和语言模型进行优化。
其他语种
蒙语 藏语 哈语 朝鲜语 彝族语 ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; 翻译局:朗读
情感识别
OpenEar产品化
待引擎产品化;
8K模型训练
开发完引擎,选取语料,进行标注;
话者分离
辽宁移动项目,话者分离问题语音存在以下情况: 1) 拖长音: 1600398 没检测出来,但结果变好了:“啊”的拖音,聚类为了一类;
79770 80750 b b correct 104860 106090 b b correct 114903 115190 b b correct
2)噪声 1500284 有噪音,部分聚类错误 1501239 中间有非语音的大噪音,聚为了一类 3)录音末尾,振铃和语音混在一起: 1600551 最后有两个振铃和语音混在了一起,聚为了一类 2311375 最后,振铃和语音混在了一起,聚为了一类;
声纹识别
- 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
- 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
- TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性; PLDA上结果是不好。
- 聚类分类算法 基于Affinity距离的算法研究
- D-Vector
- 短语音的识别:
数字模型:单独训练 ivector和plda需要用数字需要训练。
性别和年龄识别?
password测试集:EER 1~2%