“Sinovoice-2015-09-08”版本间的差异
第3行: | 第3行: | ||
===语音数据=== | ===语音数据=== | ||
*数字字母串 | *数字字母串 | ||
− | 电话录音, | + | 电话录音,已录音完毕,已完成1500句校对,还有5500句尚未校对完毕; |
*16K 灵云数据 | *16K 灵云数据 | ||
第11行: | 第11行: | ||
*8K | *8K | ||
平安:已标注895小时,未再标注; | 平安:已标注895小时,未再标注; | ||
− | + | 英大:已标注80小时,还有20小时,在继续,优先级低于无锡; | |
− | + | 无锡地税:目标50小时,已标注30小时; | |
− | + | 滴滴:已提供404,清洗后训练358小时;已标注共计550小时,正在导出,导出的数据有问题;在继续标注,现有已切语料,预计能标注600小时; | |
*粤语标注了一个测试集,测试CER:88%; | *粤语标注了一个测试集,测试CER:88%; | ||
兼职有一些,验收一人; | 兼职有一些,验收一人; | ||
在开展培训,计划10月18日标注100小时; | 在开展培训,计划10月18日标注100小时; | ||
+ | 合格0.2小时;20个人标注;1个人验收; | ||
*维语 | *维语 | ||
− | + | 已标注完成54.05小时,提供训练; | |
+ | 还有10小时成品,尚未导出,等下次训练时导出; | ||
+ | 又传上了一批开始标注; | ||
===文本数据=== | ===文本数据=== | ||
第38行: | 第41行: | ||
baseline 6776 dnn mpe 27.89 | baseline 6776 dnn mpe 27.89 | ||
LSTM_xent_iter03_910h 27.99 模型训练中 | LSTM_xent_iter03_910h 27.99 模型训练中 | ||
− | + | 六轮结束:26.06 slm解码(blm 19.x,解码变差,可选路径比较多)相对与baseline:18.x | |
− | + | 七轮进行中: | |
测试集从1000句中挑的; | 测试集从1000句中挑的; | ||
*newschedule结论:速度快,但是效果会差些; | *newschedule结论:速度快,但是效果会差些; | ||
− | * | + | *MPE的问题: |
+ | 发现NAN,赋给一个0; | ||
+ | NAN错误,根本原因还没有解决 | ||
===TagModel=== | ===TagModel=== | ||
第71行: | 第76行: | ||
Position的选择:从发音词典中的词,计算PPL,排序,根据Tag的类型,找PPL最小的词,这些词作为Tag的Position; | Position的选择:从发音词典中的词,计算PPL,排序,根据Tag的类型,找PPL最小的词,这些词作为Tag的Position; | ||
− | + | 问题是:都已解决 | |
− | + | 添加一个Tag,小词表范围上是可以的;验证是一致的,添加更多词条,100和10万,结果差不多;Tag的weight值,-1到-5; | |
− | + | 添加多个Tag,目前小韩测试可以,梦原这有问题,之前马习应该已解决,需要对以下脚本;也已解决:fst上的标号乱了; | |
− | + | 识别偏差大:舒淇;黄渤,韩国; | |
− | + | G_merge,句式模型,有死循环; | |
+ | |||
+ | 先做一个测试集,最新的电影名: | ||
+ | 统计Count; | ||
+ | 几个Tag(尽可能少):人名?电影名,电视剧?需要调整weight; | ||
+ | 训练Tag模型测试; | ||
+ | |||
+ | LM和句式的Merge的实验? | ||
振龙测试: | 振龙测试: | ||
第90行: | 第102行: | ||
*如果Tag中的词加入count,是否有效? | *如果Tag中的词加入count,是否有效? | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
===月度语言模型更新=== | ===月度语言模型更新=== | ||
第134行: | 第134行: | ||
*第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | *第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%) | ||
===并行训练=== | ===并行训练=== | ||
− | |||
− | |||
− | |||
训练机更换第四块GPU卡? | 训练机更换第四块GPU卡? | ||
启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; | 启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; | ||
+ | RNN的还不支持; | ||
===Darkknowledge=== | ===Darkknowledge=== | ||
第178行: | 第176行: | ||
===滴滴项目=== | ===滴滴项目=== | ||
引擎修改多选输出; | 引擎修改多选输出; | ||
+ | HCLG的可以了;CLG的还没有修改; | ||
使用358H语料训练: | 使用358H语料训练: | ||
PPL:66 CER:0.15073 | PPL:66 CER:0.15073 | ||
− | + | 准备:增加标注数据,整理数据,在迭代训训练; | |
===平安项目=== | ===平安项目=== | ||
第199行: | 第198行: | ||
700H LSTM_new-sched_4400h 17.39 训练中,平安的数据 | 700H LSTM_new-sched_4400h 17.39 训练中,平安的数据 | ||
已训练完:17.13; | 已训练完:17.13; | ||
− | + | MPE的问题已解决,已启动训练; | |
− | 平安的数据,如果超过CNN的15. | + | 平安的数据,如果超过CNN的15.37,则可以商用;CNN MPE有迭代一次,没有明显提升; |
===训练算法=== | ===训练算法=== | ||
− | * | + | *梯度算法改进: |
+ | 共有5个,clean数据训练,noise数据测试好;noise训练,noise数据测试,不如baseline不好; | ||
+ | *batch normalization: | ||
+ | 对隐藏输出,进行线性变换,再解码;效果是clean好,但是noise不好; | ||
*phone级识别算法 | *phone级识别算法 | ||
+ | 还在跑;需要接近Baseline,现在差10~20%; | ||
==中英混识== | ==中英混识== | ||
第214行: | 第217行: | ||
LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 | LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 | ||
基本已收敛:17.17% 英文 48.46% | 基本已收敛:17.17% 英文 48.46% | ||
− | + | MPE训练已启动; | |
*RNN 1400+300H | *RNN 1400+300H | ||
DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 | DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 | ||
LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 | LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 | ||
− | 已跑6轮:中文:17. | + | 已跑6轮:中文:17.30;英文:38.16 |
第8轮: 中文:17.91;英文:38.69 | 第8轮: 中文:17.91;英文:38.69 | ||
+ | 第9轮: 中文:17.82;英文:36.38 | ||
+ | Decision Tree Balance; | ||
==中文16K远场== | ==中文16K远场== | ||
第274行: | 第279行: | ||
42.5% 44% | 42.5% 44% | ||
请米吉提老师查一下monphone的分词是否正确? | 请米吉提老师查一下monphone的分词是否正确? | ||
+ | |||
+ | 分词有问题? | ||
+ | |||
+ | 实验结论: | ||
+ | 3元的monphone比word好2个点; | ||
发布了一个维语模型,需要识别标注语料,发布的是word模型: | 发布了一个维语模型,需要识别标注语料,发布的是word模型: | ||
第299行: | 第309行: | ||
*第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行 | *第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行 | ||
===DNN端点检测=== | ===DNN端点检测=== | ||
− | *端点检测模型:4*400+ | + | *端点检测模型:4*400+500,MPE1� |
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + | ||
− | + |
2015年9月8日 (二) 07:06的版本
数据
- 第三季度目标
语音数据
- 数字字母串
电话录音,已录音完毕,已完成1500句校对,还有5500句尚未校对完毕;
- 16K 灵云数据
正在标注输入法数据,除了地点的都标注; 每周能够标注50H;
- 8K
平安:已标注895小时,未再标注; 英大:已标注80小时,还有20小时,在继续,优先级低于无锡; 无锡地税:目标50小时,已标注30小时; 滴滴:已提供404,清洗后训练358小时;已标注共计550小时,正在导出,导出的数据有问题;在继续标注,现有已切语料,预计能标注600小时;
- 粤语标注了一个测试集,测试CER:88%;
兼职有一些,验收一人; 在开展培训,计划10月18日标注100小时; 合格0.2小时;20个人标注;1个人验收;
- 维语
已标注完成54.05小时,提供训练; 还有10小时成品,尚未导出,等下次训练时导出; 又传上了一批开始标注;
文本数据
- 香港文本
在继续下载; 需要主要下载新闻网站,之前理发店的就下了40G;共10G清理出400M;
- 台湾文本
在继续下载;
2 中文16K
- 第三季度目标 当前WER:93.5% 目标WER:>94.5%
DNN
RNN
- 1700+776H
baseline 6776 dnn mpe 27.89 LSTM_xent_iter03_910h 27.99 模型训练中 六轮结束:26.06 slm解码(blm 19.x,解码变差,可选路径比较多)相对与baseline:18.x 七轮进行中: 测试集从1000句中挑的;
- newschedule结论:速度快,但是效果会差些;
- MPE的问题:
发现NAN,赋给一个0; NAN错误,根本原因还没有解决
TagModel
- 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);通用模型做的。
加多个Tag时,只有第一个Tag起作用,后面的没有起作用; gmerge,小韩测试,可以出多个,梦原需要核对一下脚本; 只有biglm时存在问题;
Tag方法要解决的问题: 语言模型没有覆盖到; 新的电影名称,人名; 将新的人名或电影名称加进去; 老的,如巩俐等,使用加重,weight是手工选的,不是统计的;
期望解决语料不足的问题,但是只能缓解,不能指望有太大的提高;
TagModel名词: Tag position 词表大小 Tag:人名 电影名 ... Position:借用语言模型中词; 词表大小:每个Tag中的词汇量;
原则: LM能解决的,就不要用Tag; Tag的词表尽量小; Position的选择:从发音词典中的词,计算PPL,排序,根据Tag的类型,找PPL最小的词,这些词作为Tag的Position;
问题是:都已解决 添加一个Tag,小词表范围上是可以的;验证是一致的,添加更多词条,100和10万,结果差不多;Tag的weight值,-1到-5; 添加多个Tag,目前小韩测试可以,梦原这有问题,之前马习应该已解决,需要对以下脚本;也已解决:fst上的标号乱了;
识别偏差大:舒淇;黄渤,韩国; G_merge,句式模型,有死循环;
先做一个测试集,最新的电影名: 统计Count; 几个Tag(尽可能少):人名?电影名,电视剧?需要调整weight; 训练Tag模型测试;
LM和句式的Merge的实验?
振龙测试: 小米1.75模型,random语料; 在这个上加tag,按照梦原的方法; 选10个词,和梦原的一样; 加Tag,10万级; 但是识别结果比较离谱;
遗留: 根据句式,fst的compose,找到唯一路径,选择position; 在句式模型上,直接进行Tag处理;
- 如果Tag中的词加入count,是否有效?
月度语言模型更新
- 2015-9月,语料下载;
领域语言模型
领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?
小米项目
- TagModel:
Tag: 句式补充:赵涛在做; 词表整理:电影里面不是电影名的去掉;还没有做;
- 小米线上模型:xiaomi_20150814 0.0175
- 多选
调试已差不多了,速度也不慢了;
- 速度慢
灵云SDK在查;
勤威项目
- 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;尚未得到用户反馈;
语音自适应
针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;
中文8K
- 第三季度目标 当前WER:75%;目标WER:>78% (相对下降10%)
并行训练
训练机更换第四块GPU卡? 启动1400H的8K,DNN,大约1.6倍,正确率基本一样,没有下降; RNN的还不支持;
Darkknowledge
- 三种方法
未标注:soft 已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。 mix训练:未标注+已标注
- 辽宁移动:
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练, Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差; 分析:应该没有太大的增长,对100小时以内的数据,比较显著; 有时间再查具体原因;已基本达标,优先级降低;
- Ensemble training
13 model ensemble training: 30.81% 解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器; 准备训练:分领域,分省; 8K24省的数据,一共500+,每省20小时左右; 列出数据的编码类型;晓明找一下思思给出; 训练方法:DNN的标准训练方法; 数据标注抽检合格率85%; 优先级低,先搁置,等GPU
Data selection
Acoustic-based selection: ubm-decoding done. Phonetic-based selection: decoding done. 没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写; 脚本还没有再修改;
滴滴项目
引擎修改多选输出; HCLG的可以了;CLG的还没有修改;
使用358H语料训练: PPL:66 CER:0.15073
准备:增加标注数据,整理数据,在迭代训训练;
平安项目
DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;引擎模型的打包工具已修改完,引擎提交测试;
目标有变化:坐席90%;客户:80%;原来是平均85%; 一个声学模型,两个语言模型,同时计算; 文本的自动分类:
声学模型895H,开始训练;从头开始训练,已训练完成DNN的MPE,准备再迭代一次MPE; 语言模型,需要话者分离,进行分类模型训练:正在做工具;
RNN
700H LSTM_new-sched_4400h 17.39 训练中,平安的数据 已训练完:17.13; MPE的问题已解决,已启动训练; 平安的数据,如果超过CNN的15.37,则可以商用;CNN MPE有迭代一次,没有明显提升;
训练算法
- 梯度算法改进:
共有5个,clean数据训练,noise数据测试好;noise训练,noise数据测试,不如baseline不好;
- batch normalization:
对隐藏输出,进行线性变换,再解码;效果是clean好,但是noise不好;
- phone级识别算法
还在跑;需要接近Baseline,现在差10~20%;
中英混识
- 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;
8K
- RNN 1400+100H
DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 LSTM_xent_iter08_1270h 中文:17.49 英文:48.06 基本已收敛:17.17% 英文 48.46% MPE训练已启动;
- RNN 1400+300H
DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30;英文:38.16 第8轮: 中文:17.91;英文:38.69 第9轮: 中文:17.82;英文:36.38 Decision Tree Balance;
中文16K远场
- 第三季度目标 2米有效角度内,WER:>88%
山东共达
鲁磊提供了远场声音增强的工具; 准备用近场声音处理后,进行一个模型的训练;
在使用232小时做实验;已训练完毕,测试集没有没有做增强,测试不好; 测试集是用共达芯片录制的,没有增强,正在查问题;
科声讯的方案
远场处理方案;Mic芯片; 芯片已到,先用已有的近场模型测试;
粤语16K
- 第三季度目标 目前不支持,目标:支持,WER:>80%
声学模型
已训练完成 130H
语言模型
下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78
粤语8K
- 目标 WER:>65%
声学模型
- 需要标注语料,正在招标注员、验收员,进行招聘;"
- 语言模型 "语言模型训练完了,测试结果:
8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"
用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;
维语16K
WER:85%
维语8K
- 第三季度目标 目前不支持,目标:支持,WER:>65%
声学模型
已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;
语言模型
和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;
word模型:3G+原Word+35H语料 4元 monphone模型: 4元 老的模型:word 3元,monphone 4元; 需要验证元数的影响:将monphone裁剪为3元;
word比monphone好,都是35小时的文本,4元; 42.5% 44% 请米吉提老师查一下monphone的分词是否正确?
分词有问题?
实验结论: 3元的monphone比word好2个点;
发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925
其他语种
蒙语 藏语 哈语 朝鲜语 彝族语 ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; 翻译局:朗读
情感识别
- 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;
OpenEar产品化
待引擎产品化;
8K模型训练
开发完引擎,选取语料,进行标注;
话者分离
- 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行
DNN端点检测
- 端点检测模型:4*400+500,MPE1�