“Sinovoice-2015-09-01”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“==数据== *第三季度目标 ===语音数据=== *数字串 电话录音 *16K 灵云数据 202H 一直在标注中 平衡?按照数据来源:输入法、导航...”为内容创建页面)
 
第5行: 第5行:
 
电话录音
 
电话录音
 
*16K 灵云数据  
 
*16K 灵云数据  
202H 一直在标注中 平衡?按照数据来源:输入法、导航
+
正在标注输入发数据
 
*8K  
 
*8K  
 
按照项目走,平安标注了100小时多,开始训练;(一共700+100);
 
按照项目走,平安标注了100小时多,开始训练;(一共700+100);
 +
平安895小时
 +
英大标注50小时
 +
滴滴358小时
 
*粤语标注了一个测试集,测试CER:88%;
 
*粤语标注了一个测试集,测试CER:88%;
 
已传到平台,等待标注;招聘标注员;
 
已传到平台,等待标注;招聘标注员;
  
 
===文本数据===
 
===文本数据===
*粤语文本
+
 
洗出来是400+M;已训练模型,CER:22%
+
 
 
 
==2 中文16K==
 
==2 中文16K==
第59行: 第61行:
 
最有效的position的词;
 
最有效的position的词;
 
7个position,选的词都加在这个7各position上;
 
7个position,选的词都加在这个7各position上;
 +
 +
振龙:在小米模型上加了Tag,但是识别结果比较离谱;
  
 
*13万词,加进去并不好;Tag还是需要筛查;
 
*13万词,加进去并不好;Tag还是需要筛查;
第64行: 第68行:
  
 
===月度语言模型更新===
 
===月度语言模型更新===
*2015-8月,正在下载语料;
+
*2015-8月,已训练完成,并准备上线:
 +
<pre>
 +
          7月            8月
 +
New_10000  0.159341411132  0.159250193837
 +
8000      0.0623416329864 0.0629908068603
 +
10000      0.0952451394759 0.0954142011834
 +
新词测试集 0.0771803447389 0.0774376125547
 +
<pre/>
  
 
===领域语言模型===
 
===领域语言模型===
第79行: 第90行:
 
*多选
 
*多选
 
调试已差不多了,速度也不慢了;
 
调试已差不多了,速度也不慢了;
 +
 +
*速度慢
 +
灵云SDK在查;
  
 
===勤威项目===
 
===勤威项目===
第93行: 第107行:
 
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持;
 
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持;
 
可以在多个GPU上跑了。2个GPU上比1个快1.6倍;
 
可以在多个GPU上跑了。2个GPU上比1个快1.6倍;
 +
 +
训练机更换第四块GPU卡?
 +
 
<pre>
 
<pre>
 
-------------------------------------------------------------------------------------------------
 
-------------------------------------------------------------------------------------------------
第140行: 第157行:
  
 
===滴滴项目===
 
===滴滴项目===
声学模型训练:270H的增量训练,大概12日能出来;
+
引擎修改多选输出;
语言模型训练:标注语料,ppl:69;识别率:84%
+
 
引擎修改多选输出:
+
使用358H语料训练:
语言声学都优化:ppl:67 识别率84.6%
+
PPL:66 CER:0.15073
  
 
===平安项目===
 
===平安项目===
 
DNN_xent:1400H + 700H 18.16
 
DNN_xent:1400H + 700H 18.16
 
DNN_mpe:1400H + 700H 16.87
 
DNN_mpe:1400H + 700H 16.87
CNN:15.37;梦原给了一个模型,公司这边还没有测试;
+
CNN:15.37;引擎模型的打包工具已修改完,引擎提交测试;
引擎模型的打包工具需要修改,还没有修改;"
+
  
 
目标有变化:坐席90%;客户:80%;原来是平均85%;
 
目标有变化:坐席90%;客户:80%;原来是平均85%;
 
一个声学模型,两个语言模型,同时计算;
 
一个声学模型,两个语言模型,同时计算;
 
文本的自动分类:
 
文本的自动分类:
双声道数据:?
+
 
按照语音片段,重新进行话者聚类;再做角色判定,完成文本分类,进行模型训练;
+
声学模型895H,开始训练;
 +
语言模型,需要话者分离,进行分类模型训练;
  
 
===RNN===
 
===RNN===
第180行: 第197行:
 
鲁磊提供了远场声音增强的工具;
 
鲁磊提供了远场声音增强的工具;
 
准备用近场声音处理后,进行一个模型的训练;
 
准备用近场声音处理后,进行一个模型的训练;
 +
 +
在使用232小时做实验;大概9月2日能出来模型;
  
 
===科声讯的方案===
 
===科声讯的方案===
第217行: 第236行:
 
word比monphone好;
 
word比monphone好;
 
42.5%  44%
 
42.5%  44%
 +
 +
发布了一个维语模型,需要识别标注语料:
 +
model_35h_20150828 CER:0.419693683925
  
 
==其他语种==
 
==其他语种==
第252行: 第274行:
 
本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283
 
本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283
 
</pre>
 
</pre>
*聚类存在BUG,需要解决;
+
MPE4的模型出来了,但是测试效果没有MPE1好;
*角色判定错误,需要定位问题;
+
 
 +
*聚类存在BUG,确认是不同数据库的精度造成的,是算法不太鲁棒;
 +
*英达财险角色判定错误,需要定位问题;
  
 
==声纹识别==
 
==声纹识别==

2015年9月1日 (二) 03:19的版本

数据

  • 第三季度目标

语音数据

  • 数字串

电话录音

  • 16K 灵云数据

正在标注输入发数据

  • 8K

按照项目走,平安标注了100小时多,开始训练;(一共700+100); 平安895小时 英大标注50小时 滴滴358小时

  • 粤语标注了一个测试集,测试CER:88%;

已传到平台,等待标注;招聘标注员;

文本数据

2 中文16K

  • 第三季度目标 当前WER:93.5% 目标WER:>94.5%

DNN

RNN

  • 1700+776H LSTM_xent_iter03_910h 27.99 模型训练中

iter05_ 四轮跑完; 没有进展,SGE故障,在恢复;

  • 三轮中的一个模型,newschedule

小LM1e-5(几M),比6000+H的DNN要好,好1个点; 大LM,没有DNN的好;

  • MPE的问题:还没有解决

TagModel

  • 实验室解决技术问题,还没有调出一个好的结果,直接在语言模型上fst调权重,可以出来;
  1. lm中加重;
  2. tag,在lm中有的去掉;选择词替换,test数据到lm中试;
  3. 后处理:替换;
  • video Tag,不能加太多;不是Name的去掉;清理Video;
  • 梦原:有问题的加入Tag,验证是否有效?
  • 晓明:指导数据加工,过滤出有效的数据;
1. 没必要调参数,word vector选词;纠错不行;similary pair;
   宁可:纠错词典,下周1之前会有一个简单能用的版本;
2. 分类:word vector 人名 电视剧名 电影名;
   宁可去掉,不能错放;
   重名?
  • 代码有错:fst加tag时串了;修改后,小实验上效果良好;小米的正在进行merge(nest);通用模型做的。

加多个Tag时,只有第一个Tag起作用,后面的没有起作用; 只有biglm时存在问题;

人名加重;

  • 脚本移到公司,在小米模型上进行训练;

用PPL选词; position,借用一个词的context,电影名->黑猫警长 最有效的position的词; 7个position,选的词都加在这个7各position上;

振龙:在小米模型上加了Tag,但是识别结果比较离谱;

  • 13万词,加进去并不好;Tag还是需要筛查;
  • 如果Tag中的词加入count,是否有效?

月度语言模型更新

  • 2015-8月,已训练完成,并准备上线:
           7月             8月
New_10000  0.159341411132  0.159250193837
8000       0.0623416329864 0.0629908068603
10000      0.0952451394759 0.0954142011834
新词测试集 0.0771803447389 0.0774376125547
<pre/>

===领域语言模型===
领域相关模型,类似于声学的mpe,如何描述这个领域?关键词?Grammar?

===小米项目===
*TagModel:
Tag:
句式补充:赵涛在做;
词表整理:电影里面不是电影名的去掉;还没有做;

*小米线上模型:xiaomi_20150814   0.0175

*多选
调试已差不多了,速度也不慢了;

*速度慢
灵云SDK在查;

===勤威项目===
*发布了一个模型:数据62H台湾POI,在6776MPE3上增量;尚未得到用户反馈;

===语音自适应===
针对个人的
能提高2~3%(基数CER约10%)
客户端提取ivector,传给服务器;

==中文8K==
*第三季度目标	当前WER:75%;目标WER:>78% (相对下降10%) 
===并行训练===
并行训练:需要新版本cublas的支持;kaldi不支持,需要支持;
可以在多个GPU上跑了。2个GPU上比1个快1.6倍;

训练机更换第四块GPU卡?

<pre>
-------------------------------------------------------------------------------------------------
|              | FACC(tr, cv) | loss (tr, cv) |    TIME    | WER(test_2000ju)| WER_(test_8000ju)|
-------------------------------------------------------------------------------------------------
|   baseline   | 56.89, 53.01 |  1.664, 1.911 | 50min * 16 |      35.29      |       20.37      |
-------------------------------------------------------------------------------------------------
| 2-gpu-gap60  | 57.03, 53.16 |  1.653, 1.901 | 30min * 14 |      35.37      |       20.08      |
-------------------------------------------------------------------------------------------------

Darkknowledge

  • 三种方法
未标注:soft
已标注:soft + hard label,diff加权和 实验室是:加权比只有hard会好些。
mix训练:未标注+已标注
  • 辽宁移动:
400h dark knowledge xEnt + MPE, 有标注和无标注的一起训练,
Mix训练方法:400h迭代优化,加500小时未标注,晓明已训练完,小韩测试效果变差;
分析:应该没有太大的增长,对100小时以内的数据,比较显著;
有时间再查具体原因;已基本达标,优先级降低;
  • Ensemble training
13 model ensemble training: 30.81%
解码ensemble decoding,声学部分,对多个模型的声学后验概率合并输出给后面的解码器;
准备训练:分领域,分省;
8K24省的数据,一共500+,每省20小时左右;
列出数据的编码类型;晓明找一下思思给出;
训练方法:DNN的标准训练方法;
数据标注抽检合格率85%;
优先级低,先搁置,等GPU

Data selection

	
Acoustic-based selection: ubm-decoding done. 
Phonetic-based selection: decoding done.
没有跑。脚本的效率太慢,准备分布式跑,如果还慢,换C++语言重写;
脚本还没有再修改;

滴滴项目

引擎修改多选输出;

使用358H语料训练: PPL:66 CER:0.15073

平安项目

DNN_xent:1400H + 700H 18.16 DNN_mpe:1400H + 700H 16.87 CNN:15.37;引擎模型的打包工具已修改完,引擎提交测试;

目标有变化:坐席90%;客户:80%;原来是平均85%; 一个声学模型,两个语言模型,同时计算; 文本的自动分类:

声学模型895H,开始训练; 语言模型,需要话者分离,进行分类模型训练;

RNN

700H LSTM_new-sched_4400h 17.39 训练中

中英混识

  • 第三季度目标 支持中英混识,对纯中文影响<1%,混识识别率达到纯中文的95%;

8K

  • RNN 1400+100H

DNN_xent 中文:20.83 英文:57.50 DNN_xent_ft4200h-hl3 中文:19.52 英文:57.20 基本已收敛:17.17% 英文 48.46%

LSTM_xent_iter08_1270h 中文:17.49 英文:48.06

  • RNN 1400+300H

DNN_xent_ft4200h-hl3 中文:20.56 英文:39.75 LSTM_xent_iter04_1340h 中文:18.93 英文:40.08 训练中 已跑6轮:中文:17.30 英文:38.16"

中文16K远场

  • 第三季度目标 2米有效角度内,WER:>88%

山东共达

鲁磊提供了远场声音增强的工具; 准备用近场声音处理后,进行一个模型的训练;

在使用232小时做实验;大概9月2日能出来模型;

科声讯的方案

远场处理方案;Mic芯片;

粤语16K

  • 第三季度目标 目前不支持,目标:支持,WER:>80%

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"

用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;

维语16K

WER:85%

维语8K

  • 第三季度目标 目前不支持,目标:支持,WER:>65%

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

word比monphone好; 42.5% 44%

发布了一个维语模型,需要识别标注语料: model_35h_20150828 CER:0.419693683925

其他语种

蒙语 藏语 哈语 朝鲜语 彝族语 ASR和TTS,技术方案:客户提供数据,能否和学校合作:需要懂语言的人来处理数据; 翻译局:朗读

情感识别

  • 第三季度目标 目前:识别生气,正确率<30%;目标破:识别生气:16K >65%; 8K >60%;

OpenEar产品化

待引擎产品化;

8K模型训练

开发完引擎,选取语料,进行标注;

话者分离

  • 第三季度目标 目前:正确率82%;目标:暂无计划,结合项目进行

DNN端点检测

  • 端点检测模型:4*400+500,MPE1:
1、字正确率
引擎版本	字错误率	总数	错误	警告	缺失
r925	cer:0.229239308333;	allcount:28106;	subcount:1757;	addcount:889;	errcount:3797;
r946;	cer:0.23354443891;	allcount:28106;	subcount:1860;	addcount:881;	errcount:3823;
2、话者分离效果
引擎版本	时长	正确率	错误	警告	缺失
r925	all total:3429752.000000	correct:0.824830	err:0.051051	alarm:0.104936	miss:0.019183
r946	all total:3423533.000000	correct:0.810460	err:0.052723	alarm:0.103310	miss:0.033507
3、实时率:
本次使用引擎测试工具测试r946版本的质检引擎实时率约为0.283

MPE4的模型出来了,但是测试效果没有MPE1好;

  • 聚类存在BUG,确认是不同数据库的精度造成的,是算法不太鲁棒;
  • 英达财险角色判定错误,需要定位问题;

声纹识别

  • 第三季度目标 数字串串长6的EER<1%;支持百万级的实时辨识;
  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • TZNorm算法 TZNorm算法,与预期不符,检查算法的正确性;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别: