“Sinovoice-2015-11-05”版本间的差异

来自cslt Wiki
跳转至: 导航搜索
(以“==数据== *第三季度目标 ===语音数据=== *16K 灵云数据 10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中...”为内容创建页面)
 
声纹识别
 
(相同用户的3个中间修订版本未显示)
第7行: 第7行:
 
语料从1000小时中,通过ASR打分,取出中间的400小时;
 
语料从1000小时中,通过ASR打分,取出中间的400小时;
  
 
+
*粤语标注了一个测试集,增量9小时,CER:54%;30h,50%
*粤语标注了一个测试集,增量9小时,CER:54%
+
 
粤语已标注45小时,本周能达到50小时,训练50小时增量模型;
 
粤语已标注45小时,本周能达到50小时,训练50小时增量模型;
 
?要达到75%的目标,大概需要多少语料?训练方法上是否有改进之处?
 
?要达到75%的目标,大概需要多少语料?训练方法上是否有改进之处?
 +
夹有英文。
  
 
*维语
 
*维语
 
已标注完成62小时,一个星期出不了1个小时;
 
已标注完成62小时,一个星期出不了1个小时;
 
可以先结一次。
 
可以先结一次。
 +
语音标注、维语的语义理解,2年
  
 
===大模型===
 
===大模型===
1)16K9000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文
+
1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文
   数据已处理完,提参数中;
+
   数据已处理完,提参数中;DNN 92上跑;
 +
  pdf:10000 8000中文 2000英文
  
 
2)8K 领域模型,领域通用:设备 4层1200x8000  信道、口音
 
2)8K 领域模型,领域通用:设备 4层1200x8000  信道、口音
第37行: 第39行:
 
   有很大改进,也只能是93%左右吧?
 
   有很大改进,也只能是93%左右吧?
 
   这样不能看出有多少优势啊?
 
   这样不能看出有多少优势啊?
 +
  DarkKnowledge先不训练。
 +
  10000从头训练,nnet3 rectifier 4层600*800
  
 
===TagModel===
 
===TagModel===
 
Weight大,没有出来,路径不一样,路径的整体分值导致不一致;
 
Weight大,没有出来,路径不一样,路径的整体分值导致不一致;
 
路径走完,但是也错了,需要查一下                                  晓明
 
路径走完,但是也错了,需要查一下                                  晓明
 +
count:只留两个,不分词,merge可能首外面影响;
  
 
如果加很多新词,需要找到合适的Context。                            之勇、晓明
 
如果加很多新词,需要找到合适的Context。                            之勇、晓明
第57行: 第62行:
  
 
小米的测试结果:
 
小米的测试结果:
 +
<pre>
 
Template tag include the word in the test
 
Template tag include the word in the test
 
句式 Tag种类 Video数量 Name数量 Factor 测试集                 WER
 
句式 Tag种类 Video数量 Name数量 Factor 测试集                 WER
38 2 282            792            -1 xiaomi_my_templete 0.0034
+
38 2 282            792            -1 xiaomi_my_templete   0.0034
38 2 282            792            -2 xiaomi_my_templete 0.0034
+
38 2 282            792            -2 xiaomi_my_templete 0.0034
38 2 282            792            1 xiaomi_my_templete 0.0034
+
38 2 282            792            1 xiaomi_my_templete 0.0034
38 2 111754          132549          -1 xiaomi_my_templete 0.044
+
38 2 111754          132549          -1 xiaomi_my_templete 0.044
38 2 1W              1W              -1 xiaomi_my_templete 0.064
+
38 2 1W              1W              -1 xiaomi_my_templete 0.064
38 2 1W+1W          1W+1W           -1 xiaomi_my_templete 0.068
+
38 2 1W+1W          1W+1W -1 xiaomi_my_templete                 0.068
55 2 1W              1W              -1 Xiaomi_Ttag         0.030
+
55 2 1W              1W              -1 Xiaomi_Ttag               0.030
  
 
Splice corpus include the word in the test
 
Splice corpus include the word in the test
句式 Tag种类 Video数量 Name数量 测试集 WER
+
句式 Tag种类 Video数量 Name数量   测试集             WER
38 2 1W 1W xiaomi_my_templete 0.037
+
38 2 1W 1W xiaomi_my_templete       0.037
38 2 1W+1W 1W+1W xiaomi_my_templete 0.027
+
38 2 1W+1W 1W+1W xiaomi_my_templete         0.027
 
55 2 1W 1W Xiaomi_Ttag         0.228
 
55 2 1W 1W Xiaomi_Ttag         0.228
  
 
勤威模型两个测试结果:
 
勤威模型两个测试结果:
测试集         模型             Union_factor WER
+
测试集         模型       nion_factor    WER
Qw_select Templatetag         0.0810529961898
+
Qw_select       Templatetag                                       0.0810529961898
Qw_select Templatetag+arpa -1 0.125389677866
+
Qw_select       Templatetag+arpa -1 0.125389677866
Qw_select Templatetag+arpa -3 0.128853481122
+
Qw_select       Templatetag+arpa -3 0.128853481122
Qw_select Templatetag+arpa -5 0.140284031867
+
Qw_select       Templatetag+arpa -5 0.140284031867
Qw_select arpa                 0.234933237099
+
Qw_select       arpa                                 0.234933237099
  
 
测试集         模型 Union_factor                 WER
 
测试集         模型 Union_factor                 WER
Qw_all         Templatetag         0.376478607803
+
Qw_all         Templatetag                 0.376478607803
 
Qw_all         Templatetag+arpa -1 0.154577168291
 
Qw_all         Templatetag+arpa -1 0.154577168291
Qw_all         arpa                 0.220990647731
+
Qw_all         arpa                                 0.220990647731
 
+
</pre>
 
LM和TagModel的合并fst, union,不是compose。                        晓明
 
LM和TagModel的合并fst, union,不是compose。                        晓明
 
测试集:句式在Tag中
 
测试集:句式在Tag中
第102行: 第108行:
 
客户端提取ivector,传给服务器;
 
客户端提取ivector,传给服务器;
 
===RNN===
 
===RNN===
LSTM不稳定,放弃
+
LSTM不稳定,和End-to-End Merge,
  
*End-to-End算法
+
*End-to-End算法,描述上下文不强,将stat去掉;
 
On 1400h Chinese data, raid96.
 
On 1400h Chinese data, raid96.
 
---------------------------------------------------------   
 
---------------------------------------------------------   
第118行: 第124行:
 
train_phn_ly4_c320_lr0.00004(iter6)              20.84        20.30          2.5day/iter
 
train_phn_ly4_c320_lr0.00004(iter6)              20.84        20.30          2.5day/iter
 
已找到MPE的训练方法,正在训练;
 
已找到MPE的训练方法,正在训练;
 +
MPE有个初步结果,提高0.4个点;
 +
MPE的方法是否正确?效果没有Context的好;快了,但是效果不太好;
 +
没有状态;
  
增量训练的问题?
+
CTC 单因子,context dependent to independe
 +
End-to-End = CTC + CIphone
 +
End-to-End + MPE已做完
 +
 
 +
目前需要解决的:
 +
并行;
 +
CDphone
 +
 
 +
96,实验室;92 8核GPU 16K,215 8K;
  
 
==中英混识==         
 
==中英混识==         
第127行: 第144行:
 
一个声学+多个语言模型:
 
一个声学+多个语言模型:
 
得分的可比性:
 
得分的可比性:
 +
 +
中文phone:
 +
英文phone:
  
 
Mixture:silence分开
 
Mixture:silence分开
第133行: 第153行:
 
中英单独识别:
 
中英单独识别:
 
两个解码:
 
两个解码:
 +
 +
原始模型,增强不行;
 +
同一个模型,
 +
旁边网络
  
 
Multi Task:
 
Multi Task:
第184行: 第208行:
 
   音量的影响?
 
   音量的影响?
 
   背景噪音:如大厅中,人声噪杂的影响?
 
   背景噪音:如大厅中,人声噪杂的影响?
 +
 +
端点检测
 +
Mic信道
 +
背景噪音

2015年11月5日 (四) 03:04的最后版本

数据

  • 第三季度目标

语音数据

  • 16K 灵云数据

10000小时实际语料的标注目标,已立项400小时的标注; 语料从1000小时中,通过ASR打分,取出中间的400小时;

  • 粤语标注了一个测试集,增量9小时,CER:54%;30h,50%

粤语已标注45小时,本周能达到50小时,训练50小时增量模型; ?要达到75%的目标,大概需要多少语料?训练方法上是否有改进之处? 夹有英文。

  • 维语

已标注完成62小时,一个星期出不了1个小时; 可以先结一次。 语音标注、维语的语义理解,2年

大模型

1)16K10000小时的跑一个DNN训练,加深加宽:7层2400x10000 rectifier 保留英文

  数据已处理完,提参数中;DNN 92上跑;
  pdf:10000 8000中文 2000英文

2)8K 领域模型,领域通用:设备 4层1200x8000 信道、口音

  华为V3信道压缩:中文英文语料已处理完,中英混还在处理中;


嵌入式

  DarkKnowledge训练; 小网络学习大网络,学的会更准,目标函数会更平滑一些;
  rectifier
  8000->800 需要调整pdf对应关系;
  4层600*800
  之勇已提供训练脚本;
  晓明准备搭建环境还是训练;

> 整理了一下之前的结果,600_800模型比大模型差一点多。 > 之前好像是记错了,是600_800 + 小语言模型是88%左右,加大语言模型时差的不多。

 问题是:如果server模型已经是93.5%,Embedded模型是92.5%,即便DarkKnowledge能
 有很大改进,也只能是93%左右吧?
 这样不能看出有多少优势啊?
 DarkKnowledge先不训练。
 10000从头训练,nnet3 rectifier 4层600*800

TagModel

Weight大,没有出来,路径不一样,路径的整体分值导致不一致; 路径走完,但是也错了,需要查一下 晓明 count:只留两个,不分词,merge可能首外面影响;

如果加很多新词,需要找到合适的Context。 之勇、晓明 张艺谋:替换姜文合适,但是替换屠呦呦不合适。

WordVector?基于词向量的新词加重。

   计算PPL的,如果太低的词,就不要加了。
   加重点词和关注的词。老词(词表中已有的)加重;

语料中超过5词,就可以使用。

拼语料和Tag的效果验证比较 晓明

   做了几个试验:
   1)加几百个词,两个的效果基本一致;
   2)加1万、2万、10万个词识别率差不多;10万拼语料太大,没有做出来;Tag比拼语料差3个点;

小米的测试结果:

Template tag include the word in the test
句式	Tag种类	Video数量	Name数量	Factor	测试集	                WER
38	2	282             792             -1	xiaomi_my_templete   	0.0034
38	2	282             792             -2	xiaomi_my_templete  	0.0034
38	2	282             792             1	xiaomi_my_templete  	0.0034
38	2	111754          132549          -1	xiaomi_my_templete  	0.044
38	2	1W              1W              -1	xiaomi_my_templete  	0.064
38	2	1W+1W           1W+1W  -1	xiaomi_my_templete	                0.068
55	2	1W              1W              -1	Xiaomi_Ttag               	0.030

Splice corpus include the word in the test
句式	Tag种类	Video数量	Name数量	  测试集	             WER
38	2	1W	1W	xiaomi_my_templete	       0.037
38	2	1W+1W	1W+1W	xiaomi_my_templete	        0.027
55	2	1W	1W	Xiaomi_Ttag	        0.228

勤威模型两个测试结果:
测试集	        模型	      nion_factor    WER
Qw_select       Templatetag                                        0.0810529961898
Qw_select       Templatetag+arpa	-1	0.125389677866
Qw_select       Templatetag+arpa	-3	0.128853481122
Qw_select       Templatetag+arpa	-5	0.140284031867
Qw_select       arpa		                                0.234933237099

测试集	        模型	Union_factor	                WER
Qw_all	        Templatetag		                0.376478607803
Qw_all	        Templatetag+arpa	-1	0.154577168291
Qw_all	        arpa		                                0.220990647731

LM和TagModel的合并fst, union,不是compose。 晓明 测试集:句式在Tag中

  • 识别后处理

已知道这个词错了,可以处理。不知时,还需要处理?

勤威项目

  • 发布了一个模型:数据62H台湾POI,在6776MPE3上增量;词表量250多万,识别不好;

省市路,分词,句式:tag的方法来做。 晓明 需要测试集,数据中心14日标完。

语音自适应

针对个人的 能提高2~3%(基数CER约10%) 客户端提取ivector,传给服务器;

RNN

LSTM不稳定,和End-to-End Merge,

  • End-to-End算法,描述上下文不强,将stat去掉;

On 1400h Chinese data, raid96.


model WER(%)

                                                 3-gram LM    5-gram LM      traning time

dnn 21.00 20.47


train_phn_ly4_c320_lr0.00004(iter1) 37.18 36.69 train_phn_ly4_c320_lr0.00004(iter3) 28.55 25.80 train_phn_ly4_c320_lr0.00004(iter4) 24.35 23.74 train_phn_ly4_c320_lr0.00004(iter5) 21.30 20.79 train_phn_ly4_c320_lr0.00004(iter6) 20.84 20.30 2.5day/iter 已找到MPE的训练方法,正在训练; MPE有个初步结果,提高0.4个点; MPE的方法是否正确?效果没有Context的好;快了,但是效果不太好; 没有状态;

CTC 单因子,context dependent to independe End-to-End = CTC + CIphone End-to-End + MPE已做完

目前需要解决的: 并行; CDphone

96,实验室;92 8核GPU 16K,215 8K;

中英混识

声学模型用中英混训练,语言模型使用中文,嵌入英文单词; 方法没有迭代下去,网络预测语种;指定语种复杂度高,训练慢;需要讨论使用其他方法提升。

一个声学+多个语言模型: 得分的可比性:

中文phone: 英文phone:

Mixture:silence分开 LanguageID?

中英单独识别: 两个解码:

原始模型,增强不行; 同一个模型, 旁边网络

Multi Task:

  对Target分成两部分(语音、说话人),对英文的增强;
  pdf monophone
  初步进行试验。

粤语16K

声学模型

已训练完成 130H

语言模型

下载语料,训练模型,PPL:1000+ 16K模型:字错误率21.78

粤语8K

  • 目标 WER:>65%

声学模型

  • 需要标注语料,正在招标注员、验收员,进行招聘;"
  • 语言模型 "语言模型训练完了,测试结果:

8k模型:字错误率22.0 测试集采用的是海天润声给的样本数据,从16k转8k。"

用实际语料标注的8K测试,CER:88%; 声学和语言模型,均不匹配;

维语8K

声学模型

已训练35小时;借用梦原的模型;用16K的lm Model,WER:30%左右;

语言模型

和新疆大学调试:公司Word;实验室 35H标注文本数据已提供实验室处理; toolkit做完了,维语句子转成monphone串;

发布了一个维语模型,需要识别标注语料,发布的是word模型: model_35h_20150828 CER:0.419693683925

导出64小时,声学和语言模型进行优化。

声纹识别

  • 数字串模型训练 正在采集数字串语音数据,预期本月内完成;
  • 聚类分类算法 基于Affinity距离的算法研究
  • D-Vector
  • 短语音的识别:

数字模型:单独训练,ivector和plda需要用数字需要训练。 之前录得语料,独立人只有100人; 16K的找到一个1200人的数据,从中挑选; 8K的采购;但是音量小,是否会有影响?

使用条件的问题:

 音量的影响?
 背景噪音:如大厅中,人声噪杂的影响?

端点检测 Mic信道 背景噪音