FreeNeb project big model SRE status Report 2018-05-02

来自cslt Wiki
跳转至: 导航搜索
  • 大规模SRE训练相关:
    • 组织对阿里众包数据进行初选;
    • 验证full-info训练,目前的结论:
   目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛;
   对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳;
   是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。


  • 未来一周工作:
    • 协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前;
    • full-info训练,据以往实验结果设计以下方案:
 输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;
    • LID 模型及测试结果输出,完成日期5.4 24:00前;
    • 大规模SRE模型交付
   基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。