FreeNeb project big model SRE status Report 2018-05-02

来自cslt Wiki

跳转至：导航、搜索

大规模SRE训练相关：
- 组织对阿里众包数据进行初选；
- 验证full-info训练，目前的结论：

   目标个数较多时（如几千），即使局部小规模（如几百人）逐步替换输出层全连接，也会牵一发而动全身，使得模型损失陡增，无法在短时间内收敛，故替换不能太频繁，并需要预留较长时间使得模型收敛；
   对训练得差不多的网络输出层全连接进行初始化，无论是随机化还是换成特定参数，再经过足够训练轮数达到收敛，都能增强网络泛化能力，这与ASR相关实验结果吻合，好比自身对自身的迁移学习，对于SRE，输出层全连接进行d-vector替换，效果更佳；
   是否length normalize输出层全连接对模型性能影响不大，也适用于大规模模型，与batch normalization有相似性。

未来一周工作：
- 协助完成SRE标准测试集的进一步梳理及已有模型结果输出，完成时间5.4 24:00前；
- full-info训练，据以往实验结果设计以下方案：

 输出层全连接部分替换为d-vector后，给予较长时间训练收敛至正常水平，再进行下一步替换，使用的训练集为阿里众包数据（保留部分测试集数据），模型输出时间5.5 24:00前；

- LID 模型及测试结果输出，完成日期5.4 24:00前；
- 大规模SRE模型交付

   基于SRE标准测试集，比较新旧各模型的优劣，并列出各条件下性能指标，供工程选择，完成时间5.6 24:00前。

取自“http://cslt.org/mediawiki/index.php?title=FreeNeb_project_big_model_SRE_status_Report_2018-05-02&oldid=30135”