FreeNeb project big model SRE status Report 2018-05-02
来自cslt Wiki
- 大规模SRE训练相关:
- 组织对阿里众包数据进行初选;
- 验证full-info训练,目前的结论:
目标个数较多时(如几千),即使局部小规模(如几百人)逐步替换输出层全连接,也会牵一发而动全身,使得模型损失陡增,无法在短时间内收敛,故替换不能太频繁,并需要预留较长时间使得模型收敛; 对训练得差不多的网络输出层全连接进行初始化,无论是随机化还是换成特定参数,再经过足够训练轮数达到收敛,都能增强网络泛化能力,这与ASR相关实验结果吻合,好比自身对自身的迁移学习,对于SRE,输出层全连接进行d-vector替换,效果更佳; 是否length normalize输出层全连接对模型性能影响不大,也适用于大规模模型,与batch normalization有相似性。
- 未来一周工作:
- 协助完成SRE标准测试集的进一步梳理及已有模型结果输出,完成时间5.4 24:00前;
- full-info训练,据以往实验结果设计以下方案:
输出层全连接部分替换为d-vector后,给予较长时间训练收敛至正常水平,再进行下一步替换,使用的训练集为阿里众包数据(保留部分测试集数据),模型输出时间5.5 24:00前;
- LID 模型及测试结果输出,完成日期5.4 24:00前;
- 大规模SRE模型交付
基于SRE标准测试集,比较新旧各模型的优劣,并列出各条件下性能指标,供工程选择,完成时间5.6 24:00前。