“第十三章 学习策略”版本间的差异
来自cslt Wiki
(以“==教学资料== *教学参考 *[http://aigraph.cslt.org/courses/12/course-13.pptx 课件] *小清爱提问:什么是爬山法?[https://mp.we...”为内容创建页面) |
(没有差异)
|
2022年8月3日 (三) 03:03的最后版本
教学资料
扩展阅读
- 维基百科:没有免费的午餐定理 [2]
- 维基百科:梯度下降法[3][4]
- 百度百科:梯度下降法[5][6]
- 知乎:梯度下降法[7]
- 知乎:小批量梯度下降法[8]
- 知乎:动量梯度下降法[9][]
- 维基百科:模拟退火算法 [10][11]
- 百度百科:模拟退火算法[12][13]
- 知乎:模拟退火详解 [14]
- 维基百科:牛顿法 [15][16]
- 维基百科:奥卡姆剃刀[17][18]
- 百度百科:奥卡姆剃刀[19][20]
- 维基百科:过拟合[21][22]
- 维基百科:GPT-3 [23][24]
- 机器之心:当谈论机器学习中的公平公正时,我们该谈论些什么?[25]
- 机器之心:数据增强 [26]
- 知乎:数据增强 [27][28]
- 什么是模型预训练[29]
- 迁移学习 [30]
演示链接
开发者资源
高级读者
- 王东,机器学习导论,第一章“绪论”,第十一章“优化方法”[33]
- Wolpert, David (1996), "The Lack of A Priori Distinctions between Learning Algorithms", Neural Computation, pp. 1341–1390 [34]
- Sebastian Ruder, An overview of gradient descend algorithms,2017 [35]
- Kirkpatrick, S.; Gelatt Jr, C. D.; Vecchi, M. P. (1983). "Optimization by Simulated Annealing". Science. 220 (4598): 671–680. [36]
- Brown et al., Language Models are Few-Shot Learners [37]