Machine Learning Book

来自cslt Wiki
跳转至: 导航搜索

Introduction

2012年,我回到清华大学语音语言技术中心(CSLT)任教,继续关于语音信号处理相关领域的 研究,同时亦开始自然语言处理、金融信号处理等方面的工作。这三方面的工作虽 相差甚远,但都离不开机器学习的基础知识。另一方面,由于清华自身的学生名额极少,实验室 要想发展,不得不接收一些短期的实习学生。这样就造成这样一种局面,不论是从事哪方面研究的 实习生,实验室都不得不对他进行基础机器学习知识的培训。这种培训非常频繁,耗费了 我们很多精力和时间。

当前关于机器学习方面的资料非常丰富:Andrew NG在Coursea上的机器学习教程、Bishop的《机器学习与模式识别》 和周志华老师的《机器学习》都是非常好的基础教材;Goodfellow等人的《深度学习》是 学习深度学习技术的首选资料;MIT、斯坦福等名校的公开课也非常有价值; 一些主要会议的Tutorial、keynote也都可以在网上搜索到。然而,在对学生们进行培训的过程中, 我深感这些资料专业性很强,但入门不易。一方面可能是由于语言障碍,另一个主要原因在于机器学习覆盖 面广,研究方向众多,各种新方法层出不穷,初学者往往在各种复杂的名词,无穷无尽的 算法面前产生畏难情绪,导致半途而废。

2016年7月到8月,我在CSLT组织了一次关于机器学习的内部暑期研讨班[1],主要目的不是细致 讨论各种具体算法,而是将各种看似高深的方法有机组织起来,告诉学生们每种方法 的基本思路、基本用法及与其它技术的关联,帮助 其走入机器学习的宏伟殿堂。除了我讲以外,还有冯洋、王彩霞、王卯宁 三位老师,分别讲述图模型、核方法和遗传算法。研讨班取得了意想不到的效果,很多学生 不仅掌握了基础知识和研究技巧, 同时也对机器学习产生了浓厚兴趣,为进一步深入研究打下了基础。这期研讨班的幻灯片、视频及 辅助资料已经在网上公开。

本书的主体内容是基于该研讨班形成的总结性资料。基于作者的研究背景,这本书很难说 是机器学习领域的专业著作,而是一本学习笔记,是从一个机器学习 技术使用者角度对机器学习知识的一次总结,并加入我们在本领域研究中的一些经验和发现。 与其说是一本教材,不如说是一本科普读物, 用轻松活泼的语言和深入浅出的描述为初学者打开机器学习这扇充满魔力的大门。 打开大门以后,我们会发现这是个多么让人激动人心的 领域,每天都有新的知识、新的思路、新的方法产生,每天都有令人振奋的成果。我们希望这本书 可以让更多学生、工程师和相关领域的研究者对机器学习产生兴趣,在这片异彩纷呈的海域上找到 属于自己的那颗贝壳。


参与本书先期整理的老师和同学包括:李敖东、刘艾婷、邢超、张安迪、白紫薇、汤志远、罗航、张纪袁、王彩霞、石颖、林靖伊、汪洋、李蓝天、陈怿详、王卯宁等。

一些朋友和学生帮助进行了文字查错工作,包括:张雪薇、林靖伊、戴海生、张淼、邵佳音、景鑫、富豪、苏红亮。

当前初稿已经完,但其中一些图片版权等信息还未处理完全,查错工作还需一段时间。


目前该资料不作为任何公开发表内容使用。

本工作受自然科学基金项目《语音识别中的稀疏性深度学习》(61371136)的支持,特此致谢。

--王东


Reading notes of interns

点击查看

2016 Summery Seminar

Slides, Video are here.


Version 2018-08-31

Miao Zhang did quite lot of check. Now seems much better.


Version 2018-03-29

Some more check



Version 2018-03-20

More check on chapter 5,6,7,8,9


Version 2018-03-10

Minor correction for Chapter 9, Chapter 10.



Version 2018-02-06

Minor correction for Chapter 11.



Version 2018-01-29

Renew all chapters. Tried to make math symbols consistent.



Version 2018-01-24

Draft of chapter 11 done. All the chapers done.

Now will go back to check all the equations, pictures, spellings, etc.



Version 2018-01-11

Draft of chapter 9, evolutionary learning. 


Version 2018-01-01

Draft of chapter 8, nonparametric models released. 


Version 2017-12-18

Draft of chapter 7, unsupervised learning released. 


Version 2017-11-28

Draft of chapter 6, graphical model released. 


Version 2017-11-12

Draft of chapter 5, Kernel method released. 

Version 2017-08-28

  • Minor change, adopting corrections from Fu Hao.


Version 2017-08-13

  • Minor error-corrections. Zhang Miao helps chapter 2 and Jingxin helps chapter 3.
  • I changed the format so that each chapter pdf can see the whole structure of the book.


Version 2017-07-28

  • Re-checked Chapter1-4.
  • Thanks for Zhang Miao's minor correction for Chapter 4.
  • Thanks for Jingxin's proof reading for Chapter 1.


Version 2017-07-14

deep learning done. some errors corrected by Zhang Miao.


Version 2017-06-29

Lots of errors still exist, but less than the previous version.


Version 2017-04-12

目前完成四章:绪论、线性模型、神经模型、强化学习 (所有tex资料在cvs repository cslt.book)

未查错字版本 pdf