Machine Learning Book

来自cslt Wiki
2018年1月1日 (一) 23:05Cslt讨论 | 贡献的版本

跳转至: 导航搜索

Introduction

2012年,我回到清华大学语音语言技术中心(CSLT)任教,继续关于语音识别相关领域的 研究,同时亦开始自然语言处理、金融信号处理等方面的工作。这三方面的工作虽 相差甚远,但都离不开机器学习的基础知识。另一方面,由于清华自身的学生名额极少,实验室 要想发展,不得不接收一些短期的实习学生。这样就造成这样一种局面,不论是从事哪方面研究的 实习生,我们都不得不对他进行基础机器学习知识的培训。这种培训非常频繁。

当前关于机器学习方面的资料非常丰富:Andrew NG在Coursea上的机器学习教程、Bishop的《机器学习与模式识别》 和周志华老师的《机器学习》都是非常好的基础教材;Goodfellow等人的《深度学习》是 学习深度学习技术的首选资料;MIT、斯坦福等名校的公开课也非常有价值; 一些主要会议的Tutorial、keynote也都可以在网上搜索到。然而,在对学生们进行培训的过程中, 我深感这些资料专业性很强,但入门不易。一方面可能是由于语言障碍,另一个主要原因在于机器学习覆盖 面广,研究方向庞杂,各种新方法层出不穷,初学者往往在各种复杂的名词,无穷无尽的 算法面前产生畏难情绪,导致半途而废。

2016年7月到8月,我在CSLT组织了一次关于机器学习的内部暑期研讨班[1],主要目的不是细致 讨论各种具体算法,而是将各种看似高深的方法有机组织起来,告诉学生们每种方法 的基本思路、基本用法及与其它技术的关联,帮助 其走入机器学习的宏伟殿堂。除了我讲以外,还有冯洋老师、王彩霞老师、王卯宁老师 三位,分别讲述图模型、核方法和遗传算法三部分。研讨班取得了意想不到的效果,很多学生 不仅掌握了基础知识和研究技巧, 同时也对机器学习产生了浓厚兴趣,为进一步深入研究打下了基础。这期研讨班的幻灯片、视频及 辅助资料已经在网上公开。

本书的主体内容即是基于该研讨班形成的总结性资料。基于作者的研究背景,这本书很难说 是机器学习领域的专业著作,而是一本学习笔记,是从一个机器学习 技术使用者角度出发对机器学习知识的一次总结,并加入我们在本领域研究中的一些经验和发现。 与其说是一本教材,本书更象是一本科普读物, 用轻松活泼的语言和深入浅出的描述为初学者打开机器学习这扇充满魔力的大门。 打开大门以后,我们会发现这是个多么让人激动人心的 领域,每天都有新的知识、新的思路、新的方法产生,每天都有让人振奋的成果。我们希望这本书 可以让更多学生、工程师和相关领域的研究者对机器学习产生兴趣,在这片异彩纷呈的海域上找到 属于自己的那颗宝石。


本书的主体内容即是基于该研讨班形成的总结性资料。其中先期工作分配如下:第1章、第9章,第10章由我执笔; 第2章由李敖东、刘艾婷 执笔,第3章由邢超、刘艾婷、张安迪、白紫薇执笔;第4章由汤志远、罗航、张纪袁执笔;第5章由 王彩霞、白紫薇执笔;第6章由石颖、林靖伊、汪洋执笔,第7章由李蓝天、陈怿详执笔;第8章由 王卯宁执笔,第11章由王彩霞执笔。基于先期工作,由我统一整理完成。

在本书撰写过程中,张雪薇、戴海生、张淼、邵佳音、林靖伊帮助进行了部分文字查错工作。

本书还在编写过程中,计划在2018/1/21号前完成初稿。相关资料会随着写作进度更新。

当前版本完全是草稿,其中一些引用、图片版权等信息还未处理。该资料不作为任何公开发表内容使用。


--王东


2016 Summery Seminar

Slides, Video are here.


Version 2018-01-01

  • Draft of chapter 8, nonparametric models released.


Version 2017-12-18

  • Draft of chapter 7, unsupervised learning released.


Version 2017-11-28

  • Draft of chapter 6, graphical model released.


Version 2017-11-12

  • Draft of chapter 5, Kernel method released.

Version 2017-08-28

  • Minor change, adopting corrections from Fu Hao.


Version 2017-08-13

  • Minor error-corrections. Zhang Miao helps chapter 2 and Jingxin helps chapter 3.
  • I changed the format so that each chapter pdf can see the whole structure of the book.


Version 2017-07-28

  • Re-checked Chapter1-4.
  • Thanks for Zhang Miao's minor correction for Chapter 4.
  • Thanks for Jingxin's proof reading for Chapter 1.


Version 2017-07-14

deep learning done. some errors corrected by Zhang Miao.


Version 2017-06-29

Lots of errors still exist, but less than the previous version.


Version 2017-04-12

目前完成四章:绪论、线性模型、神经模型、强化学习 (所有tex资料在cvs repository cslt.book)

未查错字版本 pdf