今日要闻

如何写出一本中文经典CS教科书

2018-10-13 09:06 来源:laishu.com 作者:Laishu
导读: 新智元专栏作者:邓侃编辑:三石[1]如果说计算机的理论基础,归功于图灵,计算机的工程实现,归功于冯诺依曼设计的计算机体系。那么商用计算机的研制,尤其是...

新智元专栏

作者:邓侃

编辑:三石

[1]

如果说计算机的理论基础,归功于图灵,计算机的工程实现,归功于冯诺依曼设计的计算机体系。那么商用计算机的研制,尤其是硬件,头号功臣应该是 IBM,软件的头号功臣,应该是 Bell Labs,因为 Bell Labs 发明了 Unix 操作系统和 C 语言。

IBM TJ Watson Research Center 在纽约北边,Bell Labs 在纽约西南,两地相距 1 个多小时车程。这两个研究中心有很多相似之处,譬如走进正门,醒目位置都是历史陈列室,里面都陈列著各自的大神及其成就。

走进 Bell Labs 历史陈列室,自然要去拜拜 Ken Thompson 和 Dennis Ritchie 两位大神,Unix 操作系统的第一版,主要由 Ken Thompson 研发,而 C 语言,基本是 Dennis Ritchie 的作品。

说到操作系统,不能不提另一位大神,Abraham (Avi) Silberschatz。他执笔写的《Operating System Concepts》一书,深入浅出,要言不烦,是操作系统的经典教科书。不仅如此,他还写了 PPT,方便教学,非常贴心。这本教科书,一版再版,至今已经第十版了 [1]。

除了《Operating System Concepts》,Avi Silberschatz 还写了另一本经典教科书《Database System Concepts》。这本书也保持了他的一贯风格,深入浅出,要言不烦,还附带 PPT。这本书也一版再版,至今已经第五版了 [2]。

如果一本书成为某个领域的经典教科书,被广泛接受,那么被书中重点介绍的内容,便成为事实上的业界标准。如果中国学者能写一本人工智能的教科书,被全球引为经典,将会极大地促进中国,引领全球人工智能的发展。

Figure 1. 《Operating System Concepts》各个历史版本的封面。

http://codex.cs.yale.edu/avi/os-book/OS10/covers-dir/index.html

Figure 2. 《Database System Concepts》各个历史版本的封面。

http://db-book.com/

[2]

之所以一版再版,是因为相关技术更新很快,不仅需要添加新内容,而且先前的技术,有些已经被淘汰,需要删减。

早年的计算机使用磁带作为存储介质,后来被淘汰了,于是相关的串列存储内容,需要删减。随着云计算兴起,虚拟机渐热,这部分内容需要添加。另外,移动互联网使得安卓手机操作系统变成热门,安卓的内容也得添上。

以特斯拉为标杆的智能汽车,以大疆为标杆的无人飞机,以波士顿动力为标杆的机器人,涉及的硬件不同,需要解决的任务也不同,它们对操作系统提出了新需求。

不仅操作系统的教科书,要与时俱进,其它方向的教科书,也需要跟得上技术发展的节奏。

《Artificial Intelligence: A Modern Approach》初版于 1995,当时被学界誉为人工智能经典教科书。2003 再版,2009 年出第三版。从 2009年到现在,快 10 年了,没有再版。从 1995年到现在,人工智能技术取得了巨大的进步,尤其是深度学习的进展日新月异。现在深度学习几乎成了人工智能的同义词。如果要出版《Artificial Intelligence: AModern Approach》第四版的话,估计 2/3 的内容要重写。

如何才能快速地撰写并更新教科书呢?

Figure 3. 《Artificial Intelligence: A Modern Approach》第三版封面。

http://aima.cs.berkeley.edu/cover.html

[3]

自然语言处理(Natural Language Processing, NLP)是人工智能的一个分支。这个领域的经典教科书是《Speech and LanguageProcessing》。这本书的第一版,于 2000 年前后出版。其实这本书的草稿,在 1997 年前后,就已经在学界流传,并广受赞誉了。

Figure 4. 《SPEECH and LANGUAGE PROCESSING》第一版封面。

这本书最初是一本论文汇总,选择了若干优秀论文,根据不同主题,编排成若干章节。当时这本论文汇总的内容,偏重于 Speech Recognition,NLP 的内容不太丰富,而且几乎没有深度学习的内容。

Figure 5. 《SPEECH and LANGUAGE PROCESSING》第一作者Daniel Jurafsky。

本书的主要作者,是 Daniel Jurafsky。Dan 说,这本书最初只是一个论文精选目录,目的是让同学们快速了解该领域的研究前沿。后来同学们觉得一篇一篇下载论文原文 PDFs,太麻烦。于是,Dan 把这些精选论文汇总成册,为懒人们提供方便。

后来懒人们又建议,读论文全文,太费事。要是能对每篇论文,做个简单介绍,深入浅出,要言不烦,那就更方便了。于是 Dan 又继续做好人,写论文介绍,逐渐形成这本书的第一版。

现在这本书的内容,已经完全变样了。Speech Recognition 的内容,被大大缩编,而且被放进正文后的附录中去了。传统的 NLP 方法,舍卒保车,主流的传统方法被保留了一些,支流几乎消失殆尽。同时,大大强化了深度学习的最新成果的介绍。

Figure 6. 《SPEECH and LANGUAGE PROCESSING》第三版目录。

Daniel Jurafsky 本科博士受教于加州大学伯克利分校,毕业后去 University of Colorado Boulder 任教。在这期间,他不仅做出了很多亮丽的研究成果,而且持续更新《Speech and LanguageProcessing》的内容,逐渐成为 NLP 领域大师。随后,Dan 转校到斯坦福大学任教。

Dan 的成功经验,有三点值得重视,1. 广读论文,并且写读后感,2. 把众多读后感,分门别类编辑成书,3. 持续更新书的内容。

[4]

单枪匹马地更新教科书,工作负担太重。

2018年9月9日到14日,DeepMind 主办 Deep Learning Indaba 2018 学术会议,会上有专家梳理了 NLP 前沿进展,并发表演讲 [4]。该演讲广受业界好评。

如果比较一下近年来 NLP 的前沿进展,与《Speech and Language Processing》的内容,会发现刚刚出版的经典教科书,又需要更新了。一本书从写作到印刷出版,至少要一年。而最近深度学习的进展实在太快,一年前的话题,已经略显老旧。

一个可能可行的办法,是发动学者们共同协作,既是读者,也是作者。

1. 先在 GitHub 上罗列一个精选论文清单,类似于这样 [5]。值得特别点赞的是,这个论文清单,是中国学者罗列的。

2. 发动相关学者,给每一篇论文写介绍,深入浅出,要言不烦。

3. 把众多论文的介绍,根据不同主题,串连成章节,形成教科书。

4. 定期出版教科书的最新版本,并持续更新论文清单和论文介绍。

Figure 7. A review of the recent history of NLP

https://www.kamperh.com/slides/ruder+kamper_indaba2018_talk.pdf

Figure 8. 生物医学领域的机器学习应用的论文清单

https://github.com/xuhanvsxuhan/An-Incomplete-ML-Paper-Collection-for-BioMedical-Applications

参考文献:

1. Operating System Concepts

http://os-book.com/

2. Database System Concepts

http://db-book.com/

3. Speech and Language Processing

https://web.stanford.edu/~jurafsky/slp3/

4. Frontiers of Natural Language Processing

https://www.kamperh.com/slides/ruder+kamper_indaba2018_talk.pdf

5. An Incomplete ML Paper Collection for BioMedicalApplications




声明: 凡注明为其他媒体来源的信息,均为转载自其他媒体,转载并不代表本网赞同其观点,也不代表本网对其真实性负责。如系原创文章,转载请注明出处; 您若对该稿件内容有任何疑问或质疑,请即联系,本网将迅速给您回应并做处理。邮箱:mail@laishu.com

为您推荐

今日要闻

潮鞋品牌

风水知识

健康知识

母婴知识

膳食指南

星座解读

命理运势

养生保健

美食资讯

热点资讯

体育新闻

综合资讯