前言
自然语言处理(Natural Language Processing,NLP)旨在使计算机能够智能地处理人类语言,这是一门涵盖人工智能、计算科学、认知科学、信息处理和语言学的重要跨学科领域。由于长期关注计算机和人类语言之间的交互,NLP应用(例如,语音识别、对话系统、信息检索、问答和机器翻译)已经开始重塑人们识别、获取和利用信息的方式。
NLP的发展历经三大浪潮:理性主义、经验主义和深度学习。在第一大浪潮中,理性主义主张设计人工规则,以便将知识纳入NLP系统,其基础假设是人类思维中的语言知识通过一般继承预先固定。在第二大浪潮中,经验主义假设表面形式中的丰富感官输入和可观察语言数据是必需的,并且足以使大脑学习自然语言的详细结构。因此,人们开发了概率模型来验证大型语料库中语言的规则性。在第三大浪潮中,受生物神经系统的启发,深度学习利用非线性处理的层次模型,通过旨在模拟人类认知能力的方式学习语言数据的内在表征。
深度学习和自然语言处理的交叉在实际任务中取得了惊人的成功。语音识别是深度学习深刻影响的第一个工业化NLP应用程序。随着大规模训练数据的使用,与传统的经验主义方法相比,深度神经网络所造成的识别错误已经显著降低。机器翻译是另一个基于深度学习的成功的NLP应用。端到端神经机器翻译已经可以大大提高翻译质量,此种机器翻译使用神经网络对人类语言进行映射。因此,神经机器翻译已迅速成为大型科技公司(如谷歌、微软、Facebook、百度等)提供的主要商业在线翻译服务中的新型实用技术。包括语言理解和对话、词汇分析和句法分析、知识图谱、信息检索、文本问答、社交计算、语言生成和文本情感分析在内的其他NLP领域也在应用深度学习方面取得重大进展,并引领了NLP发展中的第三大浪潮。如今,在所有NLP任务的实际应用中,深度学习成为最主要的方法。
《基于深度学习的自然语言处理》旨在对基于深度学习的自然语言处理领域所取得的最新进展进行全面回顾。《基于深度学习的自然语言处理》介绍了以NLP为中心的深度学习所研究的最新技术,并重点介绍了深度学习在主要NLP应用中的作用,包括口语理解、对话系统、词法分析、句法分析、知识图谱、机器翻译、问答、情感分析、社交计算和自然语言生成(来自图像)。《基于深度学习的自然语言处理》适合具有计算机背景的读者阅读,包括研究生、博士后研究人员、教育工作者和工业研究人员以及任何对基于深度学习的自然语言处理最新技术感兴趣的人。
《基于深度学习的自然语言处理》共11章,内容如下所示。
第1章自然语言处理与深度学习概述(邓力、刘洋)
第2章基于深度学习的对话语言理解(Gokhan Tur、Asli Celikyilmaz、何晓东、Dilek HakkaniTür、邓力)
第3章基于深度学习的语音与文本对话系统(Asli Celikyilmaz、邓力、Dilek HakkaniTür)
前言基于深度学习的自然语言处理第4章基于深度学习的词法分析和句法分析(车万翔、张岳)
第5章基于深度学习的知识图谱(刘知远、韩先培)
第6章基于深度学习的机器翻译(刘洋、张家俊)
第7章基于深度学习的问答系统(刘康、冯岩松)
第8章基于深度学习的情感分析(唐都钰、张梅山)
第9章基于深度学习的社会计算(赵鑫、李晨亮)
第10章基于深度学习的图像描述(何晓冬、邓力)
第11章后记:深度学习时代下自然语言处理的前沿研究(邓力、刘洋)
第1章首先回顾了NLP的基础知识以及《基于深度学习的自然语言处理》后续章节所涵盖的NLP主要范围,然后深入探讨了NLP发展过程中的三大浪潮及其未来方向。第2~10章对深度学习在自然语言处理领域的应用所取得的最新进展进行深入分析,每一章分别介绍NLP中的一个应用领域,每章的内容由各自领域主要的研究人员和专家撰写。《基于深度学习的自然语言处理》缘于2016年10月在中国山东烟台举行的第15届中国计算语言学会议(CCL 2016)讲习班,我们作为主导者并积极参与其中。感谢施普林格出版社高级编辑常兰兰(Celine Lanlan Chang)博士,她慷慨地邀请我们创作《基于深度学习的自然语言处理》,并为《基于深度学习的自然语言处理》的成稿提供大量及时的帮助。感谢施普林格出版社副编辑李坚(Jane Li)在内容准备的各个阶段提供宝贵的帮助。
感谢《基于深度学习的自然语言处理》第2~10章的所有作者,他们花费宝贵的时间仔细准备相应的章节:Gokhan Tur、Asli Celikyilmaz、Dilek HakkaniTür、车万翔、张岳、韩先培、刘知远、张家俊、刘康、冯岩松、唐都钰、张梅山、赵鑫、李晨亮、何晓东。第4~9章的作者是CCL 2016讲习班的讲师,他们花了很多时间将2016年10月以来该领域的最新进展更新到各自的教程材料中。
此外,感谢众多评论家和读者:古井真熙(Sadaoki Furui)、吴恩达(Andrew Ng)、弗雷德?居昂(Fred Juang)、肯?切奇(Ken Church)、王海峰和张宏江,他们不仅慷慨地进行鼓励,还提出了许多建设性评论,大大改善了《基于深度学习的自然语言处理》的早期草稿。
最后,感谢微软研究院和Citadel(邓力所在的单位)以及清华大学(刘洋所在的单位)为《基于深度学习的自然语言处理》的完成提供优越的环境、支持和鼓励,这些都促使我们更好地完成《基于深度学习的自然语言处理》。刘洋还获得了国家自然科学基金(No.61522204、No.61432013和No.61331013)的支持。
邓力 美国西雅图
刘洋 中国北京
2017年10月