数据分析实用教程pdf下载pdf下载

数据分析实用教程百度网盘pdf下载

作者:
简介:本篇主要提供数据分析实用教程pdf下载
出版社:电子工业出版社
出版时间:2021-03
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

内容简介

本书共 14 章,内容涵盖:统计学的基本概念、推断性统计的相关理论和实例、方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析、SAS 编程基础、宏的概念和应用原理及上机练习指导。

本书内容全面,汇集了统计学、多元统计学和 SAS 编程技术的核心内容。本书针对不同的实战案例进行分析和总结,并展示了程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。

本书可作为各行业数据分析师的应用参考书、开设数据分析课程高校中的教师讲义,以及希望进入数据分析领域人员的自学读物。


作者简介

刘政博士

SAS中国研发中心总经理,负责此全球研发中心的整体运作;19年的外资企业经营和项目管理经验,丰富的信息技术和数据科学教育经验;中国软件行业协会理事,中国计算机学会大数据专家委员,清华大学大数据硕士项目教育指导委员会主任,中科院深圳先进技术研究院硕士研究生导师,北京大学、清华大学、中国科学技术大学讲席教授。

巫银良

SAS 中国研发中心技术总监,主要负责SAS 可视化分析(VA)、可视化数据挖掘与机器学习(VDMML)、商业智能和移动应用等产品线的研发管理。拥有近20年的计算机行业研发和管理经验,在企业应用和商业数据分析领域有着深厚的技术功底,著有《SAS技术内幕:从程序员到数据科学家》(2018)一书。北京大学《统计分析与商务智能》课程主讲。

左春琦

SAS中国研发中心自然语言处理软件开发工程师。北京大学、清华大学数据分析课程助理讲师。SAS中国数据分析大赛出题委员会委员。

李岚

SAS中国研发中心测试经理。十余年软件研发测试经验,涉及商业智能、数据分析、可视化展现、机器学习等各领域。北京大学《统计分析与商务智能》课程SAS编程讲师。

马晓丽

SAS 中国研发中心项目经理。十余年软件开发和项目管理经验,熟悉SAS风险管理解决方案以及SAS编程。清华大学《数据分析与优化建模》课程SAS编程讲师。参与SAS Little Book中文版翻译。


精彩书评

推荐者序一

在刚刚进入21 世纪的第二个十年,我们有一位研究生毕业以后加入了SAS 中国研发中心文本分析团队,由此,建立起了北京大学和SAS 之间的合作。我们经常会组织一些学术交流。SAS 总部领导到了北京以后,也会邀请我一同交流与沟通。那时候,社会上刚刚兴起大数据热,我们交流的题目都很热门,与以往其他企业的交流完全不一样。

经过一段时间的交流,我们之间有了很多的了解,我也在考虑为北京大学引入一门数据分析课程,把SAS 过去几十年的经验分享给同学们。2012 年上半年,我跟SAS 中国研发中心总经理刘政博士商量由他们在北京大学开设一门数据分析课程。刘政博士是SAS 中国研发中心总经理,负责SAS 全球三大研发中心之一的整体运作。刘政博士于2002 年回国,一直致力于提高中国高校在信息技术方面的教育水平。从 2003 年起,刘政博士参与了中国科学技术大学在北京的软件工程硕士项目的教学工作;在2012 年,他又积极推动开启了SAS 软件在中国高校的免费项目。当时,SAS 还没有为中国的大学提供免费的软件。

刘政博士开始跟美国总部进行沟通,经过几个月的不懈努力,SAS 第一个中国大学校园项目落户北京大学。

2012 年秋季学期,由SAS 中国研发中心总经理刘政博士带领的团队正式在北京大学信息科学技术学院开设研究生和本科生合上的公选课程“统计分析与商务智能”。这是SAS 公司首次与中国高校联合开设课程。该课程由一线高级工程师介绍前沿的大数据分析技术,受到了来自信息学院、数学学院、元培学院、光华管理学院、工学院等选课学生的广泛好评。2020 年已经是这门课程开设的第九个年头。随着大数据和人工智能的发展,会有越来越多的学生选修这门课程。

大数据是计算机应用和互联网发展带来的时代产物。它的出现让一切都有迹可循,有源可溯。我们每天都在生产和使用数据,而且我们一直都生活在一个大数据时代里,只是我们浑然不觉。由于技术的局限性,人们在很长一段时间里没有办法使用这些集容量大、种类多、增长速度快等特征于一身的全量数据。随着技术的发展与创新,大数据分析正在成为各行各业的必备技能,以及企业管理和决策的重要依据。因此,大数据分析在生产活动中扮演着越来越重要的角色,很多新兴行业,譬如物联网、人工智能、金融科技、生命科学等都是建立在这一基础之上的。电商等互联网企业在拥有了海量的用户数据之后,开始着手开展各类数据分析工作,以支撑自身的电子商务、定向广告和影视娱乐等业务。面对快速增长的个人贷业务及不断变化的个贷市场环境和政策,某银行基于大数据分析突破了传统审批流程和风险控制过程中的业务发展“瓶颈”,在市场竞争中迅速准确地制定相关的贷款政策,量化控制风险率、批准率。零售企业通过大数据建立用户画像,并监控营销活动的实时数据,确定最佳营销方案,实现精准营销。制造行业通过收集流水线上各种仪器的参数数据,找到更优的工艺参数,从而降低生产成本,提高生产效率。这些具有大数据分析战略和能力的企业终将在市场上占据主动。

大数据分析战略着眼于对数据进行专业化处理,其重点应在“分析”二字,而不仅仅是获取海量数据。当前有关大数据的信息繁多,谈的问题都不太系统,谈技术的多,谈分析的少。如何进行有效的数据处理、分析,找出数据内部蕴含的模式和规律才是大数据分析的根本。而数据分析能力的强弱将直接影响一个企业对数据的使用情况,也能反映其在市场上的竞争力。猎聘2019 年大数据人才就业趋势报告显示:中国大数据人才缺口高达150 万人,其中需要具备行业背景知识的大数据分析行业,如金融领域的数据分析行业,尚未完全开启的人工智能、物联网、智慧城市等新兴行业,未来将有大量的人才需求。海量信息的搜索、实时通信工具的信息传递、引发亿级流量的电商购物、亿万游戏玩家的数据信息处理、互联网金融的风险控制等,都需要大量的数据分析人才。所以数据分析人才正在成为这个时代的宠儿。

大数据分析不仅涉及计算机软件开发领域的专业技能,还涉及数学和统计相关学科的理论知识。在时代需求的背景下,北京大学信息科学技术学院与SAS 中国研发中心自2012 年起展开合作,成功开设了运用SAS 进行数据处理、数据分析的课程,为北京大学各专业的学生提供了学习并实践数据分析的机会。SAS 公司专门为该课程提供了免费使用的商业软件。该课程很好地结合了数据分析的理论知识、实用案例分析、软件使用和程序编写,给学生创造了一个深入浅出的学习曲线。借此契机,SAS 中国研发中心的教师秉持SAS 在数据分析领域的专注和严谨,通过总结日常学生的课堂反馈和学习成果,不断改进课程内容编排并适时地与当前大数据分析的趋势相结合,经过几个月的精心编写,完成了《数据分析实用教程》一书。

本书着眼于实战,汇集了统计学、多元统计学和SAS 编程分析技术的核心要点,以清晰的学习脉络为引导,并辅以贯穿各种分析案例的简洁的分析代码。本书开篇生动有趣地介绍了统计学代表人物的故事,向读者描绘了一幅清晰完整的统计学发展历程,对多种统计思维模式做了集中介绍,为接下来的统计学基本概念、描述性统计、推断性统计等内容的讲解奠定了基础。本书以方差分析、相关分析与回归分析、Logistic 回归、主成分分析与因子分析、聚类分析、判别分析、时间序列分析为重点,介绍了各类分析的基本思想和概念;结合实际案例数据和详细的分析过程,对分析思想进行了全面细致的介绍,使统计分析的理论知识和现实应用相呼应,具有很强的可操作性,易于理解和研习。

作者融入了多年的统计分析经验,总结了不同分析方法之间的特点,对各方法的应用场景和注意事项提出了独到的见解,通过大量统计分析图形和细致的分析报告展示了重点内容,并辅以SAS 程序的分析结果对前面的知识点进行了印证。更难能可贵的是,即使没有任何SAS 编程经验的初学者,也能通过自学开始一段奇妙的SAS 数据分析之旅。

本书配套提供了完整的课件、练习数据和课后实践代码,为使用本书的授课教师节省了大量时间。同时授课高校可以获得SAS 公司的软件支持,方便师生使用。对于自学的读者,该书提供了SAS 免费软件SAS University Edition 的专题介绍,读者可以按照操作步骤自行搭建SAS 软件的运行环境,通过运行教程中的SAS 程序或自行编写的程序,真正做到理论与实践相结合。

本书用翔实的内容、独到的实践总结和完备的课件,充分展现了作者的诚意和对推动数据分析人才建设的初心,旨在为有志成为新一代数据分析人才的读者提供一本高效实用的学习教程,帮助他们在大数据分析的浪潮中积蓄力量。根据我八年来与SAS 团队的合作经验,这是一本值得推荐的好书。

北京大学教授

张铭博士

目录

第1 章 描述性统计 . 1

1.1 统计学的发展历史 1

1.2 统计学的基础知识 4

1.3 连续型随机变量的概率分布 18

1.4 概率与二项分布 26

1.5 两大极限定理 33

1.6 数据类型与图示 38


第2 章 推断性统计:参数估计 45

2.1 推断性统计概述 45

2.2 点估计 46

2.3 区间估计 54


第3 章 推断性统计:假设检验 69

3.1 假设检验 69

3.2 参数检验 76

3.3 置信区间检验和P 值检验 91

3.4 非参数检验 94

3.5 非参数检验——符号检验法 95

3.6 非参数检验——秩和检验 98


第4 章 方差分析 108

4.1 方差分析的提出 108

4.2 单因素方差分析 111

4.3 双因素方差分析的概念及其基本假定 123

4.4 多因素方差分析 132


第5 章 相关分析与回归分析 140

5.1 相关分析 140

5.2 回归分析 150

5.3 简单线性回归 150

5.4 多元线性回归 159

5.5 可变换为线性回归的曲线回归 174


第6 章 Logistic 回归 175

6.1 交叉表分析 175

6.2 一元Logistic 回归 184

6.3 多元Logistic 回归 192

6.4 有交互效应的多元Logistic 回归 196


第7 章 主成分分析与因子分析 202

7.1 主成分分析的概念与原理 202

7.2 主成分分析SAS 实例 209

7.3 因子分析 219

7.4 因子分析SAS 实例 227


第8 章 聚类分析 234

8.1 聚类与分类的区别 234

8.2 案例:消费者分类问题 234

8.3 聚类分析概述 235

8.4 层次聚类 240

8.5 K 均值聚类 246

8.6 确定聚类数 256


第9 章 判别分析 266

9.1 判别分析基础 266

9.2 距离判别法 269

9.3 贝叶斯判别法 279

9.4 Fisher 判别法 301


第10 章 时间序列分析 310

10.1 时间序列基础 310

10.2 描述性分析与预测方法 315

10.3 平稳序列的预测 327

10.4 趋势序列的预测 335

10.5 复合序列的预测 351


第11 章 SAS 编程基础 375

11.1 SAS 基础 375

11.2 使用SAS 分析数据 387

11.3 SAS 处理数据集原理 413


第12 章 SAS 编程进阶 423

12.1 读取原始数据(文本)文件 423

12.2 访问Excel 工作表 436

12.3 创建自定义格式 438

12.4 使用SAS 函数 440

12.5 有条件处理 451

12.6 PROC SQL 简介 453


第13 章 SAS 宏编程 458

13.1 SAS 宏简介 458

13.2 熟悉SAS 宏变量 459

13.3 如何编译宏语言 469

13.4 宏程序简介 474

13.5 在数据操作中使用宏(案例研究) 479

13.6 间接引用宏变量 494


第14 章 SAS Enterprise Guide 操作应用 497

14.1 SAS Enterprise Guide 简介 497

14.2 SAS Enterprise Guide 上机练习 498


精彩书摘

推荐者序二

谈到“统计学”一词的由来,人们往往会追溯到300 多年前欧洲对国势学的研究,但如果讨论广义统计概念(包括计数、汇总等含义)的应用,其历史应该远早于城邦的出现,甚至可以追至远古。统计伴随着人类计数记事的需求,一路走来成为人们生产和生活中不可或缺的工具。四大文明古国都无一例外地留下了运用统计方法治国理政的印迹。随着回归分析和相关分析、假设检验、c 2分布和t 分布等理论的出现,现代数理统计学逐渐发展成为一门完整的学科。人们的关注点也从计数统计、描述统计逐渐转向推理统计、预测统计。根据不同应用对象的特征,统计学又衍生出社会统计学、生物统计学等不同分支。

与其他学科一样,统计学一直在发现和研究现实世界(自然的、社会的)的规律,并逐渐向学术研究和实践应用两个方向发展。与其他学科不一样的是,统计学以概率论为基础,从诞生起就有着定性“精准”、定量“模糊”的特征。在小数据时代,数据采集成本很高,计算能力受限,人们不得不探索用部分样本数据来推断整体,用科学的手段减少样本选择偏差,不断提高置信度。

21 世纪初,大数据技术浪潮扑面而来,计算能力、传输能力、存储能力都有了大幅度提高,数据的采集成本、传输成本、存储成本及计算成本都在迅速降低,对社会生活中的数据规律的探究也迎来了新的机遇与挑战。曾一度有人议论,既然我们已经有能力关注全量数据而不再只是关注抽样数据,那就不再需要统计学了。事实并非如此。宇宙是无限的,而人类的认识是有限的。人类一直在试图用数据逼近事实真相,大数据时代只是赋予了人们增加数据维度和细化数据颗粒度的能力,使人们有机会更接近事实真相而已。哪有什么绝对的全量数据!人们能采集、能计算的数据不论是维度还是颗粒度永远都是有限的。人类的计算能力永远赶不上数据的增长速度,统计学通过对有限的数据进行分析,用以呈现更大范围内有统计意义的事实,其方法论在大数据时代依然有学习、借鉴和应用的价值。特别是对统计学中建模思想的借鉴,是未来大数据分析师的基本技能。

在过去一段时间里,由于政策导向,学院派以发表学术文章为目的的统计学和应用统

计日渐脱节,从高校统计学教科书的内容组织上看也是重理论、轻实践。近年来,国家越来越重视“产教融合”“产研融合”,旨在改变学术脱离实践的现象。科技是第一生产力,越是经济下行压力大的时候,越要让学术为生产力服务,为实业赋能。在我国,人才短缺是困扰大数据发展的问题之一。传统教学内容跟不上科技的发展,跟不上社会的需求,学生的能力结构就出现了偏差。因此,需要在教授统计学的一招一式时与实践相结合。《数据分析实用教程》正是在这样一个背景下面世的。

本书由刘政博士领衔组织撰写。刘政博士的应用统计学功底深厚,任职SAS 软件研究开发(北京)有限公司总经理多年。我有幸邀请刘政博士担任清华大学大数据硕士项目教育指导委员会主任,并请他为跨专业跨领域的大数据硕士项目学生讲授“数据分析与优化建模”课程。这是一项极具挑战性的任务,因为大数据硕士项目的学生来自不同的专业(相关统计数据显示全校44 个院系都有学生参加该项目),有着不同的教育背景和知识结构,而且这个项目要求突显实践应用,教学难度很大。

刘政博士及其团队在面对北大、清华两所高校不同教学要求的情况下,积累了高校的统计学教学经验,加之对产业应用的深刻理解,确立了本书的定位。本书不仅较为全面地涵盖了统计分析的相关内容,而且附以丰富的应用案例,有理论、有实践,让读者能够学以致用。本书既可以作为教科书,也可以当成工具书。

为本书写推荐者序时,正值新冠肺炎猖獗,居家隔离,思绪万千。我们以为大数据可以把我们武装起来,变得无敌。突如其来的灾害告诉了我们自身的脆弱,人类还有很多未知的东西等待我们探索。同17 年前的SARS 相比,随着城镇化的推进,交通的发达,同是以空气传播为主的传染病,但其扩散模型一定是不同的,相应的防控措施也要有所不同。有很多灾中、灾后的宝贵数据等着我们去分析、去利用。

大数据时代无疑为人类带来了观察事物的全新视角,给各产业、各领域的发展带来了新的机遇。大数据人才知识结构中重要的组成部分就是数理统计能力和数据建模能力。对于想在大数据时代“建功立业”的在校学生或已走上社会的新生代,学习本书都将大有裨益。

清华大学数据科学研究院原执行副院长

韩亦舜



前言/序言

2012 年大数据的概念在社会上刚刚开始传播,这时,北京大学信息科学技术学院的张铭教授问我是否可以在北京大学开设一门数据分析课程。经过我们积极的准备,“统计分析与商务智能”课程于当年的秋季在北京大学开课了。

统计学的数学基础是创建在17 世纪布莱兹·帕斯卡和皮埃尔·德·费马发展的概率论之上的。运筹学在第二次世界大战时得到了广泛应用和发展,被用于战时资源的调配和人员调动。计量经济学起源于20 世纪50 年代的美国。这些学科的核心是数据分析,而数据分析真正在现代生活中获得广泛应用则开始于和计算机技术的结合。现代计算机技术极大地提高了数据处理速度和解决复杂问题的能力,人们由此发明了许多过去无法用人工计算的数学模型。1966 年,美国农业部委托南方8 所大学开发统计分析软件,用于分析农业数据,由此,开启了统计软件时代。然而数据分析一直是高高在上的领域,非专业人员很少涉猎其中,因此名气不大。20 世纪80 年代出现了个人计算机,软件开发变得热门;20世纪90 年代互联网开始兴起,数据库在企业中被广泛使用,办公实现了自动化;21 世纪CRM 和ERP 开始流行,同时互联网应用也得到了爆炸式的增长,尤其是电子商务、社交媒体和移动互联网的出现。这些技术进步、业务发展带来了一个同样的结果,那就是数据量开始急剧地增加,并散布于世界的各个角落。人们现在的一切行为几乎都会留下数据痕迹,如使用手机、在超市买东西、日常各种消费、出行(道路监控、出入关记录)等。全世界的数据累积已经超过了 40ZB 的量级。大数据时代就是数据分析时代,如果没有数据分析,大数据就是占据大量存储资源的废物。

数据记录了很多事情的发生过程和状态。而一件事情的发生会受很多因素的影响,这些因素的内在联系是什么,如何影响事情的发展,都可以用数据记录下来。人们希望通过对数据的分析,找到事情发生的来龙去脉,以便预测将来的发展。为此,人们找到了很多方法研究数据,如统计学、计量经济学、时间序列分析、运筹学、概率论等数学方法,以及可视化技术、各种辅助的计算机技术和算法。数据分析不仅在各行各业得到了应用,还可以作为一种主要方法进行科学研究。数据分析也能开辟新的应用,建立新的行业。

大数据和计算机技术、互联网一样,具有普适性和通用性,各行各业都需要,不仅传统行业需要,而且是新兴行业的依托。大数据技术的出现使得物联网、云计算、人工智能得以变成现实。所以,大数据是计算机时代、互联网时代后,能够真正撑得起一个时代的技术。

如今,大数据分析已经成为各领域追逐价值的重要手段,数据分析能力也成为各行各业的核心竞争力,而数据分析相关岗位的人才却呈现严重短缺的状况。对数据科学及数据分析人才短缺的预测五花八门,有预测100 多万的,也有预测1400 万的。这个差异来自增量数据和实际需求。增量数据就是用户需要增加的数据分析人员的数量,而实际需求除了包括增量数据,还包括对现有信息技术人员进行数据分析能力培养的人员数量。大数据时代到来了,社会上出现了各种相关的行业协会,各高等院校也纷纷建立了数据科学研究院,并开设了一系列的数据分析相关课程,其中统计分析相关的课程是核心,也是基础。在这个过程中,高等院校普遍遇到的难点就是课程内容的设置和相应教师的短缺。首先,不能走过去的老路:只讲统计,不讲分析;只有理论,没有实践;只有手工的简单计算,没有现代统计分析工具的支持。其次,要与当代的数据分析技术相结合,带给学生最新的分析方法和技术。最后,要学完就会用,就能解决实际问题。

2017 年春季,我们接受清华大学数据科学研究院韩亦舜执行副院长的委托,在清华大学开设了“数据分析与优化建模”课程,报名的学生大多是各专业的研究生,甚至有清华大学美术学院的学生。经过8 年12 个学期在北大、清华两所高校的教学,通过反复打磨和不断提炼,我们定制编写了《数据分析实用教程》一书。我们希望这本书能够成为各高等院校教学的范本,各领域数据分析师的应用参考书,以及广大数据分析爱好者的自学用书。对读者来说,拥有一本详细阐述了数据分析的理论和实践方法,并深入阐述了数据分析技术,指导其用数据分析工具进行数据分析实战的图书,成为一种渴求,而本书正是这样一本书,相信它会给读者带来实实在在的收获。

目前国内市面上关于数据分析的图书众多且繁杂,第一个显著的特点是“散”,很多相关书籍只针对部分统计分析内容做了深入详细的探讨;第二个显著的特点是实用性不强,广大读者在研读完成后并不能迈出分析应用的第一步,他们至少要研读几本书才可以,而这要花费大量的阅读时间。

本书具有如下特点。

(1)抓住了大数据分析热点。大数据分析是大数据时代必备的技能,已经成为各领域的核心竞争力。人才短缺是各企业的痛点。一本好的教材是使学生快速成才的关键。

(2)内容全面,兼顾广度和深度。本书根据实战要求,将统计学、多元统计学和SAS编程技术这三门课程有机地结合起来,概念、思想脉络讲解清楚,让学生能够真正地理解这门课程。

(3)实战性强。本书针对不同的实战案例进行分析和总结,有SAS 程序运行的结果,使之具有较强的可操作性,便于读者理解和研习。学生学完以后,有能力完成一个实战性的大课题,并参加答辩。

(4)适合自学。本书的编写和组织概念清晰,简单易懂,思路明晰,理论直达要点核心,示例更贴近实用性。

(5)适合作为教材。有相应的课件、练习数据集和作业搭配,节省教师大量的时间去组织内容和写讲稿。大学开设本课程,可以获得SAS 免费的软件支持。

本书主要适用于:

(1)各行业数据分析师的应用参考书。

(2)大专院校在校学生的教材。

(3)希望开设数据分析课程高校教师的讲义。

(4)希望进入数据分析领域人员的参考书。

(5)行业高管熟悉分析业务的参考书。

本书共14 章,第1 章介绍了统计学的基本概念,并详细介绍了描述性统计中的正态分布、概率与二项分布、两大极限定理,以及数据类型与图示。第2 章和第3 章全面讲述了推断性统计的相关理论知识,并用大量实例帮助理解理论点,内容包括点估计、区间估计、假设检验、参数检验等。第4 章介绍了方差分析的基本概念,以及单因素、双因素和多因素方差分析。第5 章主要介绍了相关分析、回归分析、简单线性回归、多元线性回归、可变换为线性回归的曲线回归。第6 章涉及交叉表分析、Logistic 回归、多元Logistic回归、有交互效应的多元Logistic 回归等内容。第7 章讲述了主成分分析的基本思想、数学模型与几何解释、主成分的推导与性质、主成分分析的步骤、主成分分析的例子,因子分析和因子分析SAS 实例。第8 章集中介绍了聚类分析的理论基础、层次聚类、K 均值聚类及确定聚类数等内容。第9 章介绍了判别分析基础、距离判别法、贝叶斯判别法、Fisher 判别法的理论和实例。第10 章介绍了什么是时间序列及其分解方法,并详细阐述了时间序列的描述性分析、预测程序、平稳序列的预测、趋势序列的预测、季节性序列的预测、复合序列的分解预测,以及周期性分析等内容。第11~13 章是SAS 编程基础,内容主要涉及编程基础知识、如何使用SAS 读取数据(文本文件、Excel 文件等)、处理数据(条件处理、自定义格式、SAS 函数等)、分析数据(报告输出)及背后的运行机制。除此之外,还着重介绍了SAS 宏的概念和应用原理、宏变量和宏定义及应用语法。第14 章介绍了使用SAS 编程进行数据分析的重要分析工具SAS Enterprise Guide 产品的功能展示和上机练习指导。

本课程通常需要15 到16 次课,每次3 小时。第1 次课会讲第1 章,讲解统计学的基本概念;第2 次课讲第11 章,介绍SAS 编程基础;第3 次课讲第14 章,是上机课,学会SAS 软件配置和使用SAS Enterprise Guide,为后续的课程打好基础;第4 次和第5 次课分别讲第12 章和第13 章。接下来,从第2 章开始,按照顺序讲。本书提供了14 章内容,而第15 次课通常是大课题的答辩环节。教师在课程完成前3 周,给出几个课题供大家选择,3 到4 名学生组成一组,选择一个课题进行实际操作。答辩主要考查学生对数据描述、数据处理、数据分析、结果展示和综合报告等几项主要技能的掌握。我们每学期会安排一些讲座,如“数据的可视化分析技术”“大数据”“机器学习”“企业数据分析与建模”等。

对于有意使用本书的各类学校,我们将提供免费的SAS 软件(仅限于高等院校)、各章作业的数据集和作业题(教师也可以自己出作业题)、PPT 格式的讲稿。

本书的完成来自整个创作团队的辛勤耕作。大家利用自己的休息时间,反复查阅资料,构思内容,完成配图,才使得这本书得以和各位读者见面。我在这里衷心地感谢大家的付出和各位家庭的支持。感谢那些以各种方式为本书的完成提供了帮助的同事和朋友。

SAS 公司在过去的几十年里,为行业贡献了各种里程碑式的产品,以及各种相应的图书和教学培训资料。在这里我们要感谢SAS 开发出来的优秀产品,感谢公司提供的工作学习环境和各种资料,以及对本书出版和员工参与中国高等人才教育的鼓励。

最后,要特别感谢成都道然科技有限责任公司团队。感谢他们理解、支持我们的教学理念和学习方法,毅然接受了我们特定格式的出版请求,并为本书的出版付出了大量的努力;同时感谢他们的指导和帮助,以及提出的各种宝贵建议。

刘 政

2020 年10 月于北京