R语言:大数据分析中的统计方法及应用pdf下载pdf下载

R语言:大数据分析中的统计方法及应用百度网盘pdf下载

作者:
简介:本篇主要提供R语言:大数据分析中的统计方法及应用pdf下载
出版社:
出版时间:2018-07-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

内容简介

大数据分析,其学习起点应是大数据的统计分析;大数据分析,其学习特点应是案例化、工具化和业务导向化。本书面向大数据分析实践,基于大数据案例,以问题为线索,以解决问题为导向讲解统计方法及R语言实现;突出大数据应用特色,兼顾统计方法的经典性和普适性、理论讲解的通俗性和严谨性、R语言代码的实操性和示范性。本书提供配套全部案例数据及各章节R语言程序代码,可登录华信教育资源网www.hxedu.com.cn免费下载。

作者简介

薛薇,中国人民大学统计学院副教授,应用统计科学研究中心副主任,主要著作:SPSS统计分析方法及应用(第4版),北京市高等教育精品教材,电子工业出版社,2017.R语言数据挖掘方法及应用,电子工业出版社,2016.SPSS Modoler数据挖掘方法及应用(第2版),电子工业出版社,2014.SPSS统计分析方法及应用(第4版),北京市高等教育精品教材,电子工业出版社,2017.1

目录

第1章 R语言与统计分析概述 1
1.1 写在前面的话 1
1.1.1 大数据的广义概念 1
1.1.2 目标定位 2
1.1.3 初识R 3
1.2 R语言入门 3
1.2.1 R中的基本概念 3
1.2.2 R的下载安装 5
1.2.3 R程序的运行 6
1.2.4 R使用的其他方面 10
1.3 Rstudio简介 12
1.4 从大数据分析案例看统计分析的基本框架 13
1.4.1 数据集 14
1.4.2 分析目标和数据预处理 16
1.4.3 数据的基本分析 17
1.4.4 总体特征的推断 17
1.4.5 推断多个变量间的总体相关性 18
1.4.6 数据的聚类 19
1.5 本章涉及的R函数 19
第2章 R的数据组织 20
2.1 R的数据对象 20
2.1.1 R对象的类型划分 20
2.1.2 创建和管理R对象 21
2.2 R数据组织的基本方式 22
2.2.1 R向量及其创建与访问 22
2.2.2 R矩阵和数组及其创建与访问 27
2.2.3 R数据框及其创建与访问 32
2.2.4 R列表及其创建与访问 36
2.3 R数据组织的其他问题 37
2.3.1 R对象数据的保存 37
2.3.2 通过键盘读入数据 38
2.3.3 共享R自带的数据包 39
2.4 大数据案例的数据结构和R组织 39
2.4.1 读文本文件数据到R数据框 39
2.4.2 大数据分析案例:北京市空气质量监测数据 40
2.4.3 大数据分析案例:美食餐馆食客点评数据 41
2.4.3 大数据分析案例:超市顾客购买行为数据 42
2.5 本章涉及的R函数 43
第3章 R的数据整理和编程基础 45
3.1 从大数据分析案例看数据整理 45
3.1.1 美食餐馆食客点评数据的整理问题 45
3.1.2 超市顾客购买行为数据的整理问题 45
3.1.3 北京市空气质量监测数据的整理问题 46
3.2 数据的初步整理 46
3.2.1 数据整合 46
3.2.2 数据筛选 46
3.2.3 大数据分析案例:美食餐馆食客点评数据的初步整理 47
3.3 数据质量评估 49
3.3.1 缺失数据报告 49
3.3.2 异常值排查 50
3.3.3 大数据分析案例:美食餐馆食客点评数据的质量评估 50
3.4 数据加工 52
3.4.1 数据加工管理中的常用函数 53
3.4.2 数据分组和重编码 59
3.4.3 大数据分析案例:利用数据加工寻找“人气”餐馆 60
3.5 数据管理中的R编程基础 61
3.5.1 分支结构的流程控制及示例――促销折扣的计算 61
3.5.2 循环结构的流程控制及示例:等差数列的求和 63
3.5.3 用户自定义函数及示例:汇总数据还原为原始数据 65
3.5.4 R编程大数据分析案例:超市顾客购买行为数据的RFM计算 67
3.5.5 R编程大数据分析案例:北京市空气质量监测数据的整理 68
3.6 本章涉及的R函数 70
第4章 R的基本分析和统计图形 71
4.1 从大数据分析案例看数据基本分析 71
4.1.1 美食餐馆食客点评数据的基本分析 71
4.1.2 北京市空气质量监测数据的基本分析 72
4.2 R的绘图基础 73
4.2.1 图形设备和图形文件 73
4.2.2 图形组成和图形参数 74
4.3 分类型单变量的基本分析 78
4.3.1 计算频数分布表 78
4.3.2 分类型变量的基本统计图形 78
4.3.3 大数据分析案例:主打菜的餐馆分布有怎样的特点 79
4.4 数值型单变量的基本分析 80
4.4.1 计算基本描述统计量 80
4.4.2 数值型变量的基本统计图形 81
4.4.3 大数据分析案例:餐馆评分的分布有怎样的特点 83
4.5 大数据分析案例综合:北京市空气质量监测数据的基本分析 85
4.6 本章涉及的R函数 88
第5章 R的变量相关性分析和统计图形 89
5.1 分类型变量相关性的分析 89
5.1.1 分类型变量相关性的描述 89
5.1.2 分类型变量相关性的统计图形 93
5.1.3 大数据分析案例:餐馆的区域分布与主打菜分布是否具有相关性 93
5.2 数值型变量相关性的分析 94
5.2.1 数值型变量相关性的描述 94
5.2.2 数值型变量相关性的统计图形 95
5.2.3 大数据分析案例:餐馆各打分之间、打分与人均消费之间是否具有相关性 96
5.3 大数据分析案例综合:北京市空气质量监测数据的相关性分析 100
5.4 本章涉及的R函数 102
第6章 R的均值检验:单个总体的均值推断及两个总体均值的对比 104
6.1 从大数据分析案例看推断统计 104
6.1.1 美食餐馆食客点评数据分析中的推断统计问题 104
6.1.2 北京市空气质量监测数据分析中的推断统计问题 105
6.2 单个总体的均值推断 106
6.2.1 以PM2.5总体均值推断为例看假设检验基本原理 106
6.2.2 大数据案例分析:估计供暖季北京市PM2.5浓度的总体均值 110
6.3 两个总体均值的对比:基于独立样本的常规t检验 111
6.3.1 两个独立样本均值t检验的原理和R实现 111
6.3.2 深入问题:方差齐性检验和R实现 114
6.3.3 大数据分析案例:两个区域美食餐馆人均消费金额是否存在差异 115
6.4 两个总体均值的对比:置换检验 117
6.4.1 两个独立样本均值差的置换检验原理和R实现 117
6.4.2 大数据分析案例:利用置换检验对比两个区域美食餐馆人均消费金额的总体均值 118
6.5 两个总体的均值对比:自举法检验 118
6.5.1 两个独立样本均值差的自举法检验原理和R实现 118
6.5.2 大数据分析案例:利用自举法对比两个区域美食餐馆人均消费金额的总体均值 120
6.6 两个总体的均值对比:基于配对样本的常规t检验 121
6.6.1 两个配对样本均值t检验的原理和R实现 121
6.6.2 大数据分析案例:两个区域美食餐馆口味评分与就餐环境评分的均值是否存在差异 122
6.7 大数据分析案例综合:北京市空气质量监测数据的均值研究 123
6.8 本章涉及的R函数 125
第7章 R的方差分析:多个总体均值的对比 127
7.1 从大数据分析案例看方差分析 127
7.1.1 美食餐馆食客点评数据分析中的方差分析问题 127
7.1.2 北京市空气质量监测数据分析中的方差分析问题 128
7.2 多个总体均值的对比:单因素方差分析 128
7.2.1 单因素方差分析原理和R实现 128
7.2.2 深入问题:方差齐性检验和多重比较检验 131
7.2.3 大数据分析案例:利用单因素方差分析对比不同主打菜餐馆人均消费金额的
总体均值 131
7.3 多个总体均值的对比:多因素方差分析 135
7.3.1 多因素方差分析原理和R实现 135
7.3.2 大数据分析案例:利用多因素方差分析对比不同主打菜餐馆人均消费金额的
总体均值 137
7.4 大数据分析案例综合:北京市空气质量监测数据的均值研究 140
7.5 本章涉及的R函数 142
第8章 R的线性回归分析:对数值变量影响程度的度量和预测 143
8.1 从数据分析案例看线性回归分析 143
8.1.1 美食餐馆食客点评数据分析中的回归分析问题 143
8.1.2 北京市空气质量监测数据分析中的回归分析问题 143
8.1.3 线性回归分析的一般步骤 143
8.2 建立回归方程 145
8.2.1 线性回归模型和线性回归方程 145
8.2.2 线性回归方程的参数估计和R实现 145
8.2.3 大数据分析案例:建立美食餐馆食客评分的线性回归模型 146
8.3 回归方程的检验 147
8.3.1 回归方程的显著性检验 148
8.3.2 回归系数的显著性检验 149
8.3.3 大数据分析案例:美食餐馆食客评分回归方程的检验 149
8.4 回归方程的应用 152
8.4.1 回归方程拟合效果的度量 152
8.4.2 预测和预测误差 153
8.4.3 大数据分析案例:美食餐馆食客评分回归方程的评价和预测 153
8.5 回归模型的验证 154
8.5.1 回归模型的N折交叉验证法和R实现 155
8.5.2 回归模型的自举法验证和R实现 155
8.5.3 大数据分析案例:美食餐馆食客评分回归模型的验证 156
8.6 虚拟自变量回归和协方差分析 157
8.6.1 虚拟自变量回归 157
8.6.2 协方差分析 159
8.6.3 大数据分析案例:就餐环境对不同区域美食餐馆人均消费的影响 159
8.7 大数据分析案例综合:北京市空气质量监测数据的回归分析研究 162
8.8 本章涉及的R函数 168
第9章 R的Logistic回归分析:对分类变量影响程度的度量和预测 169
9.1 从大数据分析案例看Logistic回归分析 169
9.1.1 人力资源调查数据分析中的Logistic回归分析问题 169
9.1.2 Logistic回归分析的基本建模思路 172
9.2 Logistic回归方程的解读 173
9.2.1 Logistic回归方程的系数 173
9.2.2 Logistic回归方程的检验 174
9.2.3 大数据分析案例:基于人力资源调查数据探讨技术人员离职的原因 176
9.3 Logistic回归方程的应用 179
9.3.1 Logistic回归方程拟合效果的评价 179
9.3.2 大数据分析案例:基于人力资源调查数据预测技术人员离职的可能性 180
9.4 本章涉及的R函数 181
第10章 R的聚类分析:数据分组 182
10.1 从大数据分析案例看聚类分析 182
10.1.1 超市顾客购买行为数据分析中的聚类分析问题 182
10.1.2 北京市空气质量监测数据分析中的聚类分析问题 183
10.1.3 聚类分析的基本思路 183
10.2 K-Means聚类 185
10.2.1 K-Means聚类原理和R实现 185
10.2.2 大数据分析案例:超市顾客购买行为数据分析中的K-Means聚类 187
10.3 分层聚类 191
10.3.1 分层聚类原理和R实现 191
10.3.2 大数据分析案例:超市顾客购买行为数据分析中的分层聚类 192
10.4 大数据分析案例综合:北京市空气质量监测数据的聚类分析研究 195
10.5 本章涉及的R函数 197
第11章 R的线性判别分析:分类预测 198
11.1 从大数据分析案例看判别分析 198
11.1.1 人力资源调查数据分析中的判别分析问题 198
11.1.2 判别分析的数据和基本出发点 199
11.2 距离判别法 199
11.2.1 距离判别的基本思路 199
11.2.2 判别函数的计算和R实现 201
11.2.3 大数据分析案例:利用距离判别预测技术人员离职的可能性 203
11.3 Fisher判别法 205
11.3.1 Fisher判别的基本原理 205
11.3.2 Fisher判别系数的求解和R实现 207
11.3.3 大数据分析案例:利用Fisher判别预测技术人员离职的可能性 209
11.4 本章涉及的R函数 210
第12章 R的因子分析:特征提取 211
12.1 从大数据分析案例看因子分析 211
12.1.1 植物物种分类中的因子分析问题 211
12.1.2 北京市空气质量监测数据分析中的因子分析问题 213
12.2 因子分析基础 213
12.2.1 因子分析的数学模型 213
12.2.2 因子分析的特点和基本步骤 215
12.2.3 因子分析的模型评价 216
12.3 确定因子变量 217
12.3.1 主成分分析法的基本原理 217
12.3.2 基于主成分分析法的因子载荷矩阵求解和R实现 219
12.3.3 计算因子得分和R实现 220
12.3.4 大数据分析案例:利用因子分析实现植物物种分类中的特征提取 221
12.4 因子变量命名 223
12.4.1 从大数据分析案例看因子变量命名的必要性 223
12.4.2 因子旋转的原理和R实现 226
12.4.3 大数据分析案例:利用因子分析实现北京市空气质量的区域综合评价 227
12.5 本章涉及的R函数 229

前言/序言

大数据时代,数据是生产资料,计算是生产力,互联网是生产关系,而数据分析就是串联各个生产要素的基本生产方式。

目前比较有代表性的大数据定义,来自麦肯锡全球研究院McKinsey Global Institute、高德纳公司Gartner和IBM公司等先行研究机构的综合观点。从狭义角度来讲,大数据是一个具有5V特征的大规模数据集合。5V即海量的数据规模(Volume)、快速流转且动态激增的数据体系(Velocity)、多样异构的数据类型(Variety)、潜力大但密度低的数据价值(Value),以及受噪声影响的数据质量(Veracity)。而从广义角度来讲,大数据的概念还应包含大数据的理论、技术、应用和产业生态这四个基本范畴。

近年来,我国大数据事业迅猛发展,大数据人才的需求与培养也日趋紧迫。全国高校“大数据技术与应用”和“数据科学与大数据技术”专业建设不断升温。一般我们可将大数据技术概括为两大方向:一是大数据工程,二是大数据分析,并分别对应着大数据工程师和大数据分析师这两个角色。总体而言,随着大数据系统架构和基础设施的不断完善和普及,以大数据工程为核心的相关项目终究是有限的。而随着移动互联网和物联网的广泛应用,以及各方对精细化管理、个性化营销和智能化决策的渴望,大数据分析将不断深入到各行各业,大数据分析人才的需求也必将呈现出长期性、有规模的增长态势。

数据分析的理论发展和实践经验都证明,掌握大数据分析,其学习起点应是大数据的统计分析。进一步,我们认为,学习大数据的统计分析应面向市场需求、面向实际应用,所以应具有以下三个特点。

第一,要结合大数据分析的实际案例。

面对“5V俱全”的大数据体系,许多经典的统计分析方法仍然有效,是我们分析问题、解决问题的可靠手段,但需要突破那种“小样本、习题式”的传统学习模式,要精挑有针对性的大数据集合,细选有说明性的大数据案例,以这些数据和案例为引导,有条理地形成分析思路,并贯穿整个学习过程,从而真正实现由表及里、深入浅出的学习体验。

第二,要结合大数据分析的应用工具。

大数据的统计分析应进一步突破“重理论讲解,重公式推导,轻技能培养,轻工具实现”的传统学习模式,要将各个知识点言简意赅地阐述透彻,同时也要同步掌握一个有效的软件工具,进而可对相应的数据与案例进行实操破解。

第三,要结合大数据分析的目标导向。

大数据的统计分析应进一步突破“方法导向”的传统学习模式,应围绕大数据案例,确定分析目标,细化研究问题,明确分析思路,并以业务问题为出发点,形成以目标为导向的学习模式,努力培养大数据分析人才的数据敏感性,以及发现问题和运用恰当统计分析方法解决问题的能力。最终针对整个知识体系建立“问题→概念→方法→工具→结果→分析解释”一条龙式的学习模式。

本书正是结合上述三个特点而筹划推出的,具体表现在以下三个方面。

第一,选择典型的大数据分析案例。

选用三个典型的大数据案例贯穿全书,并提供数据集和分析程序的下载,主要内容为手机APP美食餐馆食客点评数据、北京市空气质量监测数据、超市顾客购买行为数据等。这些案例具有大数据分析应用的代表性,而且业务问题直观明了,数据含义通俗易懂。一方面使读者能够直接感知大数据处理规模,另一方面也可有效避免由于专业领域不同而带来的数据理解问题。

第二,选择开源的大数据分析工具R语言。

选用R语言作为大数据分析工具。从分析工具的方法覆盖全面性、学习难易程度、使用流行性、未来发展潜力和开源性等多方面考虑,R语言都是进行大数据统计分析的最恰当工具。

第三,设计并提出研究问题和分析思路。

本书在每章开篇,均首先围绕大数据案例提出若干分析需求的问题,同时提炼总结出这些问题的共性特征,进而提出可行的统计分析思路,建立学习途径;然后讨论方法原理,给出解决案例问题的R语言程序代码和详细的结果说明。

为确保内容的完整性和实用性,本书在大数据分析案例的选择、分析工具讲解的详略程度、以目标为导向的主流统计方法覆盖的全面性等方面,都进行了精心安排和综合设计。本书共12章。第1章在大数据基本定义的基础上,明确给出了本书的学习目标和定位。然后,对R语言的基本概念和入门知识进行了较为详尽的讲解。之后,提出了大数据的统计分析整体框架和思路,并基于大数据分析案例,对相关统计概念和内容进行了说明,旨在方便读者尽快明晰统计分析路线。数据组织是数据分析的基础,数据整理是数据分析不可或缺的必要环节。因此第2章和第3章直入主题,讨论了R语言的数据组织、整理以及编程基础,引入三个大数据分析案例并贯穿全书。大数据的统计分析起步于数据的基本分析,包括从单个变量分布特征到两个变量相关性的基本描述等,因此第4章和第5章首先基于大数据分析案例,提出了若干个基本数据分析问题,然后逐一讲解问题、阐述解决方法并给出R代码实现。第6章和第7章,继续针对大数据分析案例中更广泛的应用问题,细致地讨论了解决应用问题的诸多统计方法,包括单个总体的均值检验方法、两个及多个总体的均值对比方法和相应的R代码设计。第8章、第9章和第11章分别涉及线性回归分析、Logistic回归分析和线性判别分析。这些分析方法均是当前大数据分析中应用极为广泛的主流核心方法,旨在探究影响因素,解决分类预测等问题。第10章的聚类分析关注数据分组,不仅普遍存在于大数据的一般统计分析中,也广泛拓展到了数据挖掘、机器学习等诸多领域。同时第12章的因子分析更是大数据特征工程中的最常用方法。

总之,作者希望为致力于大数据分析和R语言实践的初学者,奉献一本具有大数据统计分析应用特色、R语言代码可操作性和示范性、统计方法经典性和普适性的优秀作品。本书提供配套的全部案例数据以及各章节R语言程序代码,可登录华信教育资源网www.hxedu.com.cn免费下载。本书可作为大数据相关专业、统计学专业及其他有关专业的本科生或硕士研究生数据分析的教材,也可作为从事大数据分析实际工作人员的参考用书。

书中不妥和错误之处,诚望读者不吝指正。


薛 薇

于中国人民大学应用统计科学研究中心

中国人民大学统计学院