大数据时代,数据是生产资料,计算是生产力,互联网是生产关系,而数据分析就是串联各个生产要素的基本生产方式。
目前比较有代表性的大数据定义,来自麦肯锡全球研究院McKinsey Global Institute、高德纳公司Gartner和IBM公司等先行研究机构的综合观点。从狭义角度来讲,大数据是一个具有5V特征的大规模数据集合。5V即海量的数据规模(Volume)、快速流转且动态激增的数据体系(Velocity)、多样异构的数据类型(Variety)、潜力大但密度低的数据价值(Value),以及受噪声影响的数据质量(Veracity)。而从广义角度来讲,大数据的概念还应包含大数据的理论、技术、应用和产业生态这四个基本范畴。
近年来,我国大数据事业迅猛发展,大数据人才的需求与培养也日趋紧迫。全国高校“大数据技术与应用”和“数据科学与大数据技术”专业建设不断升温。一般我们可将大数据技术概括为两大方向:一是大数据工程,二是大数据分析,并分别对应着大数据工程师和大数据分析师这两个角色。总体而言,随着大数据系统架构和基础设施的不断完善和普及,以大数据工程为核心的相关项目终究是有限的。而随着移动互联网和物联网的广泛应用,以及各方对精细化管理、个性化营销和智能化决策的渴望,大数据分析将不断深入到各行各业,大数据分析人才的需求也必将呈现出长期性、有规模的增长态势。
数据分析的理论发展和实践经验都证明,掌握大数据分析,其学习起点应是大数据的统计分析。进一步,我们认为,学习大数据的统计分析应面向市场需求、面向实际应用,所以应具有以下三个特点。
第一,要结合大数据分析的实际案例。
面对“5V俱全”的大数据体系,许多经典的统计分析方法仍然有效,是我们分析问题、解决问题的可靠手段,但需要突破那种“小样本、习题式”的传统学习模式,要精挑有针对性的大数据集合,细选有说明性的大数据案例,以这些数据和案例为引导,有条理地形成分析思路,并贯穿整个学习过程,从而真正实现由表及里、深入浅出的学习体验。
第二,要结合大数据分析的应用工具。
大数据的统计分析应进一步突破“重理论讲解,重公式推导,轻技能培养,轻工具实现”的传统学习模式,要将各个知识点言简意赅地阐述透彻,同时也要同步掌握一个有效的软件工具,进而可对相应的数据与案例进行实操破解。
第三,要结合大数据分析的目标导向。
大数据的统计分析应进一步突破“方法导向”的传统学习模式,应围绕大数据案例,确定分析目标,细化研究问题,明确分析思路,并以业务问题为出发点,形成以目标为导向的学习模式,努力培养大数据分析人才的数据敏感性,以及发现问题和运用恰当统计分析方法解决问题的能力。最终针对整个知识体系建立“问题→概念→方法→工具→结果→分析解释”一条龙式的学习模式。
本书正是结合上述三个特点而筹划推出的,具体表现在以下三个方面。
第一,选择典型的大数据分析案例。
选用三个典型的大数据案例贯穿全书,并提供数据集和分析程序的下载,主要内容为手机APP美食餐馆食客点评数据、北京市空气质量监测数据、超市顾客购买行为数据等。这些案例具有大数据分析应用的代表性,而且业务问题直观明了,数据含义通俗易懂。一方面使读者能够直接感知大数据处理规模,另一方面也可有效避免由于专业领域不同而带来的数据理解问题。
第二,选择开源的大数据分析工具R语言。
选用R语言作为大数据分析工具。从分析工具的方法覆盖全面性、学习难易程度、使用流行性、未来发展潜力和开源性等多方面考虑,R语言都是进行大数据统计分析的最恰当工具。
第三,设计并提出研究问题和分析思路。
本书在每章开篇,均首先围绕大数据案例提出若干分析需求的问题,同时提炼总结出这些问题的共性特征,进而提出可行的统计分析思路,建立学习途径;然后讨论方法原理,给出解决案例问题的R语言程序代码和详细的结果说明。
为确保内容的完整性和实用性,本书在大数据分析案例的选择、分析工具讲解的详略程度、以目标为导向的主流统计方法覆盖的全面性等方面,都进行了精心安排和综合设计。本书共12章。第1章在大数据基本定义的基础上,明确给出了本书的学习目标和定位。然后,对R语言的基本概念和入门知识进行了较为详尽的讲解。之后,提出了大数据的统计分析整体框架和思路,并基于大数据分析案例,对相关统计概念和内容进行了说明,旨在方便读者尽快明晰统计分析路线。数据组织是数据分析的基础,数据整理是数据分析不可或缺的必要环节。因此第2章和第3章直入主题,讨论了R语言的数据组织、整理以及编程基础,引入三个大数据分析案例并贯穿全书。大数据的统计分析起步于数据的基本分析,包括从单个变量分布特征到两个变量相关性的基本描述等,因此第4章和第5章首先基于大数据分析案例,提出了若干个基本数据分析问题,然后逐一讲解问题、阐述解决方法并给出R代码实现。第6章和第7章,继续针对大数据分析案例中更广泛的应用问题,细致地讨论了解决应用问题的诸多统计方法,包括单个总体的均值检验方法、两个及多个总体的均值对比方法和相应的R代码设计。第8章、第9章和第11章分别涉及线性回归分析、Logistic回归分析和线性判别分析。这些分析方法均是当前大数据分析中应用极为广泛的主流核心方法,旨在探究影响因素,解决分类预测等问题。第10章的聚类分析关注数据分组,不仅普遍存在于大数据的一般统计分析中,也广泛拓展到了数据挖掘、机器学习等诸多领域。同时第12章的因子分析更是大数据特征工程中的最常用方法。
总之,作者希望为致力于大数据分析和R语言实践的初学者,奉献一本具有大数据统计分析应用特色、R语言代码可操作性和示范性、统计方法经典性和普适性的优秀作品。本书提供配套的全部案例数据以及各章节R语言程序代码,可登录华信教育资源网www.hxedu.com.cn免费下载。本书可作为大数据相关专业、统计学专业及其他有关专业的本科生或硕士研究生数据分析的教材,也可作为从事大数据分析实际工作人员的参考用书。
书中不妥和错误之处,诚望读者不吝指正。
薛 薇
于中国人民大学应用统计科学研究中心
中国人民大学统计学院