为什么要写这本书最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
早在2012年,大数据(bigdata)一词已经被广泛提起,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。那时就有人预计,从2013年至2020年,全球数据规模将增长10倍,每年产生的数据量将由当时的4.4万亿GB,增长至44万亿GB,每两年翻一番。
既然“大数据”浪潮已经来临,那么与之对应的大数据人才呢?在国外,大数据技术发展正如火如荼,各种方便大家学习的资料、教程应有尽有。但是,在国内,这种资料却是有“门槛”的。其一,这类资料是英文的,对于部分人员来说,阅读是有难度的;其二,这些资料对于初学者或在校生来说,在理论理解上也有一些难度,没有充分的动手实践来协助理解大数据相关技术的原理、架构等;其三,在如何应用大数据技术来解决企业实实在在遇到的大数据相关问题方面,没有很好的资料;其四,对于企业用户来说,如何将大数据技术和数据挖掘技术相结合,对企业大量数据进行挖掘,以挖掘出有价值的信息,也是难点。
作为大数据相关技术,Hadoop无疑应用很广泛。Hadoop具有以下优势:高可靠性、高扩展性、高效性、高容错性、低成本、生态系统完善。
一般来说,使用Hadoop相关技术可以解决企业相关大数据应用,特别是结合诸如Mahout、SparkMLlib等技术,不仅可以对企业相关大数据进行基础分析,还能构建挖掘模型,挖掘企业大数据中有价值的信息。
对于学习大数据相关技术的高校师生来说,本书不仅提供了大数据相关技术的基础讲解及原理、架构分析,还针对这些原理,配备有对应的动手实践章节,帮助读者加深对原理、架构的认识。同时,在每个模块结束后,书中会有一个相对独立的企业应用案例,帮助读者巩固学到的大数据技术相关知识。
对于企业用户或大数据挖掘开发者来说,特别是对想要了解如何将大数据技术应用到企业大数据项目中的企业用户或者开发者来说,本书也是一份优秀的参考资料。
本书特色本书提供了大数据相关技术的简介、原理、实践、企业应用等,针对大数据相关技术,如Hadoop、HBase、Hive、Spark等,都有专业章节进行介绍,并且针对每一模块都有相应的动手实践,能有效加深读者对大数据相关技术原理、技术实践的理解。书中的挖掘实践篇涉及企业在大数据应用中的所有环节,如数据采集、数据预处理、数据挖掘等,通过案例对整个系统的架构进行了详细分析,对读者有一定实践指导作用。
读者可以从“泰迪杯”全国大学生数据挖掘挑战赛网站(http://www.tipdm.org/tj/865.jhtml)免费下载本书配套的全部数据文件及源程序。另外,为方便教师授课,本书还特意提供了建模阶段的过程数据文件、PPT课件,有需要的教师可通过热线电话(40068-40020)、企业QQ(40068-40020)或以下微信公众号咨询获取。
本书适用对象开设大数据、大数据挖掘相关课程的高校教师和学生目前国内不少高校将大数据、大数据挖掘引入本科教学中,在计算机、数学、自动化、电子信息、金融等专业开设了大数据技术相关的课程,但目前针对这一课程的相关教材没有统一,或者使用的教材不利于课堂教学。本书提供了大数据相关技术的简介、原理、实践、企业应用等,能有效帮助高校教师教学;帮助学生学习大数据相关技术原理,进行技术实践,为以后工作打下良好基础。
大数据开发人员书中针对大数据相关技术,如Hadoop、HBase、Hive、Spark等,都有专业章节进行介绍,并且针对每一模块有相应的动手实践,对初级开发人员有较强指导作用。
大数据架构师挖掘实践篇涉及企业在大数据应用中的所有环节,包括数据采集、数据预处理、数据挖掘等方面,通过案例对整个系统的架构进行了详细分析,对大数据架构师有一定的实践指导作用。
关注大数据挖掘技术的人员本书不仅包括大数据相关技术的简介及原理分析,还包括大数据相关技术和大数据挖掘相结合的案例分析。对于大数据挖掘技术人员来说,如何应用大数据技术来对大数据进行挖掘是重点和难点,通过学习本书中案例的分析方法,可以将其融入自己的实际工作中。
如何阅读本书本书主要分为两篇:基础篇和挖掘实战篇。基础篇介绍了大数据相关技术:Hadoop、Hive、HBase、Pig、Spark、Oozie等。针对每个技术都有相应模块与之对应,首先对该技术的概念、内部原理等进行介绍,使读者对该技术有一个由浅入深的理解;其次在对原理的介绍中会配合相应的动手实践,加深对原理的理解。在每个模块的最后,会有1~2个企业案例,主要讲解使用当前模块的技术来解决其中的1~2个问题,这样读者不仅对技术的原理、架构有了较深入的了解,同时,对于如何应用该技术也有了一定认识,从而为以后的工作、学习打下良好基础。挖掘实战篇通过对一个大型的企业应用案例的介绍,充分应用基础篇讲解的大数据技术来解决企业应用中遇到的各