作 者:(美)文卡特·安卡姆(Venkat Ankam) 著;吴今朝 译
定 价:59
出 版 社:机械工业出版社
出版日期:2017年07月01日
页 数:234
装 帧:平装
ISBN:9787111569411
●译者序
●前言
●章从宏观视角看大数据分析1
●1.1大数据分析以及Hadoop和Spark在其中承担的角色3
●1.1.1典型大数据分析项目的生命周期4
●1.1.2Hadoop和Spark承担的角色6
●1.2大数据科学以及Hadoop和Spark在其中承担的角色6
●1.2.1从数据分析到数据科学的根本性转变6
●1.2.2典型数据科学项目的生命周期8
●1.2.3Hadoop和Spark承担的角色9
●1.3工具和技术9
●1.4实际环境中的用例11
●1.5小结12
●第2章Apache Hadoop和Apache Spark入门13
●2.1Apache Hadoop概述13
●2.1.1Hadoop分布式文件系统14
●2.1.2HDFS的特性15
●2.1.3MapReduce16
●2.1.4MapReduce的特性17
●2.1.5MapReducev1与MapReducev2对比17
●部分目录
本书介绍了ApacheSpark和Hadoop的基础知识,并深入探讨了所有Spark组件:SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等,此外,也讲解了在Spark+Hadoop集群中实现的示例。
(美)文卡特·安卡姆(Venkat Ankam) 著;吴今朝 译
文卡特·安卡姆(Venkat Ankam),有超过18年的IT经验和5年以上的大数据技术经验,与客户一起设计和开发过可扩展的大数据应用程序。他在利用Hadoop和Spark进行大数据分析方面拥有丰富的经验,与优选很多客户进行了合作。他是Cloudera认证的Hadoop开发者和管理员,也是Databricks认证的Spark开发者。他还是一些优选Hadoop和Spark会议小组的创始人和主持人,热爱与社区分享知识。