Hadoop大数据实战权威指南pdf下载pdf下载

Hadoop大数据实战权威指南百度网盘pdf下载

作者:
简介:本篇主要提供Hadoop大数据实战权威指南pdf下载
出版社:
出版时间:2017-07-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:黄东军 著
定  价:68
出 版 社:电子工业出版社
出版日期:2017年07月01日
页  数:380
装  帧:简装
ISBN:9787121318214
目录
目 录 篇 大数据的基本概念和技术 章 绪论3 1.1 时代背景3 1.1.1 大数据浪潮3 1.1.2 我国的大数据国家战略5 1.2 大数据的概念7 1.2.1 概念7 1.2.2 特征8 1.3 技术支撑体系9 1.3.1 概览9 1.3.2 大数据采集层9 1.3.3 大数据存储层10 1.3.4 大数据分析(处理与服务)层11 1.3.5 大数据应用层11 1.3.6 垂直视图13 1.4 大数据人才及其能力要求14 1.4.1 首席数据官14 1.4.2 数据科学家(数据分析师)15 1.4.3 大数据开发工程师16 1.4.4 大数据运维工程师17 1.5 本章小结17 第2章 Hadoop大数据关键技术19 2.1 Hadoop生态系统19 2.1.1 架构的基本理论19 2.1.2 主要组件及其关系21 2.2 数据采集24 2.2.1 结构化数据采集工具24 2.2.2 日志文件采集工具与技术25 2.3 大数据存储技术29 2.3.1 相关概念29 2.3.2 分布式文件存储系统34 2.3.3 数据库与数据仓库38 2.4 分布式计算框架43 2.4.1 离线计算框架43 2.4.2 实时流计算平台50 2.5 数据分析平台与工具57 2.5.1 面向大数据的数据挖掘与分析工具57 2.5.2 机器学习61 2.6 本章小结66 第二篇 Hadoop大数据平台搭建与基本应用 第3章 Linux操作系统与集群搭建69 3.1 Linux操作系统69 3.1.1 概述69 3.1.2 特点70 3.1.3 Linux的组成72 3.2 Linux安装与集群搭建75 3.2.1 安装VMware Workstation75 3.2.2 在VMware上安装Linux(CentOS7)79 3.3 集群的配置91 3.3.1 设置主机名91 3.3.2 网络设置93 3.3.3 关闭防火墙98 3.3.4 安装JDK99 3.3.5 免密钥登录配置102 3.4 Linux基本命令105 3.5 本章小结112 第4章 HDFS安装与基本应用113 4.1 HDFS概述113 4.1.1 特点113 4.1.2 主要组件与架构114 4.2 HDFS架构分析114 4.2.1 数据块114 4.2.2 NameNode115 4.2.3 DataNode11.2.4 SecondaryNameNode117 4.2.5 数据备份117 4.2.6 通信协议118 4.2.7 可靠性保证118 4.3 文件操作过程分析119 4.3.1 读文件119 4.3.2 写文件120 4.3.3 删除文件122 4.4 Hadoop HDFS安装与配置122 4.4.1 解压Hadoop安装包122 4.4.2 配置Hadoop环境变量123 4.4.3 配置Yarn环境变量124 4.4.4 配置核心组件文件125 4.4.5 配置文件系统125 4.4.6 配置yarn-site.xml文件12.4.7 配置MapReduce计算框架文件128 4.4.8 配置Master的slaves文件129 4.4.9 复制Master上的Hadoop到Slave节点129 4.5 Hadoop集群的启动130 4.5.1 配置操作系统环境变量130 4.5.2 创建Hadoop数据目录131 4.5.3 格式化文件系统132 4.5.4 启动和关闭Hadoop133 4.5.5 验证Hadoop是否启动成功133 4.6 Hadoop集群的基本应用13.6.1 HDFS基本命令13.6.2 在Hadoop集群中运行程序139 4.7 本章小结141 第5章 MapReduce与Yarn143 5.1 MapReduce程序的概念143 5.1.1 基本编程模型143 5.1.2 计算过程分析144 5.2 深入理解Yarn147 5.2.1 Yarn的基本架构147 5.2.2 Yarn的工作流程151 5.3 在Linu台安装Eclipse152 5.3.1 Eclipse简介153 5.3.2 安装并启动Eclipse154 5.4 开发MapReduce程序的基本方法155 5.4.1 为Eclipse安装Hadoop插件156 5.4.2 WordCount:个MapReduce程序160 5.5 本章小结175 第6章 Hive和HBase的安装与应用177 6.1 在CentOS7下安装MySQL177 6.1.1 下载或复制MySQL安装包177 6.1.2 执行安装命令178 6.1.3 启动MySQL179 6.1.4 登录MySQL179 6.1.5 使用MySQL181 6.1.6 问题与解决办法182 6.2 Hive安装与应用183 6.2.1 下载并解压Hive安装包183 6.2.2 配置Hive184 6.2.3 启动并验证Hive187 6.2.4 Hive的基本应用189 6.3 ZooKeeper集群安装190 6.3.1 ZooKeeper简介190 6.3.2 安装ZooKeeper191 6.3.3 配置ZooKeeper191 6.3.4 启动和测试193 HBase的安装与应用195 .1 解压并安装HBase195 .2 配置HBase196 .3 启动并验证HBase199 .4 HBase的基本应用200 .5 应用HBase中常见问题及其解决办法203 6.5 本章小结204 第7章 Sqoop和Kafka的安装与应用205 7.1 安装部署Sqoop205 7.1.1 下载或复制Sqoop安装包205 7.1.2 解压并安装Sqoop206 7.1.3 配置Sqoop206 7.1.4 启动并验证Sqoop208 7.1.5 测试Sqoop与MySQL的连接209 7.2 安装部署Kafka集群211 7.2.1 下载或复制Kafka安装包211 7.2.2 解压缩Kafka安装包211 7.2.3 配置Kafka集群211 7.2.4 Kafka的初步应用213 7.3 本章小结218 第8章 Spark集群安装与开发环境配置219 8.1 深入理解Spark219 8.1.1 Spark系统架构219 8.1.2 关键概念221 8.2 安装与配置Scala224 8.2.1 下载Scala安装包225 8.2.2 安装Scala225 8.2.3 启动并应用Scala226 8.3 Spark集群的安装与配置226 8.3.1 安装模式226 8.3.2 Spark的安装227 8.3.3 启动并验证Spark230 8.3.4 几点说明234 8.4 开发环境安装与配置236 8.4.1 IDEA简介236 8.4.2 IDEA的安装236 8.4.3 IDEA的配置238 8.5 本章小结243 第9章 Spark应用基础245 9.1 Spark程序的运行模式245 9.1.1 Spark on Yarn-cluster245 9.1.2 Spark on Yarn-client246 9.2 Spark应用设计247 9.2.1 分布式估算圆周率248 9.2.2 基于Spark MLlib的贷款风险预测265 9.3 本章小结285 第三篇 数据处理与项目开发术 0章 交互式数据处理289 10.1 数据预处理289 10.1.1 查看数据289 10.1.2 数据扩展291 10.1.3 数据过滤292 10.1.4 数据上传293 10.2 创建数据仓库294 10.2.1 创建Hive数据仓库的基本命令294 10.2.2 创建Hive分区表296 10.3 数据分析299 10.3.1 基本统计299 10.3.2 用户行为分析301 10.3.3 实时数据303 10.4 本章小结304 1章 协同过滤推荐系统305 11.1 推荐算法概述305 11.1.1 基于人口统计学的推荐305 11.1.2 基于内容的推荐306 11.1.3 协同过滤推荐307 11.2 协同过滤推荐算法分析308 11.2.1 基于用户的协同过滤推荐308 11.2.2 基于物品的协同过滤推荐310 11.3 Spark MLlib推荐算法应用312 11.3.1 ALS算法原理312 11.3.2 ALS的应用设计315 11.4 本章小结329 2章 销售数据分析系统331 12.1 数据采集331 12.1.1 在Windows下安装JDK331 12.1.2 在Windows下安装Eclipse334 12.1.3 将WebCollector项目导入Eclipse335 12.1.4 在Windows下安装MySQL336 12.1.5 连接JDBC339 12.1.6 运行爬虫程序340 12.2 在HBase集群上准备数据342 12.2.1 将数据导入到MySQL342 12.2.2 将MySQL表中的数据导入到HBase表中344 12.3 安装Phoenix中间件347 12.3.1 Phoenix架构347 12.3.2 解压安装Phoenix348 12.3.3 Phoenix环境配置349 12.3.4 使用Phoenix350 12.4 基于Web的前端开发353 12.4.1 将Web前端项目导入Eclipse353 12.4.2 安装Tomcat355 12.4.3 在Eclipse中配置Tomcat355 12.4.4 在Web浏览器中查看执行结果359 12.5 本章小结361
内容简介
大数据贵在落实!    本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,靠前篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就京东的部分销售数据应用大数据进行处理分析。
作者简介
黄东军 著
黄东军,男,教授,博士,博士生导师。毕业于中南大学计算机应用技术,先工作于中南大学信息科学与工程学院。中国计算机学会不错会员,计算机科学与技术专业教学指导委员会"物联网工程专业教学研究专家组”成员。