Hadoop大数据平台构建与应用pdf下载pdf下载

Hadoop大数据平台构建与应用百度网盘pdf下载

作者:
简介:本篇主要提供Hadoop大数据平台构建与应用pdf下载
出版社:
出版时间:2020-03-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:Hadoop大数据平台构建与应用(高等职业教育大数据技术与应用系列规划教材)
  • 作者:编者:王传东//卢?//马荣飞|责编:徐建军
  • 定价:46
  • 出版社:电子工业
  • ISBN号:9787121380822

其他参考信息(以实物为准)

  • 出版时间:2020-03-01
  • 印刷时间:2020-03-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:238
  • 字数:397千字

内容提要

本书基于Hadoop大数据平台,讲解大数据平台的搭建与运维、大数据的采集与存储、大数据的处理、数据的分析、数据的可视化等完整的大数据应用案例,全面详细地讲述Hadoop、MapReduee、HDFS、Hive、Spark和Zookeeper等技术的相关知识;还详细介绍了Hadoop大数据集群环境配置与搭建、部署配置Hadoop HA模式等内容。本书具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤描述详尽,并配有大量操作图例。

目录

第1章 大数据与Hadoop平台技术1
1.1 大数据时代1
1.2 大数据关键技术2
1.3 大数据涉及的主要软件3
1.4 Hadoop平台技术的生态4
第2章 Ubuntu系统的安装与使用7
2.1 Linux系统简介7
2.2 Ubuntu系统安装8
2.2.1 下载虚拟机软件VMware并安装8
2.2.2 在虚拟机中安装Ubuntu系统14
2.2.3 切换中英文输入法27
2.2.4 安装VMware Tools28
2.2.5 apt 新与 新源 换30
2.2.6 安装vim编辑器并使用32
2.3 虚拟机联网问题及其他34
第3章 Linux基础知识及相关软件的基本使用39
3.1 Linux基础知识39
3.1.1 Linux目录结构39
3.1.2 Shell介绍40
3.1.3 用户——root用户41
3.1.4 sudo命令和su命令41
3.1.5 创建与删除普通用户42
3.1.6 目录标记规则43
3.1.7 目录权限43
3.1.8 安装SSH44
3.2 Linux常用软件与命令45
3.2.1 修改主机名45
3.2.2 目录操作45
3.2.3 查看文件内容和清屏46
3.2.4 文件操作46
3.2.5 文件解压47
3.2.6 进程与端口查看命令48
3.2.7 系统管理命令49
3.2.8 数据流重定向和管道的使用50
3.2.9 其他使用技巧介绍51
3.3 在Ubuntu中安装Eclipse51
3.3.1 通过软件中心下载安装Eclipse51
3.3.2 在桌面创建Eclipse快捷方式52
第4章 Hadoop的伪分布式安装与使用54
4.1 深入了解Hadoop54
4.1.1 Hadoop发行版本介绍54
4.1.2 Hadoop核心架构55
4.1.3 Hadoop的主要应用场景56
4.2 安装Java环境57
4.2.1 离线安装57
4.2.2 在线安装58
4.3 安装Hadoop59
4.3.1 下载Hadoop安装文件并解压59
4.3.2 配置Hadoop环境变量60
4.3.3 伪分布式模式配置61
4.3.4 Hadoop无法正常启动和使用的解决方法63
第5章 HDFS65
5.1 HDFS基本知识65
5.1.1 DFS简介65
5.1.2 HDFS65
5.1.3 HDFS存储数据66
5.2 Shell命令与HDFS交互操作67
5.2.1 Hadoop Shell命令方式67
5.2.2 目录操作68
5.2.3 文件操作69
5.2.4 利用Web界面管理HDFS70
5.3 Java编程与HDFS实现交互71
5.3.1 在Eclipse中创建HDFS交互Java项目71
5.3.2 在Java项目中编写Java应用程序代码75
5.3.3 编译运行程序与打包77
5.3.4 练习中使用的代码文件81
第6章 HBase伪分布部署与使用85
6.1 HBase介绍85
6.2 安装HBase86
6.3 伪分布HBase环境搭建87
6.4 HBase Shell常用操作命令实践90
6.4.1 HBase表结构举例说明和常用的表操作命令90
6.4.2 在HBase中创建表和删除表91
6.4.3 HBase数据库基本操作92
第7章 MapReduce原理与基础编程94
7.1 MapReduce介绍与基本原理94
7.1.1 MapReduce在现实生活中的运用94
7.1.2 通过案例拆解MapReduce的工作过程95
7.1.3 MapReduce工作流程概括98
7.2 MapReduce编程思路98
7.3 MapReduce编程实例1:WordCount99
7.4 MapReduce编程实例2:计算学生的平均成绩109
第8章 数据仓库Hive伪分布式部署与使用113
8.1 Hive的特点113
8.2 Hive伪分布式部署114
8.2.1 安装配置Hive114
8.2.2 安装配置MySQL,连接Hive元数据库115
8.3 MySQL数据库操作118
8.3.1 常用命令介绍118
8.3.2 无法登录MySQL Shell的解决方法120
第9章 数据分析与Hive数据库操作121
9.1 Hive操作命令介绍121
9.2 HQL中的Case命令用法介绍122
9.3 电商网站日志数据分析与达成目标124
9.4 数据分析实现 126
9.4.1 将网站日志文件集加载到Hive中126
9.4.2 统计分析网站日志数据127
9.4.3 统计词频131
0章 Spark的安装与基础编程133
10.1 Spark的安装(Python版)133
10.1.1 下载Spark安装软件134
10.1.2 安装与配置Spark134
10.1.3 在PySpark中运行代码135
10.1.4 Spark独立应用程序编程示例136
10.2 Spark的一些基本概念137
10.3 RDD编程操作137
10.3.1 RDD操作的两种类型137
10.3.2 创建RDD139
10.3.3 创建键值对RDD142
10.4 从RDD到DataFrame145
10.4.1 Spark SQL和DataFrame145
10.4.2 创建样例数据文件146
10.4.3 读取json和csv文件生成DataFrame147
10.4.4 普通文本文件生成DataFrame148
10.5 Spark综合编程与Python可视化151
10.5.1 Spark综合编程151
10.5.2 Python可视化呈现154
1章 Hadoop集群环境搭建160
11.1 克隆Linux虚拟机160
11.2 桥接模式与NAT模式163
11.2.1 桥接模式163
11.2.2 NAT模式164
11.3 VMware Workstation桥接网络配置164
11.3.1 集群网络配置实现的目标164
11.3.2 设置网络桥接模式165
11.3.3 验证169
11.4 大数据集群环境配置与搭建170
11.4.1 修改主机名,并将主机名与IP地址建立映射170
11.4.2 集群SSH免密登录171
11.4.3 时间同步173
2章 Zookeeper与集群Hadoop安装应用174
12.1 Zookeeper介绍174
12.1.1 Zookeeper的作用174
12.1.2 Zookeeper选举机制175
12.2 安装Zookeeper175
12.2.1 为安装Zookeeper的目录赋权175
12.2.2 下载、解压Zookeeper安装包175
12.2.3 修改Zookeeper配置文件zoo.cfg176
12.2.4 创建zkdata和zkdatalog文件夹177
12.2.5 创建文件myid177
12.2.6 配置环境变量177
12.2.7 远程复制分发178
12.2.8 启动Zookeeper集群179
12.2.9 Zookeeper启动错误及解决方法179
12.3 在集群上安装Hadoop180
12.4 在集群上安装HBase185
3章 构建集群数据仓库189
13.1 在slave2节点上安装MySQL Server189
13.2 在slave1节点上安装Hive服务器191
13.3 将master节点作为Hive客户端194
13.4 启动Hive195
4章 Hadoop从 分布式到HA的安装与使用197
14.1 Hadoop HA197
14.1.1 HDFS HA背景197
14.1.2 HDFS HA架构197
14.2 安装虚拟机系统199
14.2.1 在VMware中创建虚拟机199
14.2.2 安装CentOS 7206
14.2.3 设置网络静态IP地址208
14.2.4 克隆3台虚拟机211
14.3 使用XShell 6登录CentOS虚拟机212
14.4 修改各节点主机名称并配置SSH免密215
14.4.1 修改各节点的虚拟机主机名215
14.4.2 主机名与IP地址映射215
14.4.3 SSH免密设置216
14.5 安装JDK218
14.6 安装并配置Zookeeper219
14.6.1 安装Zookeeper220
14.6.2 启动和停止Zookeeper222
14.7 安装并配置为 分布式Hadoop集群223
14.7.1 上传、解压文件并配置环境变量223
14.7.2 将Hadoop配置为 分布式集群224
14.8 部署配置Hadoop HA模式227
14.8.1 编辑Hadoop HA配置文件227
14.8.2 分发文件230
14.8.3 次启动HA231
14.8.4 常规启动HA234
14.8.5 Hadoop HA部署完成之后的常规启停顺序23