本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | HADOOP大数据实战指南(第2版) |
作者: | 黄东军 |
定价: | 79.0 |
出版社: | 电子工业出版社 |
出版日期: | 2019-09-01 |
ISBN: | 9787121370335 |
印次: | |
版次: | 2 |
装帧: | 平装-胶订 |
开本: | 16开 |
内容简介 | |
基于"深入分析组件原理、充分展示搭建过程、详细指导应用开发”的理念,以*新版Hadoop及其生态组件为对象,采用理论与应用高度融合的方法,介绍大数据的概念、技术、方法、应用、以及项目开发。全书分为三篇,篇为大数据的基本概念和技术综述,第二篇为平台搭建与基本应用,内容设计Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark、Phoenix等;第三篇为数据处理与项目开发,综合运用各类组件进行实际数据处理,包括交互式应用、决策、算法、销售数据分析系统等。 |
目录 | |
目 录 篇 大数据的基本概念和技术 1 第1章 绪论 3 1.1 大数据的时代背景 3 1.1.1 大数据浪潮 3 1.1.2 我国的大数据战略 5 1.2 大数据的基本概念和特征 6 1.2.1 基本概念 6 1.2.2 基本特征 7 1.3 大数据系统的技术支撑体系 7 1.3.1 技术支撑体系概览 7 1.3.2 大数据系统的采集层 8 1.3.3 大数据系统的存储层 9 1.3.4 大数据系统的分析层 9 1.3.5 大数据系统的应用层 9 1.3.6 大数据系统的垂直层 10 1.4 大数据领域的主要职位及其能力要求 11 1.4.1 席数据官 11 1.4.2 数据科学家 11 1.4.3 大数据开发工程师 12 1.4.4 大数据运维工程师 13 1.5 本章小结 13 第2章 Hadoop大数据关键技术 15 2.1 Hadoop大数据应用生态系统 15 2.1.1 架构的基本理论 15 2.1.2 Hadoop大数据应用生态系统的主要组件及其关系 16 2.2 大数据采集技术 19 2.2.1 结构化数据采集工具 19 2.2.2 日志收集工具与技术 20 2.3 大数据存储技术 23 2.3.1 相关概念 23 2.3.2 分布式存储系统 27 2.3.3 数据库(HBase)与数据仓库(Hive) 30 2.4 分布式计算框架 35 2.4.1 离线计算框架 35 2.4.2 实时流计算平台 40 2.5 数据分析平台与工具 45 2.5.1 面向大数据的数据挖掘与分析工具 45 2.5.2 机器学习 49 2.6 本章小结 52 第二篇 Hadoop大数据平台搭建与基本应用 55 第3章 Linux作系统与集群搭建 57 3.1 Linux作系统 57 3.1.1 概述 57 3.1.2 特点 58 3.1.3 Linux作系统的组成 59 3.2 Linux集群的搭建 62 3.2.1 安装VMware Workstation 62 3.2.2 在VMware Workstation Pro 12上安装Linux(CentOS 7) 65 3.3 集群的配置 77 3.3.1 设置主机名 77 3.3.2 网络设置 79 3.3.3 关闭防火墙 83 3.3.4 安装JDK 84 3.3.5 免密钥登录配置 87 3.4 Linux基本命令 89 3.5 本章小结 96 第4章 HDFS安装与基本应用 97 4.1 HDFS概述 97 4.1.1 特点 97 4.1.2 主要组件与架构 97 4.2 HDFS架构分析 98 4.2.1 数据块 98 4.2.2 NameNode 98 4.2.3 DataNode 99 4.2.4 SecondaryNameNode 100 4.2.5 数据备份 100 4.2.6 通信协议 101 4.2.7 可靠性保证 101 4.3 文件作过程分析 101 4.3.1 读文件 101 4.3.2 写文件 102 4.3.3 删除文件 103 4.4 Hadoop的安装与配置 104 4.4.1 解压Hadoop安装包 104 4.4.2 配置Hadoop环境变量 105 4.4.3 配置Yarn环境变量 106 4.4.4 配置核心组件 106 4.4.5 配置文件系统 107 4.4.6 配置yarn site.xml文件 108 4.4.7 配置MapReduce计算框架文件 109 4.4.8 配置Master中的workers文件 111 4.4.9 将Master上的Hadoop复制到Slave 111 4.5 Hadoop集群的启动 112 4.5.1 配置作系统的环境变量 112 4.5.2 创建Hadoop数据目录 113 4.5.3 格式化文件系统 113 4.5.4 启动和关闭Hadoop 114 4.5.5 验证Hadoop是否成功启动 115 4.6 Hadoop集群的基本应用 117 4.6.1 HDFS基本命令 117 4.6.2 在Hadoop集群中运行程序 120 4.7 本章小结 122 第5章 MapReduce与Yarn 123 5.1 MapReduce程序的概念 123 5.1.1 基本编程模型 123 5.1.2 计算过程分析 124 5.2 深入理解Yarn 126 5.2.1 Yarn的基本架构 126 5.2.2 Yarn的工作流 |