本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
第1章 Spark简介与运行原理
1.1 Spark是什么
1.1.1 Spark的版本发展历程
1.1.2 Spark与Hadoop的区别与联系
1.1.3 Spark的应用场景
1.2 Spark的生态系统
1.3 Spark的架构与原理
1.3.1 Spark架构设计
1.3.2 Spark作业运行流程
1.3.3 Spark分布式计算流程
1.4 Spark 2.X新特性
1.4.1 精简的API
1.4.2 Spark作为编译器
1.4.3 智能化程度
1.5 小结
习题
第2章 Spark的环境搭建
2.1 环境搭建前的准备
2.2 Spark相关配置
2.2.1 安装SSH
2.2.2 SSH免密码登录
2.2.3 修改访问权限
2.2.4 修改profile文件
2.2.5 修改Spark配置文件
2.3 Spark集群启动与关闭
2.4 Spark应用提交到集群
2.5 Spark Web监控页面
2.6 小结
习题
第3章 使用Python开发Spark应用
3.1 Python编程语言
3.1.1 Python语言介绍
3.1.2 PySpark是什么
3.2 PySpark的启动与日志设置
3.2.1 PySpark的启动方式
3.2.2 日志输出内容控制
3.3 PySpark开发包的安装
3.3.1 使用pip命令安装
3.3.2 使用离线包安装
3.4 使用PyCharm编写Spark应用
3.4.1 PyCharm的安装与基本配置
3.4.2 编写Spark应用
3.5 小结
习题
第4章 Spark RDD
4.1 弹性分布式数据集
4.1.1 RDD的定义
4.1.2 RDD的特点
4.1.3 RDD的创建
4.1.4 RDD的操作