本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | Spark:大数据集群计算的生产实践 |
作者: | (美)Ilya Ganelin(伊利亚·甘列林) 等,李刚 译 |
定价: | 65.0 |
出版社: | 电子工业出版社 |
出版日期: | |
ISBN: | 9787121313646 |
印次: | |
版次: | 1 |
装帧: | 平装-胶订 |
开本: | 小16开 |
内容简介 | |
本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章,第1 ~ 2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。 |
目录 | |
第1 章 成功运行Spark job / 1 安装所需组件 / 2 原生安装Spark Standalone 集群 /3 分布式计算的发展史/ 3 步入云时代 /5 理解资源管理/6 使用各种类型的存储格式 /9 文本文件/11 Sequence 文件/13 Avro 文件/ 13 Parquet 文件 /13 监控和度量的意义/ 14 Spark UI/ 14 Spark Standalone UI/ 17 Metrics REST API / 17 Metrics System / 18 外部监控工具 / 18 总结 /19 第2 章 集群管理 /21 背景知识/ 23 Spark 组件 / 26 Driver / 27 workers 与executors /28 配置 / 30 Spark Standalone/33 架构 / 34 单节点设置场景 / 34 多节点设置 / 36 YARN / 36 架构 / 38 动态资源分配 /41 场景 /43 Mesos/ 45 安装/46 架构 / 47 动态资源分配/ 49 基本安装场景 / 50 比较 / 52 总结 /56 第3 章 性能调优 /59 Spark 执行模型/ 60 分区 /62 控制并行度/62 分区器/64 shuffle 数据 /65 shuffle 与数据分区 / 67 算子与shuffle / 70 shuffle 并不总是坏事 /75 序列化 / 75 Kryo 注册器 / 77 Spark 缓存 / 77 SparkSQL 缓存 / 81 内存管理 /82 垃圾回收 / 83 共享变量 / 84 广播变量 / 85 累加器 /87 数据局部性 / 90 总结 / 91 第4 章 / 93 架构/ 94 Security Manager/ 94 设定配置 / 95 ACL / 97 配置 / 97 提交job / 98 Web UI/ 99 网络 / 107 加密/ 108 事件日志 /113 Kerberos/114 Apache Sentry./114 总结 /115 第5 章 容错或job 执行/ 117 Spark job 的生命周期 /118 Spark master /119 Spark driver/ 122 Spark worker /124 job 生命周期 /124 job 调度 /125 应用程序内部调度 / 125 用外部工具进行调度 / 133 容错 /135 内部容错与外部容错 / 136 SLA/ 137 RDD / 138 Batch vs Streaming / 145 测试策略 / 148 配置/ 155 总结 / 158 第6 章 Spark /159 数据仓库 /159 SparkSQL CLI/161 Thrift JDBC/ODBC 服务器 / 162 Hive on Spark/ 162 机器学习 / 164 DataFrame / 165 MLlib 和ML / 167 Mahout on Spark / 174 Hivemall On Spark/ 175 外部的框架 / 176 Spark Package / 177 XGBoost/ 179 spark-jobserver / 179 未来的工作 /182 与参数服务器集成 / 184 深度学习 / 192 Spark 在企业中的应用 / 200 用Spark 及Kafka 收集用户活动日志 / 200 用Spark 做实时/ 202 Twitter Bots 的实时分类 / 204 总结 / 205 |
编辑 | |
本书涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。作者均为大数据社区的知名专家,带着你一步步从概念验证或Spark应用的demo版迁移到生产环境,用真实案例分析常见问题、限制、挑战和机会。 调优Spark应用 管理资源、组织存储、做好监控 了解在生产环境中使用Spark时有哪些潜在的问题 知晓Spark用在何处*能发挥作用 预估集群的规模,搞清楚硬件需求 通过内存管理、分区、shuffle等技术提升性能 用Kerberos保证数据的 解决Spark streaming在生产环境中的问题 将Spark与Yarn、Mesos、Tachyon等集成 |