ApacheSpark机器学习/大数据技术丛书pdf下载pdf下载

ApacheSpark机器学习/大数据技术丛书百度网盘pdf下载

作者:
简介:本篇主要提供ApacheSpark机器学习/大数据技术丛书pdf下载
出版社:
出版时间:2017-03-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

基本信息

  • 商品名称:Apache Spark机器学习/大数据技术丛书
  • 作者:(美)刘永川|译者:闫龙川//高德荃//李君婷
  • 定价:59
  • 出版社:机械工业
  • ISBN号:9787111562559

其他参考信息(以实物为准)

  • 出版时间:2017-03-01
  • 印刷时间:2017-03-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:208

内容提要

刘永川著的《Apache Spark机器学习》由IBM首 席数据科学家Alex Liu亲笔撰写,详细阐述Spark机 器学习的典型案例,为我们的大数据分析挖掘实践绘 制了精美蓝图。
     全书共11章,**章从机器学习的角度介绍 Apache Spark。第2章介绍如何使甩Aparche Spark 上的工具(如Spark SQL)进行机器学习数据准备,包 括数据清洗、一致性识别、数据合并以及特征开发。
    第3~11章围绕Spark机器学习先后介绍了9个实际案 例,内容涵盖整体视图、欺诈检测、风险评分、流失 预测、产品推荐、教育分析、城市分析和开放数据建 模等方面,囊括了大数据分析挖掘的主要应用场景。
    在每个案例中,作者对所使用的机器学习算法、数据 与特征准备、模型评价方法、结果的解释都进行了详 细的阐述,并给出了Scala、R语言、SPSS等环境下的 关键代码。
     无论你是数据科学家、数据分析师、R语言或者 SPSS用户,通过阅读本书,都能够对Spark;机器学 习有*加深入的理解和掌握,并将所学内容应用到大 数据分析挖掘的具体工作中。
    

目录

译者序
前言
**章 Spark机器学习简介
1.1 Spark概述和技术优势
1.1.1 Spark概述
1.1.2 Spark优势
1.2 在机器学习中应用Spark计算
1.3 机器学习算法
1.4 MLlib
1.5 Spark RDD和DataFrame
1.5.1 Spark RDD
1.5.2 Spark DataFrame
1.5.3 R语言DataFrame API
1.5.4 机器学习框架、RM4E和Spark计算
1.5.5 机器学习框架
1.5.6 RM4E
1.5.7 Spark计算框架
1.6 机器学习工作流和Spark pipeline
1.7 机器学习工作流示例
1.8 Spark notebook简介
1.8.1 面向机器学习的notebook方法
1.8.2 Spark notebook
1.9 小结
第2章 Spark机器学习的数据准备
2.1 访问和加载数据集
2.1.1 访问公开可用的数据集
2.1.2 加载数据集到Spark
2.1.3 数据集探索和可视化
2.2 数据清洗
2.2.1 处理数据不完备性
2.2.2 在Spark中进行数据清洗
2.2.3 *简便的数据清洗
2.3 一致性匹配
2.3.1 一致性问题
2.3.2 基于Spark的一致性匹配
2.3.3 实体解析
2.3.4 *好的一致性匹配
2.4 数据集重组
2.4.1 数据集重组任务
2.4.2 使用Spark SQL进行数据集重组
2.4.3 在Spark上使用R语言进行数据集重组
2.5 数据集连接
2.5.1 数据连接及其工具——Spark SQL
2.5.2 Spark中的数据集连接
2.5.3 使用R语言数据表程序包进行数据连接
2.6 特征提取
2.6.1 特征开发的挑战
2.6.2 基于Spark MLlib的特征开发
2.6.3 基于R语言的特征开发
2.7 复用性和自动化
2.7.1 数据集预处理工作流
2.7.2 基于Spark pipeline的数据集预处理
2.7.3 数据集预处理自动化
2.8 小结
第3章 基于Spark的整体视图
3.1 Spark整体视图
3.1.1 例子
3.1.2 简洁快速的计算
3.2 整体视图的方法
3.2.1 回归模型
3.2.2 SEM方法
3.2.3 决策树
3.3 特征准备
3.3.1 PCA
3.3.2 使用专业知识进行分类分组
3.3.3 特征选择
3.4 模型估计
3.4.1 MLlib实现
3.4.2 R notebook实现
3.5 模型评估
3.5.1 快速评价
3.5.2 RMSE
3.5.3 ROC曲线
3.6 结果解释
3.7 部署
3.7.1 仪表盘
3.7.2 规则
3.8 小结
第4章 基于Spark的欺诈检测
4.1 Spark欺诈检测
4.1.1 例子
4.1.2 分布式计算
4.2 欺诈检测方法
4.2.1 随机森林
4.2.2 决策树
4.3 特征提取
4.3.1 从日志文件提取特征
4.3.2 数据合并
4.4 模型估计
4.4.1 MLlib实现
4.4.2 R notebook实现
4.5 模型评价
4.5.1 快速评价
4.5.2 混淆矩阵和误报率
4.6 结果解释
4.7 部署欺诈检测
4.7.1 规则
4.7.2 评分
4.8 小结
第5章 基于Spark的风险评分
5.1 Spark用于风险评分
5.1.1 例子
5.1.2 Apache Spark notebook
5.2 风险评分方法
5.2.1 逻辑回归
5.2.2 随机森林和决策树
5.3 数据和特征准备
5.4 模型估计
5.4.1 在Data Scientist Workbench上应用R notebook
5.4.2 实现R notebook
5.5 模型评价
5.5.1 混淆矩阵
5.5.2 ROC分析
5.5.3 Kolmogorov-Smirnov检验
5.6 结果解释
5.7 部署
5.8 小结
第6章 基于Spark的流失预测
6.1 Spark流失预测
6.1.1 例子
6.1.2 Spark计算
6.2 流失预测的方法
6.2.1 回归模型
6.2.2 决策树和随机森林
6.3 特征准备
6.3.1 特征提取
6.3.2 特征选择
6.4 模型估计
6.5 模型评估
6.6 结果解释
6.7 部署
6.7.1 评分
6.7.2 干预措施推荐
6.8 小结
第7章 基于Spark的产品推荐
7.1 基于Apache Spark的产品推荐引擎
7.1.1 例子
7.1.2 基于Spark平台的SPSS
7.2 产品推荐方法
7.2.1 协同过滤
7.2.2 编程准备
7.3 基于SPSS的数据治理
7.4 模型估计
7.5 模型评价
7.6 产品推荐部署
7.7 小结
第8章 基于Spark的学习分析
8.1 Spark流失预测
8.1.1 例子
8.1.2 Spark计算
8.2 流失预测方法
8.2.1 回归模型
8.2.2 决策树
8.3 特征准备
8.3.1 特征开发
8.3.2 特征选择
8.4 模型估计
8.5 模型评价
8.5.1 快速评价
8.5.2 混淆矩阵和错误率
8.6 结果解释
8.6.1 计算干预影响
8.6.2 计算主因子影响
8.7 部署
8.7.1 规则
8.7.2 评分
8.8 小结
第9章 基于Spark的城市分析
9.1 Spark服务预测
9.1.1 例子
9.1.2 Spark计算
9.1.3 服务预测方法
9.1.4 回归模型
9.1.5 时间序列建模
9.2 数据和特征准备
9.2.1 数据合并
9.2.2 特征选择
9.3 模型估计
9.3.1 用Zeppelin notebook实现Spark
9.3.2 用R notebook实现Spark
9.4 模型评估
9.4.1 使用MLlib计算RMSE
9.4.2 使用R语言计算RMSE
9.5 结果解释
9.5.1 *大影响因素
9.5.2 趋势可视化
9.6 小结
**0章 基于Spark的电信数据学习
10.1 在Spark平台上使用电信数据
10.1.1 例子
10.1.2 Spark计算
10.2 电信数据机器学习方法
10.2.1 描述性统计和可视化
10.2.2 线性和逻辑回归模型
10.2.3 决策树和随机森林
10.3 数据和特征开发
10.3.1 数据重组
10.3.2 特征开发和选择
10.4 模型估计
10.5 模型评估
10.5.1 使用MLlib计算RMSE
10.5.2 使用R语言计算RMSE
10.5.3 使用MLlib和R语言计算混淆矩阵与错误率
10.6 结果解释
10.6.1 描述性统计和可视化
10.6.2 *大影响因素
10.6.3 特别的洞见
10.6.4 趋势可视化
10.7 模型部署
10.7.1 告警发送规则
10.7.2 为流失和呼叫中心呼叫情况进行用户评分
10.7.3 为购买倾向分析进行用户评分
10.8 小结
**1章 基于Spark的开放数据建模
11.1 Spark用于开放数据学习
11.1.1 例子
11.1.2 Spark计算
11.1.3 评分和排名方法
11.1.4 聚类分析
11.1.5 主成分分析
11.1.6 回归模型
11.1.7 分数合成
11.2 数据和特征准备
11.2.1 数据清洗
11.2.2 数据合并
11.2.3 特征开发
11.2.4 特征选择
11.3 模型估计
11.3.1 基于Spark的SPSS分析:SPSS Analytics Server
11.3.2 模型评价
11.3.3 用MLlib计算RMSE
11.3.4 用R语言计算RMSE
11.4 结果解释
11.4.1 排名比较
11.4.2 *大影响因素
11.5 部署
11.5.1 发送告警规则
11.5.2 学区排名评分
11.6 小结