《企业数据湖》[50M]百度网盘|亲测有效|pdf下载

书籍详情

企业数据湖
出版时间:2019-01-01
热度:6788
上架时间:2024-06-30 09:07:09
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作者:(印)汤姆斯·约翰(Tomcy John),(印)潘卡·米斯拉(Pankaj Misra) 著张世武,李想,张浩林译

定价:99

出版社:机械工业出版社

出版日期:2019年01月01日

页数:369

装帧:平装

ISBN:9787111615538

●译者序
推荐序
关于作者
关于技术审核人员
前言
部分概述
章数据导论
1.1 探索数据
1.2 什么是企业数据
1.3 企业数据管理
1.4 大数据相关概念
1.5 数据与企业的相关性
1.6 数据质量
1.7 企业中数据如何存放
1.8 企业现状
1.9 企业数字化转型
1.10 数据湖用例启示
1.11 总结
第2章数据湖概念概览
2.1 什么是数据湖
2.2 数据湖如何帮助企业
2.3 数据湖是如何工作的
2.4 数据湖与数据仓库的区别
2.5 数据湖的构建方法
2.6 Lambda架构驱动的数据湖
2.7 总结
第3章 Lambda架构：一种数据湖实现模式
3.1 什么是Lambda架构
3.2 Lambda架构简史
3.3 Lambda架构的原则
3.4 Lambda架构的组件
3.5 Lambda架构的完整工作原理
3.6 Lambda架构的优势
3.7 Lambda架构的劣势
3.8 Lambda架构技术概览
3.9 应用Lambda
3.10 Lambda架构运行范例
3.11 Kappa架构
3.12 总结
第4章数据湖中的Lambda应用
4.1 Hadoop发行版本介绍
4.2 影响企业大数据技术栈选择的因素
4.3 批处理层与数据处理
4.4 服务层
4.5 总结
第二部分数据湖的技术组件
第5章基于Apache Sqoop的批量数据获取
5.1 数据湖背景中的数据获取
5.2 为什么使用Apache Sqoop
5.3 Sqoop的功能
5.4 Sqoop connector
5.5 Sqoop对HDFS的支持
5.6 Sqoop运行范例
5.7 适合使用Sqoop的场景
5.8 不适合使用Sqoop的场景
5.9 实时Sqooping是否可行
5.10 其他选项
5.11 总结
第6章基于Apache Flume的流式数据获取
6.1 数据获取
6.2 为什么使用Flume
6.3 Flume的架构原则
Flume架构
6.5 Flume事件——流式数据
6.6 Flume Agent
6.7 Flume Source
6.8 Flume Channel
6.9 Flume Sink
6.10 Flume配置
6.11 Flume事务管理
6.12 Flume的其他组件
6.13 上下文路由
6.14 Flume运行范例
6.15 适合使用Flume的场景
6.16 不适合使用Flume的场景
6.17 其他选项
6.18 总结
第7章使用Apache Kafka构建消息层
7.1 数据湖背景中的消息层
7.2 为什么使用Apache Kafka
7.3 Kafka的架构
7.4 其他Kafka组件
7.5 Kafka编程接口
7.6 生产者和消费者的可靠性
7.7 Kafka的安全性
7.8 Kafka作为面向消息的中间件
7.9 Kafka与水平可扩展架构
7.10 Kafka连接
7.11 Kafka运行范例
7.12 适合使用Kafka的场景
7.13 不合适使用Kafka的场景
7.14 其他选项
7.15 总结
第8章使用Apache Flink处理数据
8.1 数据湖背景中的数据摄取层
8.2 为什么使用Apache Flink
8.3 Flink的工作原理
8.4 Flink的API
8.5 Flink运行范例
8.6 适合使用Flink的场景
8.7 不适合使用Flink的场景
8.8 其他选项
8.9 总结
第9章使用Apache Hadoop存储数据
9.1 数据湖背景中的数据存储和Lambda批处理层
9.2 为什么使用Hadoop
9.3 Hadoop的工作原理
9.4 Hadoop生态系统
9.5 Hadoop发行版
9.6 HDFS和数据格式
9.7 Hadoop用于近实时应用
9.8 Hadoop部署模式
9.9 Hadoop运行范例
9.10 不适合使用Hadoop的场景
9.11 其他选项
9.12 总结
0章使用Elasticsearch存储全文索引
10.1 数据湖背景中的数据存储层与Lambda快速处理层
10.2 什么是Elasticsearch
10.3 为什么使用Elasticsearch
10.4 Elasticsearch的工作原理
10.5 Elastic Stack
10.6 Elastic Cloud
10.7 Elasticsearch DSL
10.8 Elasticsearch中的节点
10.9 Elasticsearch与关系数据库
10.10 Elasticsearch生态系统
10.11 Elasticsearch部署选项
10.12 Elasticsearch Client
10.13 Elasticsearch用于快速流式处理
10.14 Elasticsearch作为数据源
10.15 Elasticsearch用于内容索引
10.16 Elasticsearch与Hadoop
10.17 Elasticsearch运行范例
10.18 适合使用Elasticsearch的场景
10.19 不适合使用Elasticsearch的场景
10.20 其他选项
10.21 总结
第三部分将所有技术整合在一起
1章数据湖组件集成
11.1 数据湖的学习进程
11.2 数据湖架构的核心原则
11.3 企业数据湖面临的挑战
11.4 企业对数据湖的期望
11.5 数据湖的其他用途
11.6 了解更多关于数据存储的信息
11.7 更多关于数据处理的知识
11.8 数据安全
11.9 数据加密
11.10 元数据管理和治理
11.11 数据审计
11.12 数据可追溯性
11.13 了解更多服务层细节
11.14 总结
2章数据湖用例建议
12.1 在企业中推行网络安全实践
12.2 深入了解企业的客户
12.3 提升仓储管理效率
12.4 品牌创建与企业营销
12.5 为客户提供更个性化的服务
12.6 让物联网数据触手可及
12.7 更实用的数据归档
12.8 现有的数据仓库基础设施
12.9 实现电信安全和法规遵从
12.10 总结

本书分为三个主要部分。靠前部分介绍了数据湖的概念、企业中数据湖泊的重要性，以及Lambda架构的很新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件，介绍了一些流行的大数据技术，如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖，并介绍了几个实际的用例，而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的很后，读者将能够选择正确的大数据技术，使用lambda架构模式来构建企业数据湖。

相关推荐

大数据Hive离线计算开发实战

基于ApacheFlink的流处理

数据中台实战：手把手教你搭建数据中台