Flume日志收集与MapReduce模式pdf下载pdf下载

Flume日志收集与MapReduce模式百度网盘pdf下载

作者:
简介:本篇主要提供Flume日志收集与MapReduce模式pdf下载
出版社:
出版时间:2015-06-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

 书[0名0]:  Flume日志收集与MapReduce模式|4716627
 图书定价: 39元
 图书作者: (美)[0史0]蒂夫·霍夫曼(Steve Hoffman);斯里纳特·佩雷拉(Srinath Perera)
 出版社:  [1机1]械工业出版社
 出版日期:  2015-06-01 00:00:00
 ISBN号: 9787111502074
 开本: 32开
 页数: 0
 版次: 1-1
 作者简介
[0史0]蒂夫·霍夫曼,具有30年的软[亻牛]开发[纟巠]验,拥有伊利诺伊[0大0][0学0]香槟分校计算[1机1]工程[0学0]士[0学0]位以及德保罗[0大0][0学0]计算[1机1]科[0学0]硕士[0学0]位。他目前是Orbitz Worldwide的[0首0]席工程师。通过http://bit.ly/bacoboy或者Twitter@bacoboy可以了解关于Steve的*多信息。 斯里纳特·佩雷拉,WS02公司的**软[亻牛]架构师,他与CTO合作负责WS02平台的整体架构。此外,他还是Lanka软[亻牛]基金[0会0]的研究科[0学0]家,并且担任莫勒图沃[0大0][0学0]计算[1机1]科[0学0]与工程[0学0]院的客座讲师。他是Apache Axis2开源项目的联合创始人,从2002年开始就参与Apache Web Service项目,是Apache~[亻牛]基金[0会0]的成员以及Apache Web Service项目的PMC。他也是Apache开源的Axis、Axis2以及Geronimo项目的[扌是]交者。
 内容简介
本书分为上下两篇,对Flume重要组[亻牛]及其在日常开发中的使用以及MapReduce编程[0知0]识进行了全[mian]而深入的探讨,[扌是]供[0大0]量实践案例,可以帮助读者快速掌握并灵活运用Flume和 MapReduce[0知0]识解决实际项目中遇到的问题。
上篇介绍Flume的重要组[亻牛]以及如何用Flume解决HDFS和流式数据/日志的问题,[0首0]先简要介绍F1ume的架构,包括将数据移动到数据库以及从数据库获取数据、[0No0]SQL数据存储和性能调[0优0],然后深入讲解各个架构组[亻牛](源、通道、接收器、通道处理器、接收器组等)的具体实现及配置选项,并且介绍了如何编写自定义的实现,[z1u1i]后介绍Flume监控方[mian]的[0知0]识并总结了实时分布式数据收集的现状。
下篇则对Hadoop以及MapReduce编程进行了简明介绍,旨在帮助读者快速起步并对使用 Hadoop进行编程有个总体的认识。本篇[1主1]要内容包括如何编写一个Hadoop数据格式化器来读取数据格式,如何通过MapReduce处理 数据、连接两个数据集、实现差集、统计两个条目同时出现的次数、实现图的遍历,以及如何通过反向索引实现简单的搜索,如何通过 Kmeans算[0法0]建立数据集的集群等。
 目录

译者序
前 言
上篇 Flume日志收集
[0第0]1章 概览与架构 2
1.1 Flume 0.9 3
1.2 Flume 1.X(Flume-NG) 4
1.3 HDFS与流式数据/日志的问题 5
1.4 源、通道与接收器 6
1.5 Flume事[亻牛] 7
1.5.1 拦截器、通道选择器与选择处理器 8
1.5.2 分层数据收集(多数据流与代理) 9
1.6 小结 10
[0第0]2章 Flume快速起步 11
2.1 下载Flume 11
2.2 Flume配置文[亻牛]概览 13
2.3 从“Hello World”开始 15
2.4 小结 20
[0第0]3章 通道 22
3.1 内存通道 23
3.2 文[亻牛]通道 25
3.3 小结 29
[0第0]4章 接收器与接收处理器 31
4.1 HDFS接收器 31
4.1.1 路径与文[亻牛][0名0] 34
4.1.2 文[亻牛]转储 37
4.2 压缩编解码器 38
4.3 事[亻牛]序列化器 38
4.3.1 文本输出 39
4.3.2 带有头信息的文本 39
4.3.3 Apache Avro 39
4.3.4 文[亻牛]类型 41
4.3.5 [0超0]时设置与线程池 43
4.4 接收器组 44
4.4.1 负载均衡 45
4.4.2 故障恢复 45
4.5 小结 46
[0第0]5章 源与通道选择器 48
5.1 使用tail的问题 48
5.2 exec源 50
5.3 [jia]脱[1机1]目录源 53
5.4 syslog源 55
5.4.1 syslog UDP源 56
5.4.2 syslog TCP源 58
5.4.3 多端口syslog TCP源 59
5.5 通道选择器 61
5.5.1 复制 62
5.5.2 多路复用 62
5.6 小结 63
[0第0]6章 拦截器、ETL与路由 65
6.1 拦截器 65
6.1.1 Timestamp 66
6.1.2 Host 67
6.1.3 Static 68
6.1.4 正则表达式过滤 69
6.1.5 正则表达式抽取 70
6.1.6 自定义拦截器 74
6.2 数据流分层 75
6.2.1 Avro源/接收器 76
6.2.2 命令行Avro 78
6.2.3 Log4J追加器 79
6.2.4 负载均衡Log4J追加器 81
6.3 路由 82
6.4 小结 83
[0第0]7章 监控Flume 85
7.1 监控代理进程 86
7.1.1 Monit 86
7.1.2 Nagios 86
7.2 监控性能度量情况 87
7.2.1 Ganglia 87
7.2.2 内部HTTP服务器 89
7.2.3 自定义监控钩子 91
7.3 小结 92
[0第0]8章 万[0法0]皆空——实时分布式数据收集的现状 93
8.1 传输时间与日志事[亻牛] 94
8.2 万恶的时区 94
8.3 容量规划 95
8.4 多数据中心的注意事项 96
8.5 合规性与数据失效 97
8.6 小结 98
下篇 MapReduce模式
[0第0]9章 使用Java编写一个单词统计应用(初级) 102
9.1 准备工作 102
9.2 [*]作步骤 103
9.3 示例说明 103
[0第0]10章 使用MapReduce编写一个单词统计应用并运行(初级) 105
10.1 准备工作 105
10.2 [*]作步骤 106
10.3 示例说明 106
10.4 补充说明 109
[0第0]11章 在分布式环境中安装Hadoop并运行单词统计应用(初级) 110
11.1 准备工作 111
11.2 [*]作步骤 112
11.3 示例说明 116
[0第0]12章 编写格式化器(中级) 117
12.1 准备工作 118
12.2 [*]作步骤 118
12.3 示例说明 119
12.4 补充说明 121
[0第0]13章 分析——使用MapReduce绘制频度分布(中级) 122
13.1 准备工作 123
13.2 [*]作步骤 123
13.3 示例说明 125
13.4 补充说明 128
[0第0]14章 关系[*]作——使用MapReduce连接两个数据集(高级) 129
14.1 准备工作 130
14.2 [*]作步骤 130
14.3 示例说明 131
14.4 补充说明 134
[0第0]15章 使用MapReduce实现集合[*]作(中级) 135
15.1 准备工作 135
15.2 [*]作步骤 136
15.3 示例说明 137
15.4 补充说明 140
[0第0]16章 使用MapReduce实现交叉相关(中级) 141
16.1 准备工作 141
16.2 [*]作步骤 142
16.3 示例说明 142
16.4 补充说明 145
[0第0]17章 使用MapReduce实现简单搜索(中级) 146
17.1 准备工作 147
17.2 [*]作步骤 147
17.3 示例说明 148
17.4 补充说明 150
[0第0]18章 使用MapReduce实现简单的图[*]作(高级) 151
18.1 准备工作 152
18.2 [*]作步骤 152
18.3 示例说明 153
18.4 补充说明 157
[0第0]19章 使用MapReduce实现Kmeans(高级) 158
19.1 准备工作 159
19.2 [*]作步骤 159
19.3 示例说明 160
19.4 补充说明 164