本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
书[0名0]: | Flume日志收集与MapReduce模式|4716627 |
图书定价: | 39元 |
图书作者: | (美)[0史0]蒂夫·霍夫曼(Steve Hoffman);斯里纳特·佩雷拉(Srinath Perera) |
出版社: | [1机1]械工业出版社 |
出版日期: | 2015-06-01 00:00:00 |
ISBN号: | 9787111502074 |
开本: | 32开 |
页数: | 0 |
版次: | 1-1 |
作者简介 |
[0史0]蒂夫·霍夫曼,具有30年的软[亻牛]开发[纟巠]验,拥有伊利诺伊[0大0][0学0]香槟分校计算[1机1]工程[0学0]士[0学0]位以及德保罗[0大0][0学0]计算[1机1]科[0学0]硕士[0学0]位。他目前是Orbitz Worldwide的[0首0]席工程师。通过http://bit.ly/bacoboy或者Twitter@bacoboy可以了解关于Steve的*多信息。
斯里纳特·佩雷拉,WS02公司的**软[亻牛]架构师,他与CTO合作负责WS02平台的整体架构。此外,他还是Lanka软[亻牛]基金[0会0]的研究科[0学0]家,并且担任莫勒图沃[0大0][0学0]计算[1机1]科[0学0]与工程[0学0]院的客座讲师。他是Apache Axis2开源项目的联合创始人,从2002年开始就参与Apache Web Service项目,是Apache~[亻牛]基金[0会0]的成员以及Apache Web Service项目的PMC。他也是Apache开源的Axis、Axis2以及Geronimo项目的[扌是]交者。 |
内容简介 |
本书分为上下两篇,对Flume重要组[亻牛]及其在日常开发中的使用以及MapReduce编程[0知0]识进行了全[mian]而深入的探讨,[扌是]供[0大0]量实践案例,可以帮助读者快速掌握并灵活运用Flume和 MapReduce[0知0]识解决实际项目中遇到的问题。 上篇介绍Flume的重要组[亻牛]以及如何用Flume解决HDFS和流式数据/日志的问题,[0首0]先简要介绍F1ume的架构,包括将数据移动到数据库以及从数据库获取数据、[0No0]SQL数据存储和性能调[0优0],然后深入讲解各个架构组[亻牛](源、通道、接收器、通道处理器、接收器组等)的具体实现及配置选项,并且介绍了如何编写自定义的实现,[z1u1i]后介绍Flume监控方[mian]的[0知0]识并总结了实时分布式数据收集的现状。 下篇则对Hadoop以及MapReduce编程进行了简明介绍,旨在帮助读者快速起步并对使用 Hadoop进行编程有个总体的认识。本篇[1主1]要内容包括如何编写一个Hadoop数据格式化器来读取数据格式,如何通过MapReduce处理 数据、连接两个数据集、实现差集、统计两个条目同时出现的次数、实现图的遍历,以及如何通过反向索引实现简单的搜索,如何通过 Kmeans算[0法0]建立数据集的集群等。 |
目录 |
译者序 前 言 上篇 Flume日志收集 [0第0]1章 概览与架构 2 1.1 Flume 0.9 3 1.2 Flume 1.X(Flume-NG) 4 1.3 HDFS与流式数据/日志的问题 5 1.4 源、通道与接收器 6 1.5 Flume事[亻牛] 7 1.5.1 拦截器、通道选择器与选择处理器 8 1.5.2 分层数据收集(多数据流与代理) 9 1.6 小结 10 [0第0]2章 Flume快速起步 11 2.1 下载Flume 11 2.2 Flume配置文[亻牛]概览 13 2.3 从“Hello World”开始 15 2.4 小结 20 [0第0]3章 通道 22 3.1 内存通道 23 3.2 文[亻牛]通道 25 3.3 小结 29 [0第0]4章 接收器与接收处理器 31 4.1 HDFS接收器 31 4.1.1 路径与文[亻牛][0名0] 34 4.1.2 文[亻牛]转储 37 4.2 压缩编解码器 38 4.3 事[亻牛]序列化器 38 4.3.1 文本输出 39 4.3.2 带有头信息的文本 39 4.3.3 Apache Avro 39 4.3.4 文[亻牛]类型 41 4.3.5 [0超0]时设置与线程池 43 4.4 接收器组 44 4.4.1 负载均衡 45 4.4.2 故障恢复 45 4.5 小结 46 [0第0]5章 源与通道选择器 48 5.1 使用tail的问题 48 5.2 exec源 50 5.3 [jia]脱[1机1]目录源 53 5.4 syslog源 55 5.4.1 syslog UDP源 56 5.4.2 syslog TCP源 58 5.4.3 多端口syslog TCP源 59 5.5 通道选择器 61 5.5.1 复制 62 5.5.2 多路复用 62 5.6 小结 63 [0第0]6章 拦截器、ETL与路由 65 6.1 拦截器 65 6.1.1 Timestamp 66 6.1.2 Host 67 6.1.3 Static 68 6.1.4 正则表达式过滤 69 6.1.5 正则表达式抽取 70 6.1.6 自定义拦截器 74 6.2 数据流分层 75 6.2.1 Avro源/接收器 76 6.2.2 命令行Avro 78 6.2.3 Log4J追加器 79 6.2.4 负载均衡Log4J追加器 81 6.3 路由 82 6.4 小结 83 [0第0]7章 监控Flume 85 7.1 监控代理进程 86 7.1.1 Monit 86 7.1.2 Nagios 86 7.2 监控性能度量情况 87 7.2.1 Ganglia 87 7.2.2 内部HTTP服务器 89 7.2.3 自定义监控钩子 91 7.3 小结 92 [0第0]8章 万[0法0]皆空——实时分布式数据收集的现状 93 8.1 传输时间与日志事[亻牛] 94 8.2 万恶的时区 94 8.3 容量规划 95 8.4 多数据中心的注意事项 96 8.5 合规性与数据失效 97 8.6 小结 98 下篇 MapReduce模式 [0第0]9章 使用Java编写一个单词统计应用(初级) 102 9.1 准备工作 102 9.2 [*]作步骤 103 9.3 示例说明 103 [0第0]10章 使用MapReduce编写一个单词统计应用并运行(初级) 105 10.1 准备工作 105 10.2 [*]作步骤 106 10.3 示例说明 106 10.4 补充说明 109 [0第0]11章 在分布式环境中安装Hadoop并运行单词统计应用(初级) 110 11.1 准备工作 111 11.2 [*]作步骤 112 11.3 示例说明 116 [0第0]12章 编写格式化器(中级) 117 12.1 准备工作 118 12.2 [*]作步骤 118 12.3 示例说明 119 12.4 补充说明 121 [0第0]13章 分析——使用MapReduce绘制频度分布(中级) 122 13.1 准备工作 123 13.2 [*]作步骤 123 13.3 示例说明 125 13.4 补充说明 128 [0第0]14章 关系[*]作——使用MapReduce连接两个数据集(高级) 129 14.1 准备工作 130 14.2 [*]作步骤 130 14.3 示例说明 131 14.4 补充说明 134 [0第0]15章 使用MapReduce实现集合[*]作(中级) 135 15.1 准备工作 135 15.2 [*]作步骤 136 15.3 示例说明 137 15.4 补充说明 140 [0第0]16章 使用MapReduce实现交叉相关(中级) 141 16.1 准备工作 141 16.2 [*]作步骤 142 16.3 示例说明 142 16.4 补充说明 145 [0第0]17章 使用MapReduce实现简单搜索(中级) 146 17.1 准备工作 147 17.2 [*]作步骤 147 17.3 示例说明 148 17.4 补充说明 150 [0第0]18章 使用MapReduce实现简单的图[*]作(高级) 151 18.1 准备工作 152 18.2 [*]作步骤 152 18.3 示例说明 153 18.4 补充说明 157 [0第0]19章 使用MapReduce实现Kmeans(高级) 158 19.1 准备工作 159 19.2 [*]作步骤 159 19.3 示例说明 160 19.4 补充说明 164 |