本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
学习**分析技术,并利用现有工具包使分析应
用*加强大、**和高效!克里·柯伊兹著的
《Hadoop**数据分析(使用Hadoop生态系统设计和
构建大数据系统)》将架构、设计及实现信息恰当地
融为一体,将指导你创建**基础方法(SF分类、聚
类、**)的分析系统。
在本书中,*佳实践强调“确保连贯、高效的开
发”。将使用包含工具箱、库、可视化组件和报表代
码在内的标准第三方组件,借助集成“组合件”开发
一个可运行的、可扩展的、端到端的完整示例系统。
本书强调以下四点:
具有分析组件及合理可视化结果的完整、灵活、
可配置、高性能数据管道系统的重要性。深入探讨的
主题包括Spark、H2O、Vopal Wabbit(NLP)、
Stanford NLP、Apache Mahout,以及其他适用的工
具包、库和插件。
*佳实践和结构化设计原则。包括重要主题及示
例部分。
用混合搭配或混合系统实现应用目标的重要性。
你在学习深度示例时可体会到混合方法的重要性。
使用现有第三方库是有效开发的关键。在开发示
例系统时,深度示例将展示一些第三方工具包的功能
。
Kerry Koitzsch在计算机科学、图像处理和软件工程等领域拥有超过二十年的工作经验,致力于研究Apache Hadoop和Apache Spark技术。Kerry擅长软件咨询,精通一些定制的大数据应用,包括分布式搜索、图像分析、立体视觉和智能图像检索系统。Kerry目前就职于Kildane软件技术股份有限公司,该公司是加州桑尼维尔市的一个机器人系统和图像分析软件提供商。
第4章 关系、NoSQL及图数据库
4.1 图查询语言:Cypher及Gremlin
4.2 Cypher示例
4.3 Gremlin示例
4.4 图数据库:Apache Neo4J
4.5 关系数据库及Hadoop生态系统
4.6 Hadoop以及UA组件
4.7 本章小结
4.8 参考文献
第5章 数据管道及其构建方法
5.1 基本数据管道
5.2 Apache Beam简介
5.3 Apache Falcon简介
5.4 数据源与数据接收:使用Apache Tika构建数据管道
5.5 计算与转换
5.6 结果可视化及报告
5.7 本章小结
5.8 参考文献
第6章 Hadoop、Lucene、Solr与**搜索技术
6.1 Lucene/Solr生态系统简介
6.2 Lucene查询语法
6.3 使用Solr的编程示例
6.4 使用ELK栈(Elasticsearch、Logstash、Kibana)
6.5 Solr与Elasticsearch:特点与逻辑
6.6 应用于Elasticsearch和Solr的Spring Data组件
6.7 使用LingPipe和GATE实现定制搜索
6.8 本章小结
6.9 参考文献
第Ⅱ部分 架构及算法
第Ⅲ部分 组件与系统
第Ⅳ部分 案例研究与应用
附录