《ALLUXIO:大数据统一存储原理与实践》[28M]百度网盘|亲测有效|pdf下载

书籍详情

ALLUXIO:大数据统一存储原理与实践
作者:范斌
热度:7105
上架时间:2024-06-30 09:07:09
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

编辑推荐

适读人群：大数据平台系统技术人员，以及对大数据技术（特别是分布式存储技术）感兴趣的技术人员和管理人员，本书也适合用于计算机学科高年级本科生和研究生的大数据技术相关课程参考书

√ Alluxio创始人及实践先驱联合力荐

√ 深度解密Alluxio核心概念与技术应用

√ 基于国内一线互联网企业真实案例技术剖析

√ 项目PMC&Maintainer凝聚钻研实力与超前视野

内容简介

Alluxio 这一以内存为中心的分布式虚拟文件系统，最初诞生于加州大学伯克利分校的 AMPLab，其开源社区在目前大数据生态系统中发展很快。《Alluxio：大数据统一存储原理与实践》以广泛使用的Alluxio 1.8.1 版本为基础进行编写，是一本全面介绍 Alluxio 相关技术原理与实践案例的书籍。本书主要内容包括 Alluxio 系统快速入门、 Alluxio 系统架构及读写工作机制、Alluxio 与底层存储系统的集成、Alluxio 与上层计算框架的集成、 Alluxio 基本功能和高级功能的介绍与使用。此外，本书还详细介绍了Alluxio 的应用案例与生产实践，并详细解读了 Alluxio 的核心框架和技术应用，旨在为大数据从业人员和大数据存储技术爱好者提供一个深入学习的平台，也可用作开源社区开发者指南。

作者简介

范斌

Alluxio开源项目管理委员会成员和源码维护者，Alluxio公司创始成员，现任开源副总裁；加入Alluxio项目之前就职于谷歌山景城，从事下一代大规模分布式存储系统的研究与开发，并荣获谷歌基础设施技术奖（Technical Infrastructure Award）；2013年获得卡内基梅隆大学（Carnegie Mellon University）计算机系博士学位，攻读博士期间从事分布式系统算法和实现，是CuckooFilter、MemC3及高性能多线程KV库libcuckoo的一作者或联合作者，在SIGCOMM、SOSP、NSDI、CoNEXT等学术会议及IEEE Transactions on Networking等学术期刊上发表了论文；拥有多项专利，部分学术研究成果已在Alluxio、谷歌、Facebook、英特尔、微软等高科技公司落地使用。

顾荣

南京大学计算机科学与技术系助理研究员，Alluxio项目管理委员会成员和源码维护者；于2016年获得南京大学计算机专业博士学位，主要研究领域为大数据处理技术与系统；在国际期刊、会议发表论文30余篇，包括IEEE TPDS、IEEE ICDE、IEEE IPDPS、JPDC、Parallel Computing、ICPP等；拥有多项发明专利；部分研究成果已在英特尔、百度、华泰证券、苏宁易购、华为、字节跳动等公司落地使用，或被主流开源大数据系统Apache Spark和Alluxio官方版本集成发布；担任多种学术期刊审稿人，以及江苏省计算机学会大数据专委会秘书长、中国计算机学会系统软件专委会委员。

精彩书评

精彩书摘

Alluxio能够面向集群计算框架（如Apache Spark和Hadoop MapReduce）提供一个抽象现有不同存储特点的存储层，从而支撑大数据存储系统的快速演进。这一点与IP层支撑了互联网的快速演进很类似。

Ion Stoica 加州大学伯克利分校教授，Apache Spark联合创始人

DataBricks公司联合创始人兼首席执行官，加州大学伯克利分校AMPLab共同负责人

大数据分析正在驱动分布式内存去满足实时流处理、交互式查询分析及图计算的新需求。我们很高兴能够与Alluxio社区的开发者一起工作，特别是优化Alluxio基于Intel平台的解决方案，这将帮助我们为客户创造出更具创新性且高性能的云和大数据解决方案。

Michael Greene 英特尔公司副总裁

作为世界上较大的互联网公司之一，百度不断面临着管理PB级规模数据带来的挑战。通过采用Alluxio等创新技术，我们能够帮助用户快速抽取出有意义、有价值的数据。我们部署的一个Alluxio集群超过了1000台workers，这也是世界上较大的Alluxio集群之一。Alluxio的层次化存储功能为我们提供了很好的管理大规模数据的灵活性。我们观察到，在支持交互式查询系统等业务时，能够取得平均10倍、至高30倍的性能提升，这有效地提升了做出重要商业决策的速度。

James Peng pony.ai创始人兼CEO，百度前首席架构师

随着云计算业务的发展，阿里巴巴集团管理着越来越多的大型数据中心。通过阿里云OSS与Alluxio的整合，以及其他阿里云服务产品的支撑，我们的用户可以利用新潮的硬件技术，以至高的性能运行重要作业。我们一直在为Alluxio开源社区做贡献，并且相信Alluxio会在未来的大数据架构中扮演重要的角色。

章文嵩滴滴出行高级副总裁，阿里云前副总裁

LVS（Linux Virtual Server，Linux虚拟服务器）开源软件创始人

Alluxio是源自于AMPLab的一个具有重大影响力的开源项目。为了能够支撑不断拓展的大数据应用案例，存储层正在快速演进，Alluxio技术在其中扮演着具有重大颠覆性的角色。

Michael Franklin 加州大学伯克利分校AMPLab负责人

精彩书摘

推荐序一

如今的世界步入了一个数据革命的时代。随着互联网、人工智能、移动计算、自动驾驶、物联网等新技术的不断进步，人们生成、采集、管理和分析的数据规模正在呈指数级增长，存储和处理这些大规模数据促使人们不断地实现技术的进步，并为人们带来了难以想象的技术革命的重大机遇。在过去的十年中，我们看到了数据处理的技术栈领域产生了很多重要的技术革新。例如，在数据应用层，从最初的MapReduce 框架，衍生出了很多不同的通用化和专用化的系统，如通用数据处理平台 Apache Spark，流式计算系统 Apache Flink、Apache Samza，机器学习，以及深度学习系统 TensorFlow、Apache Mahout，图计算系统 GraphLab、GraphX，查询系统Presto、Apache Hive、Apache Drill，等等。类似地，整个生态系统的存储层也从 Hadoop分布式文件系统 HDFS 发展并增加了更多的可选项。例如，文件系统、对象存储（Object Store）系统、二进制大对象存储（BLOB Store）系统、键-值对存储（Key-Value Store）系统、NoSQL 数据库等。这些不同类型的系统实现了对性能、速度、成本、易用性、架构等设计上不同的权衡。

随着技术栈复杂程度的不断增加，数据产业的发展也面临更多的机遇和更大的挑战。数据被存储在不同的存储系统中，这使用户和上层数据应用很难高效地发现、访问和使用这些数据。例如，对于系统开发人员而言，需要开展更多的工作以将一个新的计算或存储部件集成到现有的生态系统中；对于应用开发人员而言，高效地访问不同数据存储系统的方式变得更加复杂；对于终端用户而言，从远程的数据存储系统中访问数据，容易导致性能的损失和语义的不一致；对于系统管理员而言，当底层物理存储和上层所有应用都深度耦合时，添加、删除、升级一个现有计算系统或数据系统，抑或将数据从一个存储系统迁移到另一个存储系统，是非常具有挑战性的。

Alluxio 作为全球首创的分布式虚拟文件系统（Virtual Distributed File System），就在上述背景下应运而生。它统一了数据访问的方式，为上层计算框架和底层存储系统构建了桥梁，使应用可以通过 Alluxio 提供的统一数据访问方式访问底层任意存储系统中的数据。在大数据生态系统中，Alluxio 位于上层大数据计算框架和底层分布式存储系统之间，运行在上层的大数据计算框架可以忽略底层分布式存储系统的细节，直接和 Alluxio 进行交互，Alluxio 透明地将上层大数据框架的数据访问请求转发到底层分布式存储系统中，并将底层多个分布式存储系统中的数据自动缓存到Alluxio 中，从而提升某些上层大数据计算框架的数据访问速度的数量级。Alluxio（前身 Tachyon）系统曾是我在加州大学伯克利分校 AMPLab 的博士研究课题，并在 2012年年末完成了该系统的第一个版本，于 2013 年 4 月正式开源，2015 年项目更名为Alluxio。

自 2013 年 4 月 Alluxio 开源以来，已有超过 200 个机构、1000 多位贡献者参与到Alluxio 系统的开发中，其中包括阿里巴巴、百度、卡内基梅隆大学、谷歌、IBM、英特尔、加州大学伯克利分校、腾讯、京东、雅虎等大学、科研院所和企业。到今天为止，上百家公司的生产线中已经部署了 Alluxio，其中有的集群已经超过了 1000 个节点。随

着 Alluxio 开源项目的快速发展和应用需求的日益旺盛，我们于 2015 年创立了 Alluxio公司，并且获得 Andreessen Horowitz、Mark Leslie（Veritas Founding CEO）、Jack Xu（网易、新浪前 CTO）、Sujal Patel（Isilon 创始人）等人的投资。未来，我们将立志于让Alluxio 成为大数据及其他水平扩展应用的事实上的统一数据层。

我很高兴看到，这本系统、深入介绍 Alluxio 项目技术原理和应用实践的书籍即将付梓。本书的两位作者范斌博士和顾荣博士是分布式系统领域的专家，也是Alluxio 项目管理委员会的成员和源码的维护者。其中，范斌博士于 2015 年从谷歌离职之后全身心致力于 Alluxio 开源项目的技术架构、开发与推广，目前在 Alluxio社区代码贡献排名中排第二位。顾荣博士从 2013 年就开始向 Alluxio 社区贡献源代码，此后他在南京大学 PASA 大数据实验室担任助理教授，继续从事大数据系统方面的研究，在 Alluxio 上开展了很多有意义的研究工作，并且一直努力推动 Alluxio社区在国内的发展。范斌和顾荣在 Alluxio 社区方面都是非常著名的技术专家，为Alluxio 开源社区的发展做出了重要贡献。相信他们完成的这本著作能够很好地帮助需要学习 Alluxio 技术的广大读者。最后，我也要特别感谢一直对 Alluxio 开源项目给予关心与支持的朋友们，我们将一如既往地努力投入，在不断完善 Alluxio 软件的同时，让我们开源社区的运转更加高效，期待后续创作出更多高质量的文章和书籍，以飨读者。

——李浩源 Alluxio 开源项目主席、Alluxio 公司创始人、董事长兼 CTO

2019 年 4 月，于美国硅谷

推荐序二

The big data revolution is changing how every industry operates. Organizations and companies are leveraging tremendous amounts of data to create value. For example,Internet companies use data to provide better targeted advertisements and user experiences. Financial institutions process data to detect potential fraud in real time.

Manufacturing powerhouses study data to track, understand, and design locomotive and airplane engines better. Autonomous cars depend on data to function and to ensure the safety of passengers. People use data to make decisions or facilitate the decision-making process in some way.

The big data revolution has brought a lot of challenges and opportunities in distributed computer systems. There are significant innovations in distributed computation frameworks, such as Hadoop and Spark, and distributed storage systems, such as HDFS and Alluxio. The large-scale data processing stack has been reshaped by the big data ecosystem. In the big data ecosystem, organizations usually rely on multiple storage systems and computation frameworks in their data processing pipelines. This brings the significant challenges in data sharing and management, performance and flexibility.

To address these challenges, the Alluxio project proposes an architecture with Virtual Distributed File System (VDFS) as a data unification layer between the computing layer and the storage layer. A data unification layer brings significant value into the ecosystem.

It can improve data accessibility, performance, and data management, but also the convenience to plug future systems into the ecosystem, therefore making it easier and quicker for the industry to adopt innovations.

Alluxio is an open-source project started at UC Berkeley AMPLab in December 2012. In the over six years of development, this project has grown to be an important part in the big data ecosystem. Alluxio has been deployed at hundreds of leading companies in production, serving critical workloads. Its open-source community has attracted more than 900 contributors worldwide from over 200 companies. I am very glad to see this book to be published. The authors of this book——Bin Fan and Rong Gu are both Alluxio experts. They were also Alluxio topic speakers in the past Strata + Hadoop World conferences. I believe their Alluxio book will be very helpful to the Alluxio users and developers!

——Ben Lorica Chief Data Scientist at O’Reilly Media Chair of Strata Data, and the Artificial Intelligence Conference

前言/序言

随着计算机和信息技术的迅猛发展和普及应用，行业数据呈爆炸式增长，全球已经进入了“大数据”时代。大数据给全球带来了重大的发展机遇，大规模数据资源蕴含着巨大的社会价值和商业价值，有效地管理这些数据，挖掘数据的深度价值，对国家治理、社会管理、企业决策和个人生活将带来巨大的影响。然而，大规模数据资源给人们带来新的发展机遇的同时，也带来很多新的技术挑战。格式多样、形态复杂、规模庞大的行业大数据给传统的计算技术带来了很多技术困难。传统的数据库等信息处理技术已经难以有效应对大规模数据的处理需求。大数据广泛且强烈

的应用需求极大地推动了大数据技术的快速发展，促进了大数据处理相关的基础理论方法、关键技术及系统平台的长足发展。

大数据处理的第一个基本问题是，如何有效地存储和管理海量的大数据。大数据存储管理是进行后续大数据计算分析和提供大数据应用服务的重要基础。分布式存储是目前公认并有效的大数据存储管理方法，在大数据系统中处于基础地位，在行业大数据应用中发挥着重要的作用。本书将介绍近些年来在大数据存储领域发展得如火如荼的分布式存储系统 Alluxio。Alluxio 是全球首创的以内存为中心（Memory-Centric）的分布式虚拟文件系统，已在全球数百个公司部署应用，并在超过 1000 个节点的集群上运行。

本书以广泛使用的 Alluxio 1.8.1 版本为基础进行编写，全面介绍了 Alluxio 的相关技术原理与实践案例，以及 Alluxio 的核心原理和架构技术。本书从概念和原理上对 Alluxio 的核心框架和相关技术应用进行了详细解读，并介绍了 Alluxio 技术在互联网公司的使用案例，以及就如何向开源社区贡献源代码进行了简要介绍，具有较好的前沿性和一定的国际视野。

本书目的

Alluxio 项目自 2013 年开源以来得到了长足的发展，贡献者和用户数量不断增多。但是放眼国内，很少有完整、系统地介绍 Alluxio 相关技术使用原理和实践应用案例的书籍。本书的两位作者均为 Alluxio 项目管理委员会成员和源码维护者，在社区的日常工作中经常需要回答很多关于 Alluxio 的技术问题，他们发现用户很多时候苦于没有完整的 Alluxio 中文学习资料。因此，他们决定一起写一本关于Alluxio 的书籍，为大数据从业人员和大数据存储技术爱好者提供一个深入学习的平台，帮助 Alluxio 的用户能够更加全面和透彻地了解 Alluxio 的基本原理，从而更加容易地使用 Alluxio。

内容快览

全书一共分为 8 章，各章的内容简介如下。

第 1 章 Alluxio 系统快速入门：本章介绍了 Alluxio 项目的背景，包括系统功能简介、项目发展历史；还介绍了 Alluxio 软件的获取或编译方式，以及搭建部署流程。

第 2 章 Alluxio ：系统架构及读写工作机制：本章阐述了 Alluxio 的系统架构与功能组件，并介绍了 Alluxio 内部的读数据和写数据的工作运行原理，使读者对 Alluxio的总体架构和运行流程有一定的认识。

第 3 章 Alluxio ：与底层存储系统的集成：本章介绍了 Alluxio 与当前主流的分布式存储系统进行集成的方法，这些底层存储系统具体包括 HDFS、Secure HDFS、AWS S3、Google GCS、Azure BLOB Store。

第 4 章 Alluxio ：与上层计算框架的集成：本章首先介绍了 Alluxio 提供给管理员和用户的命令行及其含义，然后阐述了 Alluxio 与主流的上层大数据计算框架进行对接集成的方法。上层计算框架包括 Hadoop MapReduce、Spark、Hive、Presto、TensorFlow。

第 5 章 Alluxio ：基本功能的介绍与使用：本章介绍了 Alluxio 提供给用户的基本配置与管理功能，包括 Alluxio 系统环境与属性的配置、Alluxio 底层文件系统的配置与管理、Alluxio 缓存资源的配置与管理，还介绍了 Alluxio 系统 Web 用户界面的查看与使用方法。

第 6 章 Alluxio ：高级功能的介绍与使用：本章介绍了 Alluxio 提供给用户的高级功能，具体包括 Alluxio 的安全认证与权限控制、Alluxio 的内置 Metrics 系统、Alluxio文件系统日志的使用与维护、Alluxio 系统的异常排查。

第 7 章 Alluxio 的应用案例与生产实践：本章阐述了 Alluxio 在陌陌、京东、携程、去哪儿网、百度等大型互联网公司的应用与生产实践案例。

第 8 章 Alluxio 的开源社区开发者指南：本章介绍了源代码的规范、单元测试流程及向 Alluxio 开源社区贡献源代码的具体流程。

写作分工

本书第 1 章、第 5 章、第 6 章、第 8 章由范斌完成，第 2 章、第 3 章、第 4 章由顾荣完成，第 7 章由富羽鹏、陈浩骏、毛宝龙、郭建华、徐磊、刘少山完成。

致谢

能够完成本书需要感谢很多人。首先，我们要衷心地感谢 Alluxio 开源社区的广大贡献者和用户，没有你们的支持就没有 Alluxio 项目的今天，也就没有本书的出版问世。感谢本书第 7 章的来自众多互联网公司的工程师作者，感谢你们在繁忙的工作之余撰写 Alluxio 在贵公司团队的实践应用案例。感谢为本书撰写序言的李浩源博士和 Ben Lorica，他们在百忙之中阅读了书籍的样稿并提出了很多中肯的建议。感谢南京大学 PASA 大数据实验室黄宜华教授、袁春风教授，以及实验室众多同学对于本书的主编顾荣在 Alluxio 开源项目工作上的认可与大力支持。感谢本书编辑及其他工作人员，你们认真严谨的工作为本书的出版奠定了坚实的基础。最后，感谢我们的家人，整本书籍编写周期较长，感谢你们在背后的默默支持，并且对于我们很多节假日未能陪同给予极大的理解与宽容。

由于作者水平有限，书中的疏漏和不妥之处在所难免，敬请读者批评指正，并将反馈意见发送到邮箱 gurong@nju.edu.cn 或 binfan@alluxio.com，以便我们再版时及时修正错误。

相关推荐

MySQL经典实例

MySQL基础教程

MySQL性能优化金字塔法则

ALLUXIO:大数据统一存储原理与实践

编辑推荐

内容简介

作者简介

精彩书评

目录

精彩书摘

前言/序言