本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
AI技术的出现和普及使得机器智能往前跨了一大步,这同时也对数据中心的算力能力提出了更高的要求。随着摩尔定律脚步的放缓,依赖传统的通用CPU已经无法满足复杂的深度学习网络的算力要求,GPGPU和专用AI芯片在数据中心的比重也因此变得越来越高,有效缓解了“算力赤字”的问题,而本书中谷歌TPU的系统设计从芯片到整机再到集群的完美契合正是当代数据中心一体化实践的案例。
本书介绍了仓储级计算机(WSC)的设计。这种计算平台是云计算的核心,支撑着我们每天都在使用的各种强大的互联网服务。书中讨论了此类新型系统如何将数据中心本身当作一台超大规模的仓储级计算机来使用,同时又能使软硬件充分协同并提供高性能的互联网服务。每一章都涵盖多个真实世界的案例,其中包括详尽的谷歌在线服务的基础设施信息
全书共分8章。第1章为绪论,概述仓储级计算机及其架构;第2章首先总体介绍WSC中运行的应用,以及包括平台层软件、集群层基础软件、监控和管理软件在内的系统基础设施技术栈;第3章涵盖关键的硬件组件,重点讨论服务器和加速器组件、存储架构和数据中心网络设计,以及计算、存储和网络之间的相互作用;第4章着眼于更底层的系统设计,重点关注数据中心电力、冷却基础设施和建筑的设计;第5章讨论能耗和能效相关的话题,包括稳定测定能效的挑战、衡量数据中心能效的电力使用效率以及电力超额配置的设计和好处;第6章讲解如何对WSC的TCO进行建模,其中包括资本支出和运营支出,并通过案例比较传统计算机和WSC计算机;第7章讨论正常运行时间和可用性,包括如何对故障进行分类以及故障处理、维修优化的方法;第8章总结历史趋势并展望未来——WSC和云计算将成为主流和中心。
本书主要面向当今WSC系统的架构师和程序开发人员,希望能为有志于在此重要领域发展的人员打下一个坚实的基础,同时相关的内容也适用于那些仅想了解互联网基础设施信息的人群。
作者简介
路易斯·安德烈·巴罗索(Luiz André Barroso) 谷歌研究员、ACM会士,也是AAAS会士。目前领导着谷歌地图的工程基础设施工作,曾是谷歌平台工程团队的*一任经理,负责设计公司的计算平台。在网页搜索、基础软件、存储可用性、能效和硬件设计多个工程领域都有涉猎。
乌尔斯·霍尔兹勒(Urs Hölzle) 谷歌首位工程副总裁,自1999年以来一直领导着谷歌技术基础设施的开发。他目前的职责包括服务器、网络、数据中心以及基础软件的设计与运维,以支持谷歌内部和对外的云平台。他是ACM和AAAS会士、瑞士技术科学院和国家工程院的成员,并在美国的世界自然基金会的董事会任职。
帕塔萨拉蒂·兰加纳坦(Parthasarathy Ranganathan) 谷歌计算和数据中心硬件领域的技术带头人。此前,他曾是惠普实验室的研究员和首席技术专家,领导着系统和数据中心的研究。他发表了大量的论文,作为共同发明人的专利超过100项。他还是ACM SIGARCH Maurice Wilkes奖的获得者以及莱斯大学杰出青年工程校友奖得主。Partha目前是谷歌的杰出工程师、IEEE和ACM会士。
译者简介
徐凌杰,阿里云资深技术专家,负责包括GPU和AI芯片在内的数据中心异构计算基础设施,专注于架构与应用的软硬件协同。在加入阿里巴巴之前,他曾在NVIDIA、AMD和三星担任过多个大型GPU芯片项目的高级管理和架构师职位。他本科就读于上海交通大学信息工程专业,后赴美在德州大学奥斯汀分校获计算机体系结构硕士学位,并拥有加州大学伯克利分校的MBA学位。
5G时代的到来,意味着万物互连后带来的数据大爆炸和数据来源的更加多样,而传统的超算中心和新兴的互联网企业都有日益旺盛的算力需求,在人工智能、大数据、云计算、区块链、边缘计算等新一代信息技术迅猛发展的大趋势下,他们也在向彼此靠拢、相互融合、创新发展。数据中心一体化设计正是应对多样化工作负载融合创新的重要创新成果,值得每一位致力于此领域的研究人员和从业者认真思考和学习。
——张云泉,中国科学院计算技术研究所研究员、中国计算机学会高性能计算专委会秘书长、ACM 中国高性能计算专家委员会主席
今天,以谷歌、亚*逊、阿里等为代表的公司和机构,把成千上万的“电脑”以奇妙的方式组合起来,通过集中的方式、基于海量的数据,给世界上各种组织与个人提供“无穷”的计算与存储资源,从而为人类提供各式各样的信息服务。这本书以谷歌的实践和理解出发,结合世界上*先进的计算机系统与体系结构领域的进展,给读者展示了这样一个“巨型电脑”的软硬件组成、核心要素、评价指标、成本分析以及未来发展趋势。如果你也想“造”一个这样的“巨型电脑”,那这本书一定应该在你的必读书目里!
——汪玉,清华大学教授
超大规模云数据中心是当前支撑互联网和人工智能发展的*重要的基础设施,徐凌杰是这个领域的专家,他专业精到的译文让我们可以快速领略这个领域*前沿的进展。
——刘军,浪潮集团人工智能与高性能计算总经理
AI终究会超*人的大脑,因为其结构与功能可迅速迭代优化,从而提升规模效率。徐凌杰是一位杰出的架构师,他的这本译作将谷歌数据中心作为仓储计算机的秘诀拆解到了末梢。开源精神、严谨的算法框架与技术解决方案,值得AI业者参考。
——杨静,新智元创始人