大数据发展至今,早已不是一个新兴词语,大数据的应用已经无处不在。在大数据时代,我们面临的不仅是海量的数据,更重要的是海量数据所带来的数据的采集、存储、处理等方方面面的问题。为了更快速、更全面地展示大数据的实践应用,本书以一个数据仓库项目为切入点,带领读者一步步揭开大数据的面纱。
数据仓库项目是学习大数据的重要基石。本书以数据仓库的搭建为主线,从搭建之初的框架选型、数据服务的整体策划到数据的流向,数据的采集、存储和计算,循序渐进,一步步地展开,进行细致剖析。在对数据传输过程的讲解中,穿插了数据仓库的相关理论知识及大数据关键框架组件的讲解,务求让读者对大数据有更深刻的理解,更加全面地了解大数据生态体系。
本书共9章,包括大数据与数据仓库概论、项目需求描述、项目部署的环境准备、用户行为数据采集模块、业务数据采集模块、数据仓库搭建模块、数据可视化模块、即席查询模块、元数据管理模块。
本项目采用主流的数据仓库建模方式(确定业务过程、声明粒度、确定维度、确实事实),覆盖当前主流框架——采集,Flume/Kafka/Sqoop;存储,MySQL/Hadoop/HBase;计算,Hive/Tez;查询,Presto/Druid/Kylin;可视化,Superset;任务调度,Azkaban;元数据管理,Atlas;脚本,Shell。
整套项目包含业务指标近100个、Shell脚本40多个、用户行为原始表11张,业务原始表24张、数据仓库总表近100张……
阅读本书要求读者具有一定的编程基础,至少掌握一门编程语言(如Java)及SQL查询语言。读者若不具备此项条件,则可以关注“尚硅谷教育”公众号(微信号:atguigu),在聊天窗口发送关键字“大数据”,即可获取尚硅谷大数据学科全套视频教程及学习路线图;发送关键字“数仓项目”,则可获取本书相关学习资料,包括2760分钟配套视频及全部的源码、脚本、课件、软件包等。
感谢电子工业出版社的李冰编辑在本书编写过程中给予的指导与支持。
尚硅谷IT教育
关于我们
尚硅谷IT教育是一家专业的IT教育培训机构,开设了JavaEE、大数据、HTML5前端等多门学科,在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。
尚硅谷IT教育一直坚持“技术为王”的发展理念,我们专注技术,不断钻研课程,团队中技术型人才占比60%以上,设有独立的研究院,与多家互联网大型企业的研发团队保持技术交流,保障教学内容始终基于研发一线。
截至目前,尚硅谷IT教育已累计发布视频教程11 788集,全长2742小时,通过分享优质的教学资源,直接或间接帮助了更多需要帮助的人。让天下没有难学的技术,坚持开源精神,不断打磨优质的教学产品,推出更多进阶的视频教程,同时,为满足更多的学习场景需求,我们会陆续出版系列技术图书,为广大IT从业者提供更多优质的学习资源。
希望通过我们的努力,帮助更多怀揣梦想的年轻人,为中国的软件人才培养尽一点绵薄之力。
关注“尚硅谷教育”公众号,获取更多视频教程,包括大数据、JavaEE、HTML5前端、区块链、Go语言、Linux、Python、C语言、Android等,并附赠学习路线图,全部免费获取!