本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
本书介绍如何利用Spark平台上的实际文档和示例来构建大型企业级机器学习应用。
在过去10年中,机器学习领域取得了一系列突破性进展。这些突破性进展正在对我们的生活和各行各业产生深远影响。
本书首先对Spark和Spark MLlib做了介绍,除标准Spark MLlib库之外,还介绍了更强大的第三方机器学习算法和库。在本书的最后解释了通过对多个实际用例,以帮助读者了解机器学习知识在实际生活中的应用。
本书内容:
机器学习、Spark和Spark MLlib 2.4.x的相关内容。
使用XGBoost4J-Spark和LightGBM库实现Spark上的快速梯度提升。
利用Spark的孤立森林算法实现异常检测。
使用支持多种语言的Spark NLP和Stanford CoreNLP库。
使用Alluxio内存数据加速器优化Spark上的机器学习工作负载。
使用GraphX和GraphFrames进行图分析。
使用卷积神经网络进行图像识别。
通过Spark使用Keras框架和分布式深度学习库。
本书先简单介绍了Spark和Spark MLlib,然后介绍标准Spark MLlib库之外的更强大的第三方机器学习算法和库。通过阅读本书,你将能够通过几十个实际的例子和深刻的解释,将所学到的知识应用到真实世界的用例。
Butch Quinto是Intelvi AI这家人工智能公司的创始人兼首席人工智能官,该公司为国防、工业和交通行业开发尖端解决方案。作为首席人工智能官,Butch负责战略、创新、研究和开发。此前,他曾在一家领先的技术公司担任人工智能主管,在一家人工智能初创公司担任首席数据官。在任职德勤(Deloitte)的分析总监期间,他曾领导多个企业级人工智能和物联网解决方案的开发,以及战略、业务发展和风险投资尽职调查方面的工作。Butch在银行与金融、电信、政府部门、公共事业、交通运输、电子商务、零售业、制造业和生物信息学等多个行业拥有20多年的技术和领导经验。他是Next-Generation Big Data(Apress,2018)的作者,也是人工智能促进协会(AAAI)和美国科学促进会(AAAS)的成员。
关于技术审校人员
Irfan Elahi在数据科学和机器学习领域拥有多年经验。他曾在咨询公司、自己的创业公司和学术研究实验室等多个垂直领域工作过。多年来,他在电信、零售业、网络、公共部门和能源等不同领域参与过很多数据科学和机器学习项目,旨在使企业从其数据资产中获得巨大价值。
本书对Spark框架和Spark机器学习库Spark MLlib做了比较直观的介绍。但是,这不是一本介绍Spark MLlib标准算法的书。本书关注的重点是强大的第三方机器学习算法和标准Spark MLlib库之外的库。本书所涉及的一些高级主题包括XGBoost4J-Spark、Spark上的LightGBM、孤立森林、Spark NLP、Stanford CoreNLP、Alluxio、Keras分布式深度学习、使用Elephas的Spark以及分布式Keras等。
本书假定读者以前没有Spark和Spark MLlib相关经验,但如果想实践本书中的示例,有些机器学习、Scala和Python的相关知识会有所帮助。强烈建议通读这些示例并尝试使用代码清单进行练习,将本书充分利用起来。第1章简单介绍机器学习。第2章介绍Spark和Spark MLlib。如果你想学习更加高级的内容,可以直接阅读你感兴趣的章节。本书适合机器学习相关从业者阅读。我尽可能让本书简单实用,专注于实际操作,而不是专注于理论(尽管本书中也有很多这样的内容)。如果需要更加全面的机器学习介绍,建议阅读一下其他的相关资料,例如Gareth James、Daniela Witten、Trevor Hastie和Robert Tibshirani所著的An Introduction to Statistical Learning(Springer, 2017)以及Trevor Hastie、Robert Tibshirani和Jerome Friedman所著的The Elements of Statistical Learning(Springer, 2016)。有关Spark MLlib的更多信息,请参阅Apache Spark的Machine Learning Library。对于深度学习更加深入的讨论,推荐Ian Goodfellow、Yoshua Bengio和 Aaron Courville所著的Deep Learning (MIT Press, 2016)。