Python大数据分析与机器学习商业案例实战pdf下载pdf下载

Python大数据分析与机器学习商业案例实战百度网盘pdf下载

作者:
简介:本篇主要提供Python大数据分析与机器学习商业案例实战pdf下载
出版社:
出版时间:2020-06-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

零基础学机器学习与量化策略、详解多个行业中的大数据分析技术,全面揭秘机器学习在商业中的应用实战,详细金融数据风控、股票量化交易、商品智能推荐、用户情感分析等大数据分析技术


内容简介

大数据分析与机器学习技术已成为各行各业实现数字化变革的关键驱动力。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了大数据分析与机器学习技术的商业应用实战。

全书共16章,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型的原理和代码实现,每种模型都配有一到两个典型案例,涵盖金融、营销、医疗、社会科学、企业办公与管理等多个领域。

本书适合具备一定数学知识和编程基础、希望快速在工作中应用大数据分析与机器学习技术的读者阅读,也适合Python编程爱好者或对大数据分析与机器学习技术感兴趣的读者参考。


目录

前言

如何获取学习资源

第1章 Python与数据科学

1.1 大数据分析与机器学习概述

1.1.1 大数据分析与机器学习的应用领域

1.1.2 机器学习的基本概念

1.1.3 Python在数据科学中的作用

1.2 Python编程环境部署与基本操作

1.2.1 Python的安装

1.2.2 Pycharm的安装与设置

1.2.3 Jupyter Notebook的使用

1.3 Python基础知识概要

第2章 数据分析利器:NumPy、pandas与Matplotlib库

2.1 NumPy库基础

2.1.1 NumPy库与数组

2.1.2 数组与列表的区别

2.1.3 创建数组的几种方式

2.2 pandas库基础.

2.2.1 二维数据表格DataFrame的创建

2.2.2 Excel工作簿等文件的读取和写入

2.2.3 数据的选取与处理

2.2.4 数据表拼接

2.3 Matplotlib库基础

2.3.1 基本图表绘制

2.3.2 数据可视化常用技巧

2.4 案例实战:股票数据读取与K 线图绘制

2.4.1 初步尝试:股票数据读取与可视化

2.4.2 进阶实战:股票K 线图绘制

第3 章 线性回归模型

3.1 一元线性回归

3.1.1 一元线性回归的数学原理

3.1.2 一元线性回归的代码实现

3.1.3 案例实战:不同行业工龄与薪水的线性回归模型

3.2 线性回归模型评估

3.2.1 模型评估的编程实现

3.2.2 模型评估的数学原理

3.3 多元线性回归

3.3.1 多元线性回归的数学原理和代码实现

3.3.2 案例实战:客户价值预测模型

第4 章 逻辑回归模型

4.1 逻辑回归模型的算法原理

4.1.1 逻辑回归模型的数学原理

4.1.2 逻辑回归模型的代码实现

4.1.3 逻辑回归模型的深入理解

4.2 案例实战:客户流失预警模型

4.2.1 案例背景

4.2.2 数据读取与变量划分

4.2.3 模型的搭建与使用

4.3 模型评估方法:ROC 曲线与KS 曲线

4.3.1 ROC 曲线的基本原理

4.3.2 案例实战:用ROC 曲线评估客户流失预警模型

4.3.3 KS 曲线的基本原理

4.3.4 案例实战:用KS 曲线评估客户流失预警模型

第5 章 决策树模型

5.1 决策树模型的基本原理

5.1.1 决策树模型简介

5.1.2 决策树模型的建树依据

5.1.3 决策树模型的代码实现

5.2 案例实战:员工离职预测模型

5.2.1 模型搭建

5.2.2 模型预测及评估

5.2.3 决策树模型可视化呈现及决策树要点理解

5.3 参数调优:K 折交叉验证与GridSearch 网格搜索

5.3.1 K 折交叉验证

5.3.2 GridSearch 网格搜索

第6 章 朴素贝叶斯模型

6.1 朴素贝叶斯模型的算法原理

6.1.1 一维特征变量下的贝叶斯模型

6.1.2 二维特征变量下的贝叶斯模型

6.1.3 n 维特征变量下的贝叶斯模型

6.1.4 朴素贝叶斯模型的简单代码实现

6.2 案例实战:肿瘤预测模型

6.2.1 案例背景

6.2.2 数据读取与划分

6.2.3 模型的搭建与使用

第7 章 K 近邻算法

7.1 K 近邻算法的原理和代码实现

7.1.1 K 近邻算法的基本原理

7.1.2 K 近邻算法的计算步骤

7.1.3 K 近邻算法的代码实现

7.2 案例实战:手写数字识别模型

7.2.1 案例背景

7.2.2 手写数字识别的原理

7.2.3 手写数字识别的代码实现

7.3 图像识别原理详解

第8 章 随机森林模型

8.1 随机森林模型的原理和代码实现

8.1.1 集成模型简介

8.1.2 随机森林模型的基本原理

8.1.3 随机森林模型的代码实现

8.2 案例实战:股票涨跌预测模型

8.2.1 股票基本数据获取

8.2.2 股票衍生变量生成

8.2.3 多因子模型搭建

8.2.4 模型使用与评估

8.2.5 参数调优

8.2.6 收益回测曲线绘制

第9 章 AdaBoost 与GBDT 模型

9.1 AdaBoost 算法原理

9.1.1 AdaBoost 算法的核心思想

9.1.2 AdaBoost 算法的数学原理概述

9.1.3 AdaBoost 算法的数学原理举例

9.1.4 AdaBoost 算法的简单代码实现

9.2 AdaBoost 算法案例实战:信用卡精准营销模型

9.2.1 案例背景

9.2.2 模型搭建

9.2.3 模型预测及评估

9.2.4 模型参数介绍

9.3 GBDT 算法原理

9.3.1 GBDT 算法的核心思想

9.3.2 GBDT 算法的数学原理概述

9.3.3 GBDT 算法的数学原理举例

9.3.4 GBDT 算法的简单代码实现

9.4 GBDT 算法案例实战:产品定价模型

9.4.1 案例背景

9.4.2 模型搭建

9.4.3 模型预测及评估

9.4.4 模型参数介绍

第10 章 机器学习神器:XGBoost 与LightGBM 算法

10.1 XGBoost 算法原理

10.1.1 XGBoost 算法的核心思想

10.1.2 XGBoost 算法的数学原理概述

10.1.3 XGBoost 算法的简单代码实现

10.2 XGBoost 算法案例实战1:金融反欺诈模型

10.2.1 案例背景

10.2.2 模型搭建

10.2.3 模型预测及评估

10.2.4 模型参数调优

10.3 XGBoost 算法案例实战2:信用评分卡模型

10.3.1 案例背景

10.3.2 多元线性回归模型

10.3.3 GBDT 回归模型

10.3.4 XGBoost 回归模型

10.4 LightGBM 算法原理

10.4.1 LightGBM 算法的核心思想

10.4.2 LightGBM 算法的数学原理概述

10.4.3 LightGBM 算法的简单代码实现

10.5 LightGBM 算法案例实战1:客户违约预测模型

10.5.1 案例背景

10.5.2 模型搭建

10.5.3 模型预测及评估

10.5.4 模型参数调优

10.6  LightGBM 算法案例实战2:广告收益回归预测模型

10.6.1 案例背景

10.6.2 模型搭建

10.6.3 模型预测及评估

10.6.4 模型参数调优

第11 章 特征工程之数据预处理

11.1 非数值类型数据处理

11.1.1 Get_dummies 哑变量处理

11.1.2 Label Encoding 编号处理

11.2 重复值、缺失值及异常值处理

11.2.1 重复值处理

11.2.2 缺失值处理

11.2.3 异常值处理

11.3 数据标准化

11.3.1 min-max 标准化

11.3.2 Z-score 标准化

11.4 数据分箱

11.5 特征筛选:WOE 值与IV 值

11.5.1 WOE 值的定义与计算

11.5.2 IV 值的定义与计算

11.5.3 WOE 值与IV 值的代码实现

11.5.4 案例实战:客户流失预警模型的IV 值计算

11.6 多重共线性的分析与处理

11.6.1 多重共线性的定义

11.6.2 多重共线性的分析与检验

11.7 过采样和欠采样

11.7.1 过采样

11.7.2 欠采样

第12 章 数据降维之PCA

12.1 数据降维

12.1.1 PCA 的基本原理

12.1.2 PCA 的代码实现

12.2 案例实战:人脸识别模型

12.2.1 案例背景

12.2.2 人脸数据读取、处理与变量提取

12.2.3 数据划分与降维

12.2.4 模型的搭建与使用

12.3 人脸识别外部接口调用

12.3.1 baidu-aip 库安装

12.3.2 调用接口进行人脸识别和打分

第13 章 数据聚类与分群分析

13.1 KMeans 算法

13.1.1 KMeans 算法的基本原理

13.1.2 KMeans 算法的代码实现

13.1.3 案例实战:银行客户分群模型

13.2 DBSCAN 算法

13.2.1 DBSCAN 算法的基本原理

13.2.2 DBSCAN 算法的代码实现

13.2.3 KMeans 算法与DBSCAN 算法的对比

13.3 案例实战:新闻聚类分群模型

13.3.1 案例背景

13.3.2 文本数据的读取与处理

13.3.3 模型的搭建与使用

13.3.4 模型优化

第14 章 智能推荐系统

14.1 智能推荐系统的基本原理

14.1.1 智能推荐系统的应用场景

14.1.2 智能推荐系统的基础:协同过滤算法

14.2 计算相似度的常用方法

14.2.1 欧氏距离

14.2.2 余弦相似度

14.2.3 皮尔逊相关系数

14.3 案例实战:电影智能推荐系统

14.3.1 案例背景

14.3.2 数据读取与处理

14.3.3 系统搭建

第15 章 关联分析:Apriori 算法

15.1 关联分析的基本概念和Apriori 算法

15.1.1 关联分析的基本概念

15.1.2 Apriori 算法的数学演示

15.1.3 Apriori 算法的代码实现

15.2 案例实战:病症关联规则分析

15.2.1 案例背景

15.2.2 数据读取与处理

15.2.3 关联规则分析

第16 章 深度学习初窥之神经网络模型

16.1 深度学习基础:神经网络模型

16.1.1 神经网络模型的基本原理

16.1.2 神经网络模型的简单代码实现

16.2 案例实战:用户评论情感分析模型

16.2.1 案例背景

16.2.2 数据读取、中文分词、文本向量化

16.2.3 神经网络模型的搭建与使用


前言/序言

在这个信息爆炸的时代,如何高效处理数据并利用数据推动决策显得尤为重要,这便是人们通常所说的“大数据分析”。与大数据分析相伴而生的机器学习(Machine Learning),有些人可能会感到陌生,然而说到战胜了众多人类围棋高手的智能机器人AlphaGo,想必大多数人都有所耳闻。AlphaGo背后的原理支撑就是机器学习,它通过模拟人类的学习行为,不停地分析海量的围棋数据,发现数据背后的规律,从而在已有条件下做出最为理性的决断,这个过程充满了机器美学。

大数据分析和机器学习面对的数据浩如烟海,原始的纸笔演算根本无力应对,幸运的是,飞速发展的信息技术为我们建造了一个“武器库”—从Excel、MATLAB等专业的应用软件,到Java、R、Python等程序设计语言,大大降低了大数据分析和机器学习的实现门槛,推动着这些先进技术在各行各业生根发芽。

Python是大数据分析和机器学习“武器库”中的一把“利刃”,其功能强大且简单易上手。本书就是一本专注于利用Python编程实现大数据分析与机器学习商业应用的实战型教程,讲解了线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、K近邻算法模型、随机森林模型、AdaBoost与GBDT模型、XGBoost与LightGBM模型、PCA(主成分分析)模型、聚类与分群模型(KMeans与DBSCAN算法)、协同过滤算法模型、Apriori关联分析模型、神经网络模型等十余种机器学习模型,每种模型都配有一到两个典型案例,涵盖了多个行业的应用场景,如金融领域的大数据风控、量化金融交易,产品营销领域的产品智能定价与智能推荐、用户评论情感分析、客户精准营销与流失预警,医疗领域的疾病预测与关联规则分析,社会科学领域的收入预测、人脸识别,企业办公与管理领域的手写文字识别、员工离职预测等。

有的读者可能会在感慨机器学习之强大的同时发出疑问:机器学习这么厉害,我能学会吗?其实机器学习并不复杂,尤其是Python中的编程实现更加方便,你甚至无须完全了解模型的数学原理,便能用几行代码搭建出一个简单的模型,相信读者在阅读完3~5章之后就能体会到Python的数据分析之美。当然,知其然更要知其所以然,本书还会以简单易懂的方式讲解各个机器学习模型的数学原理,读者只需具备高中数学以上的基础便能理解。

为方便读者学习,本书所有案例均提供配套的素材文件、数据文件和源代码文件,并且附赠Python基础知识的电子书和教学视频,具体的获取方法见“如何获取学习资源”中的说明。