《阿里云天池大赛赛题解析机器学习篇》[44M]百度网盘|亲测有效|pdf下载

书籍详情

阿里云天池大赛赛题解析机器学习篇
出版社:文轩网旗舰店
出版时间:2020-09
热度:6293
上架时间:2024-06-30 09:07:09
价格:9.0

书籍下载

9.0元标准版 8.9元简单版

书籍预览

查看预览查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作者:天池平台著

定价:109

出版社:电子工业出版社

出版日期:2020年09月01日

页数:376

装帧:平装

ISBN:9787121393501

《阿里云天池大赛赛题解析——机器学习篇》的赛题均来自阿里云天池的真实业务场景，由具有丰富实战经验的大赛选手精心完成。本书通过解析选手的解题思路，总结了大赛可复制的套路，向专业开发者提供参考，帮助参赛选手进阶。

●赛题一工业蒸汽量预测
1 赛题理解2
1.1 赛题背景2
1.2 赛题目标2
1.3 数据概览2
1.4 评估指标3
1.5 赛题模型4
2 数据探索6
2.1 理论知识6
2.1.1 变量识别6
2.1.2 变量分析6
2.1.3 缺失值处理10
2.1.4 异常值处理11
2.1.5 变量转换14
2.1.6 新变量生成15
2.2 赛题数据探索16
2.2.1 导入工具包16
2.2.2 读取数据16
2.2.3 查看数据16
2.2.4 可视化数据分布18
2.2.5 查看特征变量的相关性26
3 特征工程33
3.1 特征工程的重要性和处理33
3.2 数据预处理和特征处理33
3.2.1 数据预处理33
3.2.2 特征处理34
3.3 特征降维38
3.3.1 特征选择39
3.3.2 线性降维44
3.4 赛题特征工程45
3.4.1 异常值分析45
3.4.2 大值和小值的归一化46
3.4.3 查看数据分布47
3.4.4 特征相关性48
3.4.5 特征降维48
3.4.6 多重共线性分析49
3.4.7 PCA处理50
4 模型训练52
4.1 回归及相关模型52
4.1.1 回归的概念52
4.1.2 回归模型训练和预测52
4.1.3 线性回归模型52
4.1.4 K近邻回归模型54
4.1.5 决策树回归模型55
4.1.6 集成学习回归模型58
4.2 赛题模型训练61
4.2.1 导入相关库61
4.2.2 切分数据62
4.2.3 多元线性回归62
4.2.4 K近邻回归62
4.2.5 随机森林回归63
4.2.6 LGB模型回归63
5 模型验证
5.1 模型评估的概念和方法
5.1.1 欠拟合与过拟合
5.1.2 模型的泛化与正则化68
5.1.3 回归模型的评估指标和调用方法70
5.1.4 交验证72
5.2 模型调参75
5.2.1 调参75
5.2.2 网格搜索76
5.2.3 学习曲线77
5.2.4 验证曲线78
5.3 赛题模型验证和调参78
5.3.1 模型过拟合与欠拟合78
5.3.2 模型正则化81
5.3.3 模型交验证82
5.3.4 模型超参空间及调参85
5.3.5 学习曲线和验证曲线89
6 特征优化93
6.1 特征优化的方法93
6.1.1 合成特征93
6.1.2 特征的简单变换93
6.1.3 用决策树创造新特征94
6.1.4 特征组合94
6.2 赛题特征优化96
6.2.1 导入数据96
6.2.2 特征构造方法96
6.2.3 特征构造函数96
6.2.4 特征降维处理96
6.2.5 模型训练和评估97
7 模型融合100
7.1 模型优化100
7.1.1 模型学习曲线100
7.1.2 模型融合提升技术100
7.1.3 预测结果融合策略102
7.1.4 其他提升方法105
7.2 赛题模型融合106
7.2.1 导入工具包106
7.2.2 获取训练数据和测试数据106
7.2.3 模型评价函数107
7.2.4 采用网格搜索训练模型107
7.2.5 单一模型预测效果109
7.2.6 模型融合Boosting方法115
7.2.7 多模型预测Bagging方法118
7.2.8 多模型融合Stacking方法119
7.2.9 模型验证127
7.2.10 使用lr_reg和lgb_reg进行融合预测127
赛题二天猫用户重复购买预测
1 赛题理解130
1.1 赛题背景130
1.2 数据介绍131
1.3 评估指标133
1.4 赛题分析134
2 数据探索137
2.1 理论知识137
2.1.1 缺失数据处理137
2.1.2 不均衡样本138
2.1.3 常见的数据分布141
2.2 赛题数据探索144
2.2.1 导入工具包145
2.2.2 读取数据145
2.2.3 数据集样例查看145
2.2.4 查看数据类型和数据大小146
2.2.5 查看缺失值147
2.2.6 观察数据分布148
2.2.7 探查影响复购的各种因素150
3 特征工程155
3.1 特征工程介绍155
3.1.1 特征工程的概念155
3.1.2 特征归一化155
3.1.3 类别型特征的转换156
3.1.4 高维组合特征的处理156
3.1.5 组合特征157
3.1.6 文本表示模型157
3.2 赛题特征工程思路158
3.3 赛题特征工程构造160
3.3.1 工具导入160
3.3.2 数据读取160
3.3.3 对数据进行内存压缩161
3.3.4 数据处理163
3.3.5 定义特征统计函数1
3.3.6 提取统计特征166
3.3.7 利用Countvector和TF-IDF提取特征170
3.3.8 嵌入特征170
3.3.9 Stacking分类特征171
4 模型训练179
4.1 分类的概念179
4.2 分类相关模型179
4.2.1 逻辑回归分类模型179
4.2.2 K近邻分类模型180
4.2.3 高斯贝叶斯分类模型182
4.2.4 决策树分类模型182
4.2.5 集成学习分类模型183
5 模型验证186
5.1 模型验证指标186
5.1.1 准确度186
5.1.2 查准率和查全率188
5.1.3 F1值189
5.1.4 分类报告189
5.1.5 混淆矩阵189
5.1.6 ROC190
5.1.7 AUC曲线190
5.2 赛题模型验证和评估190
5.2.1 基础代码190
5.2.2 简单验证191
5.2.3 设置交验证方式192
5.2.4 模型调参194
5.2.5 混淆矩阵195
5.2.6 不同的分类模型198
5.2.7 自己封装模型205
6 特征优化211
6.1 特征选择技巧211
6.2 赛题特征优化213
6.2.1 基础代码213
6.2.2 缺失值补全213
6.2.3 特征选择213
赛题三 O2O优惠券预测
1 赛题理解222
1.1 赛题介绍222
1.2 赛题分析223
2 数据探索225
2.1 理论知识225
2.1.1 数据探索的定义225
2.1.2 数据探索的目的226
2.1.3 相关Python包226
2.2 初步的数据探索226
2.2.1 数据读取226
2.2.2 数据查看227
2.2.3 数据边界探索231
2.2.4 训练集与测试集的相关性232
2.2.5 数据统计236
2.3 数据分布238
2.3.1 对文本数据的数值化处理238
2.3.2 数据分布可视化242
3 特征工程246
3.1 赛题特征工程思路246
3.2 赛题特征构建248
3.2.1 工具函数248
3.2.2 特征群生成函数250
3.2.3 特征集成函数256
3.2.4 特征输出257
3.3 对特征进行探索260
3.3.1 特征读取函数260
3.3.2 特征总览261
3.3.3 查看特征的分布262
3.3.4 特征相关性分析265
4 模型训练266
4.1 模型训练与评估266
4.2 不同算法模型的性能对比271
4.2.1 朴素贝叶斯271
4.2.2 逻辑回归271
4.2.3 决策树272
4.2.4 随机森林272
4.2.5 XGBoost273
4.2.6 LightGBM274
4.2.7 不同特征效果对比274
4.3 结果输出274
5 模型验证276
5.1 评估指标276
5.2 交验证276
5.3 模型比较279
5.4 验证结果可视化282
5.5 结果分析289
5.6 模型调参290
5.7 实际方案292
6 提交结果299
6.1 整合及输出结果299
6.2 结果提交及线上验证302
赛题四阿里云安全恶意程序检测
1 赛题理解306
1.1 赛题介绍306
1.2 赛题分析307
2 数据探索310
2.1 训练集数据探索310
2.1.1 数据特征类型310
2.1.2 数据分布311
2.1.3 缺失值312
2.1.4 异常值312
2.1.5 标签分布313
2.2 测试集数据探索314
2.2.1 数据信息314
2.2.2 缺失值315
2.2.3 数据分布315
2.2.4 异常值315
2.3 数据集联合分析316
2.3.1 file_id分析316
2.3.2 API分析317
3 特征工程与基线模型318
3.1 特征工程概述318
3.1.1 特征工程介绍318
3.1.2 构造特征318
3.1.3 特征选择319
3.2 构造线下验证集319
3.2.1 评估穿越319
3.2.2 训练集和测试集的特征差异性320
3.2.3 训练集和测试集的分布差异性320
3.3 基线模型320
3.3.1 数据读取320
3.3.2 特征工程321
3.3.3 基线构建322
3.3.4 特征重要性分析324
3.3.5 模型测试325
4 高阶数据探索326
4.1 变量分析326
4.2 高阶数据探索实战329
4.2.1 数据读取329
4.2.2 多变量交探索329
5 特征工程进阶与方案优化343
5.1 pivot特征构建343
5.1.1 pivot特征343
5.1.2 pivot特征构建时间343
5.1.3 pivot特征构建细节和特点343
5.2 业务理解和结果分析344
5.2.1 结合模型理解业务344
5.2.2 多分类问题预测结果分析344
5.3 特征工程进阶实践344
5.3.1 特征工程基础部分344
5.3.2 特征工程进阶部分348
5.3.3 基于LightGBM的模型验证349
5.3.4 模型结果分析351
5.3.5 模型测试354
6 优化技巧与解决方案升级355
6.1 优化技巧：Python处理大数据的技巧355
6.1.1 内存管理控制355
6.1.2 加速数据处理的技巧356
6.1.3 其他开源工具包356
6.2 深度学习解决方案：TextCNN建模358
6.2.1 问题转化358
6.2.2 TextCNN建模358
6.2.3 数据预处理360
6.2.4 TextCNN网络结构361
6.2.5 TextCNN训练和测试362
6.2.6 结果提交3
7 开源方案学习365

本书聚焦机器学习算法建模及相关技术，以工业蒸汽量预测、用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测等四个天池经典赛题作为实战案例，针对实际赛题按照赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合等步骤，将赛题的解决方案从0到1层层拆解、详细说明，在展现专业选手解题过程的同时，配以丰富的相关技术知识作为补充。本书从经典商业案例出发，内容由浅入深、层层递进，既可以作为专业开发者的参考用书，也可以作为参赛选手研读专业算法的实战手册。

天池平台著

"本书由阿里云天池平台编写。天池平台已经举办了超过 200 场来自真实业务场景的竞赛，每场赛事沉淀的课题和数据集，将在天池保留和开放。天池平台已成为在校学生踏入职场前的虚拟实践基地，也成为聚集40万数据人才，孵化2000余家数据创新工作室的数据智能大社区。"

相关推荐

软件测试的艺术原书第3版

ApacheSkyWalking实战吴晟高洪涛赵禹光曹奕

ECharts数据可视化:入门、实战与进阶王大伟