Python网络爬虫技术与实战pdf下载pdf下载

Python网络爬虫技术与实战百度网盘pdf下载

作者:
简介:本篇主要提供Python网络爬虫技术与实战pdf下载
出版社:机械工业出版社自营官方旗舰店
出版时间:2021-01
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

产品特色

编辑推荐

作者多年从事网络爬虫领域的教学及研究工作,有着丰富的实践经验。


面向初学者全面介绍Python网络爬虫的实战宝典,涵盖网络爬虫的核心概念、算法和技术实现,内容系统,案例丰富。


内容简介

本书是一本系统、全面地介绍Python网络爬虫的实战宝典。作者融合自己丰富的工程实践经验,紧密结合演示应用案例,内容覆盖了几乎所有网络爬虫涉及的核心技术。在内容编排上,一步步地剖析算法背后的概念与原理,提供大量简洁的代码实现,助你从零基础开始编程实现深度学习算法。


全书按照学习爬虫所涉及的核心技术从易到难,再到应用的顺序分为14章。第1章介绍Python的安装配置和基础语法。 第2章介绍爬虫类型、抓取策略以及网络基础知识。第3章介绍Python常用库。第4章介绍正则表达式的语法、匹配规则。第5章讲解PIL库、Tesseract库和TensorFlow库的语法、类型和识别方法。第6章介绍抓包利器Fiddler。第7章介绍数据存储。第8章介绍Scrapy爬虫框架。第9章介绍多线程爬虫。第10章介绍动态网页爬虫。第11章介绍分布式爬虫。第12章介绍电商网站商品信息爬虫项目。第13章介绍生活娱乐点评类信息爬虫。第14章介绍图片信息类爬虫项目。


作者简介

赵国生,哈尔滨师范大学教授,工学博士,硕士生导师,黑龙江省网络安全技术领域特殊人才。主要从事可信网络、入侵容忍、认知计算、物联网安全等方向的教学与科研工作。担任中国计算机学会容错专委会委员、黑龙江省计算机学会网络专委会委员、中国青年博士论坛网络专委会委员、国家自然科学基金委项目评审专家、黑龙江省国资采购专家组成员、黑龙江省财政厅及黑龙江省高等法院信息化资讯专家、黑龙江省教育厅行业信息系统安全专题培训讲师、中国计算机学会高级会员、中国计算机学会YOCSEF哈尔滨副主席。荣获哈尔滨师范大学“先进工作者”“五四青年奖章”“宁齐堃”教学名师等荣誉。主持国家自然科学基金、黑龙江省自然科学基金、黑龙江省科技厅科技攻关等项目10项,发表SCI/EI检索论文50余篇,发明专利2项、实用新型专利6项,拥有软件著作权6项,获省/部级科技进步一等奖2项、三等奖1项,撰写《Linux操作系统原理与应用》《Matlab数学建模与仿真》《Matlab完全学习手册》《精通Labivew》等编著6部。目前担任《电子学报》《通信学报》《系统仿真学报》等期刊审稿专家。

内页插图

目录

前言
第1章 Python环境搭建及基础学习
1.1 Python 3.6的安装与配置
1.1.1 Windows下的安装
1.1.2 Linux下的安装
1.1.3 macOS下的安装
1.2 IDE工具:PyCharm的安装
1.3 基础语法
1.3.1 第一个Python程序
1.3.2 Python命名规范
1.3.3 行和缩进
1.3.4 注释和续行
1.3.5 Python输出
1.4 字符串
1.4.1 字符串运算符
1.4.2 字符串内置函数
1.5 数据结构
1.5.1 列表
1.5.2 元组
1.5.3 集合
1.5.4 字典
1.6 控制语句
1.6.1 条件表达式
1.6.2 选择结构
1.6.3 循环结构
1.7 函数、模块和包
1.7.1 函数
1.7.2 模块
1.7.3 包
1.8 文件的读写操作
1.8.1 文件读写步骤与打开模式
1.8.2 文件的基本操作
1.8.3 文件写入操作
1.9 面向对象
1.9.1 类和对象
1.9.2 封装性
1.9.3 继承性
1.9.4 多态性
1.10 本章小结
练习题

第2章 爬虫原理和网络基础
2.2 爬虫的意义
2.3 爬虫的原理
2.4 爬虫技术的类型
2.4.1 聚焦爬虫技术
2.4.2 通用爬虫技术
2.4.3 增量爬虫技术
2.4.4 深层网络爬虫技术
2.5 爬虫抓取策略
2.5.1 深度优先遍历策略
2.5.2 广度优先遍历策略
2.5.3 PartialPageRank策略
2.5.4 大站优先策略
2.5.5 反向链接数策略
2.5.6 0PIC策略
2.6 反爬虫和反反爬虫
2.6.1 反爬虫
2.6.2 反反爬虫
2.7 网络基础
2.7.1 网络体系结构
2.7.2 网络协议
2.7.3 Socket编程
2.8 本章小结
练习题

第3章 Python常用库
3.1 Python库的介绍
3.1.1 常用标准库
3.1.2 安装使用第三方库
3.2 urllib库
3.2.1 urlopen()函数用法
3.2.2 urlretrieve()函数用法
3.2.3 URL编码和URL解码
3.2.4 urlparse0和urlsplit()数用法
3.3 request库
3.3.1 request库的基本使用
3.3.2 request库的高级用法
3.4 lxml库
3.4.1 lxml库的安装和使用
3.4.2 XPath介绍
3.4.3 XPath语法
3.4.4 lxml和XPath的结合使用
3.5 BeautifuISoup库
3.5.1 Beautiful Soup库的安装和使用
3.5.2 提取数据
3.5.3 CSS选择器
3.6 实战案例
3.6.1 使用Beautiful Soup解析网页
3.6.2 微信公众号爬虫
3.6.3 爬取豆瓣读书TOP500
3.6.4 使用urllib库爬取百度贴吧
3.7 本章小结
练习题
……
第4章 正则表达式
第5章 验证码
第6章 抓包利器Fiddler
第7章 数据存储
第8章 Scrapy爬虫框架
第9章 多线程爬虫
第10章 动态网页爬虫
第11章 分布式爬虫
第12章 电商站商品信息爬虫项目
第13章 生活娱乐点评类信息爬虫项目
第14章 图片信息类爬虫项目
练习题答案

前言/序言

  为什么写作本书
  大数据时代已经到来,网络爬虫技术已成为这个时代不可或缺的一项技术,企业需要数据来分析用户行为、产品的不足之处以及竞争对手的信息等,而这一切的首要条件就是数据的采集。在互联网社会中,数据是无价之宝,一切皆为数据,谁拥有了大量有用的数据,谁就拥有了决策的主动权。如何有效地采集并利用这些信息成了一个巨大的挑战,而网络爬虫是自动采集数据的有效手段。网络爬虫是一种按照一定的规则,自动抓取互联网海量信息的程序或脚本。网络爬虫的应用领域很广泛,如搜索引擎、数据采集、广告过滤、大数据分析等。
  笔者多年来一直从事网络爬虫相关课程的讲授及科学研究工作,有着丰富的教学和实践经验。在内容编排上,本书采用梯度层次化结构,由浅入深地介绍爬虫的知识点、原理及应用,并结合大量实例讲解操作步骤,使读者能够快速地理解网络爬虫的核心技术。内容介绍
  全书共14章,具体内容如下:
  第1章主要介绍Python的安装、配置和基础语法,以及Python的字符串、数据结构、控制语句和函数等;
  第2章主要介绍爬虫的类型、爬虫的抓取策略以及深入学习爬虫所需的网络基础等相关知识;
  第3章主要对爬虫技术中经常使用到的urllib、request.lxml和Beautiful Soup库等进行详细介绍,最后展示了4个利用Python爬取数据的实例;
  第4章主要对Python中正则表达式的语法、匹配规则和re模块常用函数进行详细阐述,并给出了实例;
  第5章主要对3种主流库(PIL库、Tesseract库和TensorFlow库)的语法、类型、识别方法和案例进行介绍;
  第6章详细介绍Fiddler的安装与配置、捕获会话、QuickExec命令行的使用和Fiddler的断点功能等;
  第7章主要介绍数据存储在文件中和存储在数据库中这两种存储方式;
  第8章重点介绍Scrapy框架的Selector用法,以及Beautiful Soup库和CrawISpider的使用,然后介绍了Scrapy Shell和Scrapyrt的使用;
  第9章主要介绍多线程和Threading模块的基本概念;
  第10章主要介绍如何对动态网页进行信息爬取,首先介绍了浏览器开发工具的使用,然后介绍了异步加载技术、AJAX技术和Selenium模拟浏览器;
  第11章主要介绍分布式爬虫的原理及实现过程,然后介绍了Scrapy-redis分布式组件的工作机制和安装配置;
  第12章主要介绍如何利用Selenium抓取并用pyquery解析电商网站的商品信息,然后将其保存到MongoDB;
  第13章主要介绍静态网页和动态网页的爬取方法,并对请求一响应关系进行了介绍,然后介绍了请求头和请求体;
  第14章主要讲解如何通过urllib模块和Scrapy框架实现图片爬虫项目,以及利用TensorFlow、KNN和CNN等机器学习框架进行训练的方法与过程。主要特点
  本书针对网络爬虫学习的特点,结合作者多年使用网络爬虫的教学和实践经验,由浅入深、从简到繁、图文并茂地介绍了Python基础语法、爬虫原理、爬虫常用库模块、正则表达式、验证码识别、抓包工具Fiddler、数据存储、Scrapy爬虫框架、多线程爬虫、动态网页爬虫和分布式爬虫等方面的内容。本书内容条理清晰、针对性强,语言通俗易懂,在讲解的过程中配合大量的实例操作,符合读者的学习习惯。每章都是从基础知识开始介绍,然后是实例分析,最后附以练习题巩固学习效果,将理论与实践紧密结合。
  具体来讲,本书具有以下鲜明的特点:
  内容系统,由浅入深;
  案例讲解,通俗易懂;
  综合实战,注重实践。读者对象
  本书适合网络爬虫初学者,以及具有一定网络爬虫基础,但希望更深入了解、掌握爬虫原理与应用的中级读者阅读。
  本书可以作为本科或者大专院校网络安全、电子信息、数据科学、网络工程等相关专业的教材,也可作为从事网络爬虫相关工作的科研或者工程技术人员的参考书。