前 言
这项技术有什么前途
如今,已经进入大数据时代,很多的行业在使用大数据之后都得到了非常好的效果。互联网是大数据发展的前哨阵地,大数据围绕在我们生活的方方面面,它们相辅相成、互联依赖,并且不断在快速发展。随着大数据时代的发展,人们似乎都习惯了将自己的生活通过网络进行数据化,方便分享、记录和回忆。例如,我们每天都在通过自己的QQ、微信、微博更新自己的动态、朋友圈等,这些都将构成一种数据。大数据通过数据挖掘来进行用户行为分析,推测出用户的爱好、工作、住址、收入情况等信息。
在这个信息交换频率无限发达的时代,当工作、生活、娱乐、学习方式全都可以由数字分析得出时,企业的经营方式也将会过渡到数据挖掘时代。现在,企业几乎每天每时都在产生着大量的业务数据。“工欲善其事,必先利其器”,只要善于运用Scrapy获取数据、分析数据、运用数据,就能透过这些数据真正了解用户,抓住用户心理,完全可以根据用户不同的消费习惯、消费能力等,主动提供精准的个性化产品和服务。
本书讲解的是目前最流行的Python爬虫框架Scrapy,它简单灵活、易扩展,使用它可以高效地开发网络爬虫应用。Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。它将网页采集的通用功能,集成到各个模块中,留出自定义的部分,将程序员从烦冗的流程式重复劳动中解放出来。我们只需要实现少量代码,就能够快速地抓取到数据内容。Scrapy使用了Twisted异步网络框架来处理网络通信,可以加快下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活地完成各种需求。尽管Scrapy原本是设计用来网络抓取,但它也可以用来访问API来提取数据。而且Scrapy框架通过管道的方式存入数据库,可保存为多种形式。所以,使用Scrapy框架可以高效完成网站数据爬取任务。
利用Scrapy + Pandas还能够进行数据的分析及图形化展示。
笔者的使用体会
Scrapy集成了各种功能(高性能异步下载、队列、分布式、解析、持久化等),是一个通用性很强的项目模板。通过这个框架可以很快地爬取到我们想要的数据,并且能够进行数据清洗、分析及图形化展示。
这本书的特色
本书的宗旨是以实用为主,通过通俗易懂的语言、丰富实用的案例,讲解Python网络爬虫框架Scrapy的原理和开发技术,主要特色如下。
(1)由浅入深,循序渐进。
(2)在讲解一些比较抽象的基础知识时会配有示例代码,以便让读者更深刻地去理解Scrapy的作用和应用,而不仅是一段段枯燥无味的文档。
(3)实战案例选材方面都是以章节中讲解的知识点为核心,尽量选择能够贴近日常生活的网站进行演示。
(4)在讲解一些重要的知识点时,会对源码进行分析,让读者能够“知其然,知其所以然”,以便日后在进行开发时能够游刃有余。
读者对象
·Python网络爬虫初学者
·运用Scrapy框架的初学者
·数据分析和挖掘技术的初学者
·高校和培训学校相关专业的师生
·其他对网络爬虫框架Scrapy感兴趣的各类人员