本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
《网络数据采集技术:Java网络爬虫实战》是国内上很少见的讲解Java语言(而不是Python语言)网络爬虫的书籍。与Python语言相比,使用Java语言进行网络数据采集,具有采集效率更高、框架性能更好、敏捷易用等优点,而且针对大型搜索引擎系统的数据采集工作更多使用Java语言,故本书值得读者学习。编程语言的初学者也可通过本书进一步掌握Java语言的高级编程技能。
《网络数据采集技术:Java网络爬虫实战》以Java为开发语言,系统地介绍了网络爬虫的理论知识和基础工具,包括网络爬虫涉及的Java基础知识、HTTP协议基础与网络抓包、网页内容获取、网页内容解析和网络爬虫数据存储等。本书选取典型网站,采用案例讲解的方式介绍网络爬虫中涉及的问题,以增强读者的动手实践能力。同时,本书还介绍了3种Java网络爬虫开源框架,即Crawler4j、WebCollector和WebMagic。
《网络数据采集技术:Java网络爬虫实战》适用于Java网络爬虫开发的初学者和进阶者;也可作为网络爬虫课程教学的参考书,供高等院校文本挖掘、自然语言处理、大数据商务分析等相关学科的本科生和研究生参考使用;也可供企业网络爬虫开发人员参考使用。
钱洋
合肥工业大学管理科学与工程系博士、CSDN博客专家。作为技术人员参与过多个横向、纵向学术课题,负责数据采集系统的设计与开发工作。在CSDN(博客名称:HFUT_qianyang)上撰写了多篇关于数据采集、自然语言处理、编程语言等领域的原创博客。
姜元春
合肥工业大学教授、博士生导师。长期从事电子商务、商务智能、数据采集与挖掘等方面的理论研究与教学工作。先后主持过国家自然科学基金优秀青年科学基金项目、国家自然科学基金重大研究计划培育项目、国家自然科学基金青年科学基金项目、教育部人文社科青年基金项目、阿里巴巴青年学者支持计划、CCF-腾讯犀牛鸟基金项目等课题的研究工作。
海量数据的出现催生了一种新的科研模式,即从数据中直接查找或挖掘所需要的信息。网络数据采集是商务、金融、公共管理等领域进行大数据分析的基础。本书系统梳理了网络数据采集的理论和基础知识,通过实际案例描述了网络数据采集技术的实现流程。基于本书的学习,读者可轻松开发一些数据采集项目,获取所需要的网络数据。
——清华大学教授、博士生导师 陈国青
数据采集是数据处理的首要环节,也是发掘和利用数据价值的基石。网络数据作为数据的重要来源,其采集手段多为网络爬虫。本书依托作者团队所承担的国家自然科学基金重大项目在数据采集方面的研究成果,系统地介绍了其相关技术(均得到实践验证),能够很好地帮助数据采集技术的初学者和进阶者。
——中国科学院计算技术研究所研究员、博士生导师 程学旗
数据作为一种重要资源,对创新社会治理、经济转型升级、科技创新能力提升的作用显著。采集数据是实现数据价值的基础性工程,受到社会各界的高度重视。本书提供了多个网络数据采集项目的详细代码,并附有注释,便于读者理解与进行实际项目的开发。
——上海数据交易中心项目总监 卓训方
对于大学生,以及从事数据挖掘、数据商务分析等相关研究的硕士生和博士生而言,网络数据采集已是一项必备技能。本书详细介绍了Java网络爬虫技术所涉及的一系列工具,同时也介绍了一些流行的网络爬虫开发框架,非常适合莘莘学子参考使用。
——合肥工业大学教授、博士生导师 刘业政