数据分析是科学研究中的重要环节。有人曾这样定义:数据分析是有针对性地收集、加工、整理数据,并采用数据统计、挖掘技术分析和解释数据的科学与艺术!本书就是针对数据分析而量身定做的,旨在引导对数据分析感兴趣和拟从事数据分析的读者入门,感受和领略Python数据处理及分析的魅力。
Python是当今炙手可热的数据分析工具,是一种面向对象的解释型计算机程序设计语言,拥有丰富和强大的库,已经成为继Java、C++之后的第三大语言。其特点是简单易学、免费开源、高级语言、可移植性强、面向对象,具有可扩展性、可嵌入性、丰富的库、规范的代码等。Python除了极少的事情不能做之外,基本上可以说是全能的,广泛应用在系统运维、图形处理、数学处理、文本处理、数据库编程、网络编程、Web编程、多媒体应用、PYMO引擎(PYMO全称为Python Memories Off)、黑客编程、爬虫编写、机器学习、人工智能等方面。
在学习数据分析类书籍之前,一定有许多“小白”跟当初的笔者一样未战先怯:数据分析要用到那么多的数学知识,还要用到编程知识,我能行吗?一提到“数学”,估计很多人连勇气都没有了,直接就放弃了。另外对计算机编程的要求,很多人会问是不是要对Python很精通才行?
其实这些多是误解。先来说说数学,如果仅仅做数据的一般分析,那对数学知识的要求其实根本没有读者想象的那么难,甚至根本用不上“高大上”的数学知识。对于编程更是这样,Python语言极其简单,完全可以现学现用。曾有人说,20个小时就能搞定Python。只要读者能跟着本书认真地输入代码,一定能够自如地利用Python工具在数据的海洋中遨游。俗话说:“拳不离手,曲不离口”,学习编程也要亲自多敲代码,复制、粘贴源代码对于学习编程是没有益处的,尽管数据分析中需要的编程知识不多。
在本书的写作过程中,得到了中北大学Python实验室各位同学的帮助和支持。陈粮同学执笔编写和测试了第9章;孙玉林、周俊琦同学执笔编写和测试了《红楼梦》文本分析代码;另外,杨阳、袁凤恩、温一川、魏炳琦、张方等同学对本书的部分代码进行了测试及校对工作,在此一并表示感谢。
由于时间仓促,书中错误及疏漏之处在所难免,恳请读者批评指正。本书对应的视频教程、源代码及源数据,可以扫描下方二维码,关注微信公众号进行获取。