文章吧-经典好文章在线阅读:《Python for Data Analysis》读后感精选10篇

当前的位置:文章吧 > 经典文章 > 读后感 >

《Python for Data Analysis》读后感精选10篇

2018-09-12 04:57:01 作者:文章吧 阅读:载入中…

《Python for Data Analysis》读后感精选10篇

  《Python for Data Analysis》是一本由Wes McKinney著作,O'Reilly Media出版的Paperback图书,本书定价:USD 39.99,页数:466,特精心网络整理的一些读者读后感希望大家能有帮助

  《Python for Data Analysis》读后感(一):基于数组和矩阵的高层抽象数据结构的python实现用法

  andas主要基于numpy.ndarray构造了更高级的Series和DataFrame数据结构。这本书主要就是说明基于这两种数据结构的API用法。这些API主要是对原本numpy操作补充行列Index在DataFrame的加强对于各种数据逻辑操作帮助比较大。对pyplot的绘图函数也和两种数据结构绑定的很好。越来越多的数据分析特别探索式的分析都会转到Python和R这块来,高性能部分还是会用c扩展来实现。

  《Python for Data Analysis》读后感(二):數據清洗,酣暢淋漓

  這本書的作者是 Pandas 模塊的開發者。整本書裏的內容基本上也都是圍繞着 Pandas 這個 Python 的數據分析模塊展開的。中間還夾雜了 Numpy 和 Scipy 的一些科學計算功能的介紹。

  整本書比較工具化,看書名就知道。主要介紹的是數據分析時怎麼運用Python。所以如果你期望看到一些數據分析的理念什麼的,可以跳過這本書。如果你手頭有一大堆的數據,卻苦於沒有辦法來對他們去蕪存菁,那麼看看這本書很有幫助。

  看完這本書之後,深深地覺得我需要再去補一補概率統計和線性代數的課了。

  《Python for Data Analysis》读后感(三):还没到时候,不过是大趋势

  这本书是Pandas的模块作者写的书。

  总的来说Python提供了很多方便,但是这种方便还是需要付出一定的学习成本的。使用Pandas可以把Python基本当作R用 用NumPy和SymPy还有SciPy把Python当作Matlab用。但是目前所有这些模块都还在开发阶段所以有很多问题需要解决用户体验并不是非友好,尤其是数据类型和能否改变数据值等等细节会让人特别累。

  还有一个大问题是现在并没有专门针对Python数据分析提供的很好的IDE Pythonxy和Canopy Express都各有千秋但是都不够好,作为数据分析能够直接查看数据是很重要的,现在只有pythonxy支持variable explorer但是,而如果直接在IPython中查看数据的话会很不直观,除了pandas的dataframe会很直观以外,有一些简单的操作可能会因此变得非常复杂,而且用户缺乏对数据结构的直观观测很可能会产生一些非常微妙的bug。

  另外每种模块中拓展的数据对象都有类似成员函数,但是是用对象.成员函数调用还是直接调用函数造成的结果是不一样的。这主要是因为Python是面对大数据分析的,所以一个函数的结果到底是直接改变原有对象还是创建新对象不一定,创建的新对象跟原来的对象是不是引用或者只是一个复制,又不一定,各种包加进来之后会让事情变得很复杂。这些都是下一步需要解决的问题。

  最后,IPyhon Notebook非常赞,但是不是所有人都会用Git并且创建一个gist,这就使得代码分享和可重复研究对于非职业程序员变得有点复杂,这不利于Python数据分析的发展

  总之路还很长,但是Python有很多好处,比如对于python的大部分拓展对象你都可以进行向量化操作,少写不少循环,代码会因此短而精干也易读,python可以从C++等语言输出端拿数据处理之后再返给C++和Fortran等,这些都意味无限的可能性。在我看来Python目前并不适合用来搞研究,倒是适合用来编写一个处理数据的胶水程序,而且并不是分析数据,而是重新整合数据使得它们更容易被分析。

  《Python for Data Analysis》读后感(四):值得已入门者快速翻阅的入门书

  每一个数据分析师或是数据科学家都使用各自不同技术栈。即使同样使用Python做为主力数据分析语言,每个人会用到的工具组合也不尽相同

  但不管怎么说,对于希望使用python来进行数据分析工作的人来说,学习iPython,NumPy,pandas,matpotlib这个组合是一个目前看来怎么都不会太错的方向

  本书恰好精确地涵盖了这几个方向。

  本书的作者Wes McKinney正是pandas的主要作者。作者有多年的Python数据分析工作经验。除了pandas之外,作者对本书覆盖的这iPython,NumPy,pandas,matpotlib等也都有着很深的理解

  本书的结构比较特别。前两章是背景介绍。第三、四、五章分别介绍了一下iPython,NumPy,pandas。第六到十一章是一些比较具体的功能的介绍以及实例,以pandas的使用为主,中间却又插进了一个讲matplotlib的第八章。第十二章又回到NumPy。全书最后还附了一个大约三十页篇幅的Python快速入门。

  这个结构给人的感觉是作者在写这本书的时候有着很大的抱负:希望能把一个完全新手带入Python数据分析的大门,即使这个新手在此之前对数据分析和Python都完全没有概念

  这种抱负对于一本不到五百页的教材不免有些过于宏大。一个明显的负面结果是第一、二章和后面的章节之间存在着较大的脱节。第一、二章的内容其实是适合于一个完全没有数据分析经验的新手的。但后面的章节对于新手来说则比较困难的:主要的困难不在于理解书中的技术,而在于真正领会到这些技术在实际究竟有什么用。

  作者并非没有意识到这个困难。事实上,他试图用贯穿全书的大量实例来化解这个困难。但是,事于愿违的是,这些实例反而造成了阅读障碍:这些实例很可能是书中最为乏味无趣的部分。很难想象会有多少读者真正有耐心把所有实例从头到尾认真读完,更不用说,像作者所希望的那样,把这些实例一一重复一遍。

  由于这个特点,对于初学者,这本书可能更适合作配合课程使用的教材,而不是自学用的教材。比起重复书中的实例,与课程进度相配合的作业可能更能提高初学者的兴趣

  对于已经有一些Python数据分析经验的读者,这本书可能会显得较初级。但是,跳这些比较初级的部分,本书还有很多对于有经验的读者来说很有价值的内容。在我看来,这些特别有价值的内容集中在第四、五、八、十二章对NumPy,pandas,matpotlib等工具库的介绍中。由于作者对这些工具有着很深的理解,这些章节很好地阐述了这几个工具库的基本设计思路,而非简单地堆砌知识点

  在读这本书前,我对于这几个工具库各有一到两年的使用经验,但除了最初看过了一些入门tutorial之外,我并没有系统地学习过相关的内容,通常都是要使用某个功能时看文档或是实例。这本书中涉及到的大部分知识,我的工作中略有涉及过。但我确实感觉到,本书对于我真正理解这些库有很大的帮助。

  最后,我手上这本书出版的时间是2012年(豆瓣上有2013版的信息,但我在amazon上似乎并没有看到),所以有些内容已经比较陈旧。以iPython为例,虽然第三章中用小节简单介绍了iPython notebook,但绝大部分内容还是基于传统命令行iPython,包括了大量在iPython notebook环境下并不适用的操作。但从我的身边的情况来看,现下的绝大部分iPython使用者都以Jupyter notebook(即iPython notebook)为主要工作环境,直接使用命令行iPython的用户已经很少了。

  以下是分章节的评论

  1. Preliminaries

  非常基础的知识,只要是稍有经验的读者都可以直接跳过。

  2. Introductory Examples

  通过一些实例来解释Python数据分析是做什么的、基本流程如何,主要的目的在于“引起读者的兴趣”。我觉得比起后面章节中的实例,这一章中的实例还比较有趣

  3. IPython: An Interactive Computing and Development Environment

  介绍iPython。对于希望使用Jupyter notebook(即ipython notebook)的读者来说,可能不太够。

  4. NumPy Basics: Arrays and Vectorized Computation

  很不错的一章。特别难得的是,作者试图帮助读者真正理解NumPy的设计思路和构成逻辑,而不是简单地教会读者使用方法。行文很有条理

  5. Getting Started with pandas

  很不错的一章,和上一章的感觉类似。考虑的本书作者的身份,这一章写得好是理所应当。

  6. Data Loading, Storage, and File Formats

  介绍如何读/写各种格式文件。感觉和直接读文档其实差别不是很大。

  7. Data Wrangling: Clean, Transform, Merge, Reshape

  挺好的一章。内容稍多,但还是挺有用的。

  8. Plotting and Visualization

  主要介绍matplotlib。挺不错的一章,和第四、五章感觉类似。

  9. Data Aggregation and Group Operations

  比较有意思的一章,但有些过于复杂的使用方法,觉得用到的机会并不多。

  10. Time Series

  前一半不错,对初学者来说很有帮助。后一半比较细节和偏。

  11. Financial and Economic Data Applications

  感觉这章单独把financial和economic data的应用提出来其实意义不大,毕竟这只是data analysis的众多方向之一。而且,本章的知识点和前面几章的重复很多,基本上可以看做是前几章内容的实例练习。这章存在主要原因其实是作者的financial背景。

  12. Advanced NumPy

  很好的一章。对于想要真正掌握NumPy的读者,本章中的知识是很有价值的。不过由于本书总体偏入门级,本章虽然题为“Advanced NumPy”,实质上内容并不太“advanced”。

评价:

[匿名评论]登录注册

评论加载中……