文章吧-经典好文章在线阅读:《R for Data Science》经典读后感有感

当前的位置:文章吧 > 原创文章 >

《R for Data Science》经典读后感有感

2021-04-25 02:31:22 来源:文章吧 阅读:载入中…

《R for Data Science》经典读后感有感

  《R for Data Science》是一本由Hadley Wickham / Garrett Grolemu著作,O'Reilly Media出版的Paperback图书,本书定价:USD 39.99,页数:518,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。

  《R for Data Science》精选点评:

  ●本校大神作品

  ●太棒了!建议把习题认认真真做一遍,会学到很多新知识,习题答案github上有人分享

  ●Many models 重现生机

  ●遇到Tidyverse大概是这个夏天遇到的最爽的事了

  ●一刷完成。作者写得真是清晰简洁优雅。

  ●上课用的书,快速上手!不是统计学概念讲半本那种,好玩

  ●终于从Excel里解放了

  ●看的是网页版,内容很全,从数据整理,R编程,作图甚至markdown的使用都有涉及到,适合入门,每个部分也都推荐了一些深入的paper和书,适合做深入理解时用

  ●学R必读没什么好说的

  ●通俗易懂,要是更简练会更好

  《R for Data Science》读后感(一):Tidyverse: R 的现代范式

  这本书的定位是 data science 入门书,特点是使用了 tidyverse 的一套哲学。整体思路可借用书中的一张图来说明:

  《R for Data Science》读后感(二):我的六年R

  学R是在2012年在Jenny Bryan的stats 540的课上, Jenny也是本书几个章节的作者之一。

  那时,课上画图用的是 lattice,这个包只包括了一些常见的画图函数,有些图没有,经常还得去找其他的包,理解不同函数的输入参数。同一个事情,不同包的控制参数名称完全不一样,经常找不到或搞混,记得有一回想给图加个title都在网上搜了一个多小时。后来就发现了ggplot,最喜欢他的地方就是语法统一,各种图基本都能作,终于可以在一个体系下完成作图了。

  又过了一年,重新发现了dplyr这一神器,因为Jenny的课上好像介绍过数据的管道操作,我当时没有重视。有了这个东西,好像再也不用写for loop来统计某些数据了,而且代码精简好多,不得不佩服Hadley Wichham的才智,搞出这么牛的东西来。后来网上有人写python的pandas也可以完成类似的操作,但是我总感觉python的语法有些麻烦,需且python的好多函数都不支持向量输入,还得用map什么的,不简练。

  hD基本主要是R+Emacs,感觉效率贼高,用的很开心。Rstudio 开始也用过一段时间,但是比较占内存大,运行速度也不快,服务器远程访问不现实。记得Jenny也用的是Emacs, 她后来也去Rstudio工作了,不知道她对Rstudio和Emacs ESS更喜欢哪个。

  整体这六年,R的数据分析流程被Hadley整合打通了,的确很方便。Python这几年也在不断的把R的功能抄过去,比如pandas, ggplot2什么的。大家都在说python在数据分析领域已经超过R了,但我还是喜欢R,可能因为R更面向数据分析,代码更精炼吧。

  《R for Data Science》读后感(三):说说我对R语言的理解

  

这本书我读的中文版,时间是在今年年初,用了半个月时间把书中所有的代码和作业题都写了一遍,做完以后的确是很爽的。学完这本书以后我就去学Java了,有机会应该会把《Advanced R》也读一下,不过只这本书应付一个经济学硕士或者博士的毕业和科研已经够用了。换句话说这本书也让我开始对计算机科学产生了兴趣,是一个引路人。

听说由于地图的原因,这本书的中文版把中间两章删掉了,似乎涉及到一些长宽数据的转换,有所缺失确实相当可惜。所以还是推荐大家去读英文版。

R语言相比其他统计语言或者Python而言,优势在于它的可视化做得特别好。可视化的意思是撰写报告和绘图。前者有R markdown,后者有ggplot2。其实就现在的R包而言,R语言可以实现的功能是很丰富的,很多很有意思的功能,比如前两天统计之都刚刚推送一篇用R写音乐,也是相当有意思,用for循环和其他基本数据结构写五线谱是我之前从没见过的,看来将来编程普及化以后,音乐编程也会是一个重要的学习方向。

扯远了,对于R语言,最适用的还是科研工作者。科研工作者需要较为直接明了易上手的语法,而不要纠结于语言本身,这点dplyr要比pandas好一些,可能显得更伪代码一些(伪代码本身就是伪命题,站在二进制和汇编的角度所有高级语言都是伪代码)。

另外科研工作者需要较为高质量的绘图,这点ggplot2几乎是不可替代的解决方案。ggplot2说第二,全世界的开源绘图工具应该没有敢说自己第一的。另外还有一个重头戏是R markdown。因为R markdown可以自动执行插入其中的R代码块,再输出到文件(pdf或者html)中,比如输入一段画图代码,生成的pdf直接就帮你画好,然后放到了恰当的位置。

这点对于科研工作者而言节省了太多排版的时间,让他们把精力可以集中于内容本身。另外RStudio也和LaTeX结合得比较好,可以直接在RStudio的脚本编辑器写TeX并渲染(利用谢益辉大神的tinytex),总是比Overleaf好一些吧。Github上也有一些pdf的幻灯片模版(经常写LaTeX的人应该知道beamer吧),可以让你避免满屏幕都是反斜杠,用markdown语法写幻灯片或者论文总是更清爽一些吧!

总之学学这个总是比学stata好点,但找工作还是学Python去吧。倒不是R不能用于工作,只是软件行业中国一直吃外国吃剩下的东西,现在虽然R在国外的业界已经有一定流行度了,只是这种氛围输出到中国可能还需要一些时间。

  《R for Data Science》读后感(四):不如叫Tidyverse for Data Analysis

  有人说这本书就是Hadley安利他的Tidyverse各种包,书名不如就叫《Tidyverse for Data Analysis》,没办法,谁让Tidyverse就是优雅好用呢。举个例子,我看完以后就记得一堆动词性函数(Verbs),比如用filter()筛选符合条件的行(observations),用select()筛选需要的列(variables),用mutate()根据已有variables创建新variable等等,真的非常简单直接。

  这本书可以直接免费在线看,没什么好说的,大家去逛一下就知道了。只想说一下我看的时候同时用的其他辅助资料,可以更有效率地学习Tidyverse。

  1. Datacamp刷题

  首先推荐下用Datacamp刷题。

  我是先粗略看了一遍《R for Data Science》,稀里糊涂的,也记不太清楚,就像是高中时期学数学一样,只看例子不动手就跟没看差不多。正好Datacamp很多课程设计得很interactive,用来讲解的视频就几分钟,然后给几个题目来练习,很适合刷题。Tidyverse相关的课程推荐几个:

  (1)Introduction to the Tidyverse:https://learn.datacamp.com/courses/introduction-to-the-tidyverse (2)Data Manipulation with dplyr:https://learn.datacamp.com/courses/data-manipulation-with-dplyr (3)Working with Data in the Tidyverse:https://learn.datacamp.com/courses/working-with-data-in-the-tidyverse

  2. RStudio Cheat Sheets

  第二个想推荐的辅助资料就是RStudio总结的Tidyverse相关包的Cheat Sheets (https://rstudio.com/resources/cheatsheets/),PDF下载之后打印出来放在桌面上,不管是看《R for Data Science》这本书还是用Datacamp刷题的时候都随时在Cheat Sheet上找到相应的内容标记下,这样以后项目中遇到问题了可以直接看Cheat Sheets就行了。

我的Cheat Sheets已经面目全非~

  话说,Tidymodels官网也悄悄上线了(https://www.tidymodels.org),Tidyverse团队推出的针对modeling和machine learning的一系列包,当然是基于Tidyverse设计原则的,迫不及待要看了。

评价:

[匿名评论]登录注册

评论加载中……