文章吧-经典好文章在线阅读:大数据读后感10篇

当前的位置:文章吧 > 经典文章 > 读后感 >

大数据读后感10篇

2022-03-15 11:04:40 来源:文章吧 阅读:载入中…

大数据读后感10篇

  《大数据》是一本由Anand Rajaraman / Jeffrey David 著作,人民邮电出版社出版的平装图书,本书定价:59.00元,页数:258,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。

  《大数据》读后感(一):真正讲“大数据”处理思路的书

  我真的不能忍受一帮子没读过此书,没写过代码,没搞过大数据的外行人在这边乱喷这本书。对豆瓣这本书的评价实在是太失望了。

  这是我读到的第一本真正讲“大数据”思路的书。

  面对海量数据的时候,我们的软件架构也会跟着发生变化。当你的数据量在内存里放不下的时候,你就得考虑硬盘;当你的硬盘也放不下的时候,你就得考虑分布式;当你做分布式的时候,你就得考虑数据共享/容错/一致性/可扩展/并行计算等等等等。。。

  这本书的价值本身不在于教你机器学习算法,科普什么是流式处理,PageRank等等。这本书是告诉你,当你的数据量大到你不能在单机完成的时候,你可以通过哪些方式达到你的目的。本书最常用的几种方法有:

  采样、近似计算(状态压缩)、并行计算(mapreduce)和降维等等。

  因为近似计算和采样都涉及到新算法结果有效性的问题,所以有很多关于近似算法收敛至目标结果的证明。抱着这样的心态去读,你会发现书中介绍了很多非常巧妙的处理方式。珠玉在前,我也就不多卖弄。

  书不厚,但内容详实,习题很棒,而且有丰富的引用文献,第二版在预售的时候就赶紧订购了。新版补充了SVD降维相关技术,以及目前最热的分布式机器学习相关技术。此书译者很刁钻,翻译的几本书都是精品。

  实在想吐槽一下被顶的最多的那篇书评和那些无脑点赞的。

  书的密度很大,每个知识点页数都不多,但至少都介绍清晰,而且还有深入探索用的文献。Mapreduce论文也不过10页左右,书里头用了30页,估计考虑到有人智商不够用。本书中mapreduce代码很少,因为书只介绍思路,习题中需要自己用mapreduce实现。目录中提到的每个方面,作者只介绍了其中需要用“大数据”思路去解决的问题,其他的方面有其他方面专业的书籍和论文可以去探索。作为一个从业一年的小同志,看了大家的评论,觉得现在互联网行业实在是有点浮躁。建议还在念书的同学们如果真的对大数据和分布式处理感兴趣的可以阅读本书。

  再推荐一本Nathan Marz(storm作者)的《Bigdata》,这本书从架构的角度讲了实时处理和批处理如何有效地结合,以及相应的开源工具。如果要电子版的可以留言问我要,虽然我懒得上豆瓣了。

  《大数据》读后感(二):《大数据》读后重整理

  读技术书于我而言就像高中物理老师说的那样:一看就懂、一说就糊、一写就错。为了不马上遗忘昨天刚刚看完的这本书,决定写点东西以帮助多少年之后还有那么一点点记忆。好吧,开写。

  1. 总体来说,数据挖掘时数据模型的发现过程。而数据建模的方法可以归纳为两种:数据汇总和数据特征提取。其中数据汇总主要包括聚类和PageRank,数据特征提取主要包括相似项发现以及频繁项集。

  2. 相似性发现:在大量集合中发现相似的集合。首先将集合表示为集合矩阵的形式,因为集合矩阵的数据量特别大导致可能无法全部放入内存所以需要通过合理的方式压缩数据。解决方案是使用最小哈希签名矩阵来表示集合矩阵(原理和计算见P50-54)。但是即使签名矩阵中的行数得到了压缩,但是因为列数很庞大所以如果每两个集合都进行比较而计算相似度的话计算量依然很庞大。在这里,作者提到了一种局部敏感哈希算法,采用行条化策略,用来构建候选对(P56-57)。使得候选对较少,计算量大幅度下降。上面所述为Jaccard距离的相似性问题,对于余弦距离的相似性问题主要表示为:集合矩阵--->梗概矩阵-->局部敏感哈希算法(行条化策略)

  3. 频繁项集:在购物篮中出现次数大于一定阈值的项对。

  1)基本概念:支持读,可信度

  2)频繁项对发现算法:

  A-priori算法核心:只有i,j都是频繁项,{i,j}才可能是频繁项。

  CY算法核心:i,j都是频繁项同时{i,j}哈希到一个频繁桶中才 可能作为候选频繁相对。

  4. PageRank:V‘ = BMV+(1-B)e/n的迭代。其中B是一个常量,一般选为0.8~1,;M是链接转移矩阵。大数据的应对措施是使用Map-Reduce工具处理。

  《大数据》读后感(三):作为一个从业二十年的屌丝,本屌真心被这本书吓尿了!

  鉴于中文翻译缩水不准的情况,本掉千辛万苦找来英文原版,一看到目录,本屌就硬了,尼玛作者太牛逼了!

  最新补充一句,话说如果这本书的名字叫做类似《数据挖掘基础》的话,本屌绝壁不喷它。本来就是基础的基础,名字介绍扯那么大旗子干嘛,又没那本事。

  MAP-REDUCE,30页搞定

  相似查找,50页搞定

  流式数据挖掘,30页搞定(这尼玛可是流式数据挖掘啊,比MR更新的挖掘技术,居然比MR还少!)

  链接分析,30页搞定

  频繁项集,40页搞定

  聚类,40页搞定

  在线广告,20页搞定

  推荐系统,30页搞定(尼玛作者你是人才呀,国外的网站为了研究推荐系统,出了无数的PAPER,到你这里就剩15张纸了!)

  分析社会化网络,40页搞定

  降维,30页搞定(尼玛你当你在玩单机版吗!)

  大尺度机器学习,40页搞定(吐血啊,这尼玛尺度真鸡巴大!)

  接下来,本屌顶着半身不遂的身躯,内心抵抗者撕烂这本书的诱惑,继续坚持往下翻,本地屌是在是受不了了。

  MR,全文一行伪代码不见,例子一个没有,连Word Count都懒得写了,看了这书鬼才知道MR怎么用。

  相似查找,话说照这本书上说的做,你绝壁死翘翘了,连GOOGLE最经典的高性能雷同文章查找的算法都不介绍,你这章是在搞毛啊。另外,SOLR,LUCENE可以说是现在比较简单的相似文章查找利器,本文居然不介绍相关内容,你TMD当内存不要钱呀!

  流式数据挖掘,作者大姨妈,您老人家知道有个东西叫S4不!

  链接分析,看了你这章要是能懂的,GOOGLE的大婶都要给你跪了。

  频繁项分析,这大概是数据挖掘当中出现最早的分支了,没想到您老人家居然才达到罗列的地步,倒。。。

  聚类,这章真心写得垃圾,基本算法都没写全,高性能聚类P也没讲,尼玛,你会玩个单机玩具就当自己牛逼了啊!

  在线广告,话说在先广告是其中一个主要的流式计算的应用方面,并且是现在最前沿的技术(什么MR都已经算是几年前的过失技术了,现在都烂了),作者你TMD好意思啊,看看你都写了啥!照你写的做那还不把内裤都赔光了啊.

  推荐系统,尼玛NETFILX都是6-7年前的破事情了,你还当个宝啊,现在推荐系统最大的问题就是实时性的问题,解决办法就是流式计算,话说您老人家对流式计算那可以说是一无所知!

  社会化网络,这个懒得吐槽了

  降维,现在需要用到降维的,就是大规模数据,而大规模数据又必须通过并行计算才能在比较短的时间内完成庞大的计算,话说您老人家都讲到哪里去了呢,MR实现的并行降维算法呢?

  大尺度机器学习,傻逼你自己玩单机区吧!

  另外,本书一行代码也没有,最高深的脚本语言就是SQL,不会写代码你玩个球的MR,你玩个球的并行计算,你玩个球的大数据呀!

  MLGB的,这本书的作者是个骗子,译者是个傻逼,引进者脑子被门夹了。

  《大数据》读后感(四):海量数据挖掘

  当今时代大规模数据爆炸的速度是惊人的,当然,其应用也是越来越广泛的,从传统的零售业到复杂的商业世界,到处都能见到它的身影。那么大数据有什么典型特征呢?即数据类型繁多、数据体量巨大、价值密度低即处理速度快。本书也正是将注意力集中在了极大规模数据上的挖掘,而且是从算法的角度来看待数据挖掘。其主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。在图书章节设置上,每章末尾都有小结,对重点专有名词会给出简要的概况,让大家对全章内容有一个巩固和再认识。更有习帮助大家理解正文所讲解的知识点。

  本书是在Anand Rajaraman和Jeff Ullman于斯坦福大学多年所授的一门名为“Web挖掘”季度课程材料基础上总结而成,其含金量已可见一斑。译者是中科院计算技术研究所前瞻研究实验室信息检索课题组组长王斌博士,他同样也是《信息检索导论》的译者,相信大家拿到这本书的时候会被王老师孜孜以求的态度所感染。

  转自图灵社区:作者LXL

评价:

[匿名评论]登录注册

【读者发表的读后感】

查看大数据读后感10篇的全部评论>>

评论加载中……