《Super Crunchers》经典读后感有感
《Super Crunchers》是一本由Ian Ayres著作,Bantam出版的Hardcover图书,本书定价:USD 25.00,页数:260,特精心从网络上整理的一些读者的读后感,希望对大家能有帮助。
《Super Crunchers》精选点评:
●下周要考啊,还有五十多页没看。
●先看了2016年出版的《what the luck》,然后看的这本儿2007年的书。两本都是对统计分析方法的科普书籍,本书比《what the luck》要强百倍。
●回归分析、随机实验,没了。这本书更像是统计数据分析的科普小册子,仅供文科pm同学看看。
● “The human mind tends to suffer from a number of well-documented cognitive failings and biases the distort our ability to predict accurately.” //"It's best to have the man and machine in dialogue with each other, but, when the two disagree, it's usually better to give the ultimate decision to the statistical prediction."
●这本书所描述的方法,极其重要,甚至可以说代表了社会科学的未来。
●觉得还挺有意思的
●doc88 上 ¥5.8 下载 太便宜了
●Data-driven decision making
●看看
●稍微还有那么点用
《Super Crunchers》读后感(一):通过number看世界
作者是stevn levitt的朋友,也是好几本书的共同作者. 这本身和freakeconomic比起来,深入的讲到了(1)统计的方法(2)对社会的影响.如果你知道regression test , randomized test 和 neural network的话, 会有帮助理解那些分析的背景.
这本书也提供了很有趣的故事. 比如用regression来预测波尔多红酒的质量.但是更重要的是作者提出了一些我们要将来思考的问题 - data driven decision making能不能代替人们的经验和直觉. 如果可以的话, 那些受到尊重的职业是不是要败落? 比如医生,贷款审批人员.
这本书对我来说,开阔了我的视野.很多没有想到的东西原来都是可以用数据分析来达到更好的效果的. 使我开始用一种思考的方法来看待一些日常的生活,同时也帮助我重新思考工作的一些的改进怎么用数据来作为基础.
《Super Crunchers》读后感(二):这本书简直是给我这样的人confirmation bias的。。。:P
First of all, 我老人家就是喜欢没事收集和tweek data,分析看看有没有什么trend的,虽然生活里面没有什么设计randomized trial验证假设的机会,但是这个概念实在非常贴近内心。Overall I like the book,虽然新信息不是很多,这个喜欢来自于自己的bias吧。
喜欢本书的另外原因是刚好书里提到的好几个方面从前也读过类似的书,Checklist Manifesto, Freakonomics等等,(回头来列一下几大方向的试验)。Randomized trial in marketing and medical research, 甚至还提了一点supple chain management (which is an area that I am hugely curious about but not sure where to look for further information)
书里提出的一个idea是,不要用heuristics 去猜什么办法会有最佳成效,instead推出各种类似办法,设计试验用数据验证到底哪个办法最好。这个说法在现在很多书里面都提到,包括the dragonfly effect(use social media for nonprofit organizations)。大体意思是,不要纠结于自己的成见,快速measure and analyze,放弃不好的办法,赶快去adopt事实证明就是好用的办法,就行了。甚至不需要知道一种办法为什么work,if good data says it works, then adopt it on a wider scale (作为statistician 这个claim还是有点怀疑态度,因为试验设计里面出各种问题忽略一些因素的可能还是很大的)
对作者claim的regression sustainably beat expert opinion in many fields,很想看看具体数据和试验设计,虽然是一条我很乐于同意的claim,还是觉得too good to be true。
书中提到eharmony之类claim data driven prediction model是他们claim成功的原因,但是The upside of irrationality 里面攻击这个model的弱点也正在于此。Human traits are not so readily reduced to easy to compute dimensions.
书还没有读完,我还想知道作者有没有说什么场合下可以stats prediction consistently beat experts,什么时候不是。
-------------------------------------
读完了,缺乏惊人的地方,最终也没有能回答上面提的问题。
书可能过浅显了?读过的感觉是good to know, but now what?
也许对于我自己来说,就是多想想自己生活里面还有什么其他data可以去crunch?
《Super Crunchers》读后感(三):很多例子也许有争议,但是很有开阔视野
作者的宗旨是数据分析永远不可能完全取代传统的专家、机构、学者们做决策的职能,但是可以与这些直觉、经验、观察结合起来,作为辅证支持。 举几个有争议的例子
比如第八章:
Direct Instruction 一开始就是形象的描述了什么是指导教学法。 指导教学法是完全按照指令来, 但是很枯燥, 没有太多老师自己发挥的空间, 指导教学人数要少, 难度高,与另两位知名大师推荐的方法不一样, 但是根据大数据分析的效果特别好, 还有联想力, 并且因为它不依赖某个特定的老师, 还可以大量的推广,但是传统专家不同意这种教育办法,因为觉得太单一而且枯燥,并且不强调老师的创造力,但是学校作为教育机构特别喜欢这些, 并且还可以降低老师的备课时间,一种是一对一的生动的传统的教学方式,另一种是系统性的,框架性的,但是被大数据证明有效的教育实验, 但是很多教育机构不承认这种科学依旧的研究结果,因为他们更重视教育的价值体系,以教师为主, 那大家用还是不用呢?
我们在读书会讨论这本书的时候, 感觉大家都不太支持这样的教学办法, 有的担心是把孩子培养成机器人, 有的是担心不够突出个性。
所以直觉、观念、经验 与大数据分析的冲突, 也会挑战了一些专家或者专员的地位和权威
但这样也有好处,比如: 贷款专员在通过系统管理后,徇私,种族歧视、很多主观的因素影响贷款的额度和利息的因素会被降低很多。
再比如如果用大规模系统的指令来指示,就可以扩大以及外包一些工作,因为工作流程是靠试错的统计结果设计出来。但是作者这里小小的complain 一下,因为数据分析专家未必显得比其他领域的专家更有魅力,所以未必受到欢迎。
大数据分析在销售领域里特别受欢迎, 因为它的效果比较好,销售量上去了, 当然就受企业喜欢。
数据分析产生的结果准确,但是如果大家都依赖数据分析的话, 那么产品或者服务会变得更加千篇一律, 为了解决这个问题,那么该怎么办呢? 书里介绍了一个公司 Epagogix 的公司、 这个公司采用Artificial Intelligence 可以帮助电影厂商提供如何修改剧本, 帮助增加票房
大数据的问题:
书里提到的目前隐私权的保护,仅仅限于对于在住户内的隐私, 但新的技术引起了其他领域内的隐私权的争议, 包括面部识别找到罪犯, 广告的市场推销, 包括社交网络会跟别人泄露行踪, 大数据分析应用开始缩小人们在公众场合的自由度; 数据挖掘 data mining 预测未来的信息和趋势, visa 通过我的消费记录来预测我未来5年是否会离婚的例子。 当我们意识到这些情况发生时, 我们要开始警惕以及抵抗这种这种对隐私权的侵犯。
同时大数据也有错误的时候,这时候我们就需要用open mind 来分享分析,来接受挑刺和反驳,也总结了很多的数据分析里可能出现的失误,对数据要进行审计, 并且很多数据分析也没有确定的定论, 这给研究领域很大的空间。 这里作者举了枪支法的例子: 枪支越多, 犯罪越少的分析, 守法公民携带枪支, 由于罪犯在不知情的情况下, 会降低犯罪的可能性。
这个分析被支持枪支的人作为自由携带枪支的理由, 因为犯罪份子也担心他们也处于火力威胁到范围内。 这样就有了很大的影响力。重新核查后, 1) 如果做一点改变,法律可以降低犯罪性的理论不被论证。2) 发现错误、 携带枪支更可能增加犯罪的可能性。国家科学院也发现没有证据证明 携带枪支与 犯罪率有任何有关联的地方。所以大数据也会受到抵触, 什么样的组织以及群体比较适合来采用大数据分析( 要求组织客观、open mind, 不拘泥于讨论结果的形式
关于大数据的未来:开始就用作者女儿的例子介绍了标准差、 均值以及正太分布里的均值应用,跟大家科普为什么用数字让人变得更聪明。
《Super Crunchers》读后感(四):社会科学的全面数字化
uper Crunchers 这本书向我们展现了现代人,或者说现代的西方学者,是怎么研究社会科学的。在我国,常常是很多人因为感到数学不好学而去学社会科学,比如说去学法律。这样自然选择的结果是产生了一大批像李银河这样感情充沛而不切实际的所谓学者。然而现在最领先的西方学者已经抛弃了过去那一套抱着悲天悯人的心态空谈理论的研究方法。如果你去读他们的论文,你会发现其中到处都是图表和数学公式;如果你去观察他们的工作,你会发现他们大部分时间不是在写字,而是在编程。
法律领域内有一个非常经典的问题:给犯罪分子更长的刑期,是否会增强对他的改造,从而减少其出狱后的再犯罪率?在以往,人们可能会从伦理,道德,心理学的角度去分析这个问题。有的人可能会举出各种例子来证明他的论点,然而这些例子往往是非常极端而没有代表性的。这个问题直到最近才得到一个有说服力的答案。
耶鲁大学的Berube 和 Green 的研究完全基于数学统计。联邦法院总是随机的往不同的辖区派法官。有些法官倾向于重判,给长刑期;有些法官倾向于轻判,而随机过程决定了每个法官倾向于总体面对类似的案件。这样一来,可能完全相同的犯罪事实,有的犯罪分子比较幸运就获得了较短的刑期,而不幸的就会刑期较长。作者通过对一万多名犯罪分子记录的统计分析,结论是,刑期长短与再犯罪率无关。如果没有这样的统计数据,如果没有法官的随机指定,像这样的问题可能永远都无法解决。
统计是一个非常强大的研究社会问题的手段。NCAA篮球中有没有球队参与赌球?拉斯维加斯的一个赌博项目是每场比赛的胜负分差(Point Spread),也就是我们所常说的让多少球。比如宾夕法尼亚大学对哈佛大学,赌场开出的分差是14.5分,也就是说如果你押宾大,他们必须赢至少15分你才能赌赢。如果你考察每场比赛的实际分差,和赌场事先开出来的比赛分差,其相差值几乎完美地符合正态分布(平均值是0)。这样一来,正好有50%的时候,胜者实际赢了对手多少分比赌场预测值高,50%的时候比预测值低。也就是说赌博的赔率几乎是50%。这种50%概率正是赌场最喜欢的赌赢概率。
然而问题是,如果你考察那些胜负分差超过12分的场次,那么其分布就不是完美的正态分布了:有53%的机会,胜队实际取胜分差会比预测值低。为什么会出现这种情况?宾大学者 WOLFERS 猜测,当稳操胜券的时候,胜队会故意放水一点,去操纵比赛分差来影响赌局(术语叫做 Shave Points)。也就是说使用统计方法,你甚至不需要任何直接的证据就能发现有人参与赌博。
类似的手段可以应用几乎任何社会领域。比如说婚姻问题。传统的婚姻问题专家判断一对夫妇是否会离婚,成功率只有53%,只比瞎蒙高一点。而最新的方法,听一对夫妇之间的交谈15分钟,专家就有能以95%的准确率判断他们未来15年内会不会离婚。其所使用的方法,是给这15分钟的交谈录像,然后几个人坐下来看录像,一个画面一个画面的分析其中人物的细微表情和语言,然后把统计结果输入一个事先做好的复杂方程之中,这个方程会告诉你该夫妇离婚的可能性。这个方程是怎么设计出来的呢?用大量的数据回归出来的。
统计方法能够大行其道的根本原因是现在网路和计算机技术的提高,特别是便宜的海量存储给大量的数据分析提供了可能性。现在指导社会科学的先进文化是理工科思维,先进生产力是统计模型,计算机和海量的数据。
这种通过分析海量数据来预测和理解社会问题的方法被人称为 number crunching,现在甚至已经有了专业的公司专门为商业公司干这个事情来预测顾客行为。这样做的一个结果是商家可能比你自己更了解你。比如你从 Blockbuster 租了一盘 DVD,Blockbuster 可能比你更了解你不按时归还的概率。
一个典型的专业公司是 Teradata。它为65%的世界顶级零售商,70% 的航空公司,和40%的银行服务。他们的一个典型业务是判断哪些老顾客可能会因为一次不愉快的服务经历而离开你们公司。Continental Airlines 就专门有人做这个。比如一次航班误点或者行李丢失事件发生之后,如果统计分析系统判断某个长期顾客有可能要因此从此不飞 Continental 了,这位客户就会得到特别好的照顾。
甚至赌场也这么做。每一个顾客入场玩都刷卡。他们根据每一个顾客的收入,年龄,以往赌博记录,居住地等等计算该顾客的 pain point - 也就是此人一晚上最多输多少钱下次还能来玩。一旦发现某位顾客今晚输的钱已经接近 pain point 了,就会立即派服务员过去邀请他免费吃顿牛排停止赌博。
这件事情的最可怕前景是,商家将会可以根据顾客不同的价格承受能力,给每个顾客一个不同的价格。
传统的社会专家靠直觉,甚至是个人感情好恶来做研究,而未来属于数字。但我国在这方面可以说是相当落后。我国"主流经济学家"经常鄙视那些玩数学模型的海归,人们不习惯用数字说话。
更不利的一点是,我们可能根本就没有数字可以用。我国的统计水平可以说是极差,一个最基本的GDP数字居然都能随便变来变去。在这种情况下你怎么才能很好的做出决策?我们看NBA比赛,无不赞叹美国人对数字统计的热衷:这是他的这个赛季的第几个两双,如果他两双了球队获胜的概率是多少,等等等等。量化思维必须被培养成一种习惯。从这个角度讲,"吉尼斯世界纪录"的最大贡献可能是培养了人们尊重数字的习惯。
没有数字就没有真像。
本书作者作者是耶鲁法学院的教授,此人擅长用计算机做统计研究。
《Super Crunchers》读后感(五):Super Crunchers 延伸阅读
作者推荐阅读:
Ray C. Fair,
redicting Presidential Elections and Other Things (2002).
teven Levitt and Stephen J. Dubner,
Freakonomics: A Rogue Economist Explores the Hidden Side of Everything (2005).
John Allen Paulos,
Innumeracy: Mathematical illiteracy and Its Consequences (1989).
John Donohue,
eautiful Models, and Other Threats to Life, Law, and Truth (forthcoming).
书中值得一读的其他书籍和文章:
An introduction to Neural Networks By Kevin Gurney
eural Networks and Betting:
Hsinchun Chen et al.,
quot;Expert Prediction, Symbolic Learning, and Neural Networks: An Experiment on
Greyhound Racing," 9 IEEE Expert 21 (Dec. 1994).
Daniel C. Esty and Reece Rushing, Data-Driven Policymaking, Center for American Progress (Dec. 2005).
James Surowiecki, The Wisdom of Crowds (2004)
arbara Ehrenreich, Nickel and Dimed: On (Not) Getting By in America (2001).
Ronald Fisher, Statistical Methods for Research Workers (1925);
Ronald Fisher, The Design of Experiments (1935).
David Greenberg et al., Social Experimentation and Public Policy-making (2003).
enjamin A. Olken, "Monitoring Corruption: Evidence from a Field Experiment in Indonesia,"
William M. Grove and Paul E. Meehl,
quot;Comparative Efficiency of Informal (Subjective, Impressionistic) and Formal
(Mechanical, Algorithmic) Prediction Procedures: The Clinical-Statistical
Controversy," 2 Psychol. Pub. Pol'y and L. 293, 298 (1996);
D. Kahneman et al.,Judgment Under Uncertainty: Heuristics and Biases (1982)
Oliver Wendell Holmes, Jr.,
quot;The Path of the Law," 10 Harv. L. Rev. 457 (1897)